Orientação a documentos

Autores:

 

Douglas José Peixoto de Azevedo - GPS
Ana Maria de Alencar Price - UFRGS
Robert Carlisle Burnett - PUC - PR


1 Introdução

Há mais de 30 anos, desde os primórdios da informática comercial, as empresas vêm enfrentando os mesmos problemas: como comunicar e gerenciar o vasto fluxo de dados e informações gerados diariamente. Mesmo com investimentos contínuos em automação de escritório e na persistente busca do sonho do escritório sem papel, pois o volume de papel despendido diariamente é assombroso. Segundo a Dataquest [REI94], 98% dos usuários empresariais de computadores empregam software de processamento de texto em seus PC’s; muitos utilizam os PC’s somente para essa finalidade. Então, a utilização predominante dos computadores é no processamento de documentos. Em suma, a finalidade deste trabalho é caracterizar ambientes orientados a documentos, seus software, hardware, infra-estrutra de comunicação de dados e, principalmente, os tipos de documentos.

1 Introdução

Os ambientes de trabalho internet, intranet, groupware e CSCW (Computer Supported Cooperative Work) compõem o ambiente orientado a documentos. Embora este ambiente não seja uma tecnologia emergente, o aumento de sua popularidade é um fenômeno mundial que extrapola aos circunscritos ambientes dos negócios e dos computadores. Pode-se citar, como exemplo, o crescimento exponencial da Internet e da WWW - World Wide Web, que trouxe para dentro das organizações uma das mais excitantes e importantes tecnologias: as Intranets corporativas. Basicamente, a Intranet envolve o uso de tecnologias desenvolvidas para a Internet para criar Internets privadas nas organizações. A tecnologia WWW, com os arquivos padrão HTML - HyperText Markup Language e servidores HTTP - HyperText Transfer Protocol, oferece um interface simples e uniforme, tornando-a um efetivo integrador e denominador comum entre diferentes plataformas [BOR95].

2 Documento

Os documentos constituem a forma mais simples e usual de troca de informações, dentro de ambientes informatizados. Documentos podem ser: formulários formatados [BAL94], (onde as informações são atributos destes formulários) ou formulários não formatados [WEI92], (onde textos, imagens ou combinação destes elementos podem ou não ser atributos destes formulários).

Pode-se denominar um documento como dinâmico ou estático. Documento dinâmico é aquele em que o conteúdo é atualizado interativamente pelo usuário. O formulário estático, o conteúdo não é atualizado. Em virtude desta forma de armazenar os dados/informações, o conceito de registro não faz sentido principalmente para formulários estáticos onde seu conteúdo são textos que não mudam.

Surge daí, a importância de estudar ferramentas para representar estes documentos de modo a permitir um melhor manuseio através da automatização.

Entretanto, o fato de escrever textos é constituído por várias tarefas, tais como estruturar idéias e organizar a sua apresentação. Num nível mais amplo, criar textos pode ser entendido como projetar documentos. Quando documentos são projetados, determinadas informações podem ser associadas a outras informações, pertencentes ou não ao mesmo documento. Se o usuário estiver usando um editor de texto, precisará abandonar o texto que está preparando, encontrar a referência e copiar o texto sobre o assunto referenciado. Seria interessante se esta operação fosse realizada de uma forma mais automática e produtiva, onde o usuário pudesse localizar, ligar as referências e navegar nos segmentos de texto que compõem os documentos sem perder a referência de origem. No processamento de dados, especialmente em aplicações comerciais, as informações manipuladas são formatadas e armazenadas em estruturas de banco de dados. Para empresas que possuem maturidade em processamento de dados e textos, o procedimento consiste em integrar estas atividades. Esta integração pode ocorrer quando um documento é editado e se torna preciso buscar informações armazenadas em estruturas de banco de dados alimentadas por sistemas aplicativos [POL91].

Outra área cujo avanço está sendo bastante estimulado é a Internet. Com a sofisticação de Homepages, tornou-se necessária uma melhor estruturação dos documentos, Hiperdocumentos e facilidades de navegação. Segundo Conklin [CON87], a idéia de facilitar a navegação entre documentos originou a proposição de uma nova forma de estruturação da informação. Navegação é o processo pelo qual o usuário percorre nodos de um Hiperdocumento através de âncoras ou pelo caminho seqüencial. Isto pode levar o usuário a uma situação onde sente-se "perdido", sem saber o quanto se desviou do caminho que percorria inicialmente, devido ao fato do Hiperdocumento possibilitar muitos caminhos alternativos. Por esta razão, a navegação tem se tornado um problema sério para a utilização de Hiperdocumentos.

A navegação pode ser realizada através de uma leitura, quando existe a cobertura seqüencial linha a linha de todo o Hiperdocumento, ou pode ocorrer, também, através de um dos seguintes caminhos:

busca - Ocorre quando sabe-se a identificação de uma informação e deseja-se apenas a informação específica;

folheio - Ocorre quando o leitor "pula" de um ponto a outro do Hiperdocumento.


2.1 Hiperdocumentos

O prefixo Hiper [BAL94] vem do grego e é definido como excesso, "além". Importante também ressaltar-se o significado de documento ou texto, pois são sinônimos, os quais se referem a um conjunto de informações que contêm palavras, frases e orações em algum idioma, podendo possuir imagens e som. A partir destes significados, deduz-se que um Hiperdocumento é algo a mais que um documento. Isto, na prática, quer dizer que ele possui mais que uma dimensão, ou seja, em vez de existir apenas uma ordem seqüencial entre os seus componentes, existem, também, outras alternativas de ordenação, levando em consideração as relações existentes entre seus componentes.

Por exemplo: uma enciclopédia que possui índices que remetem o leitor para um de seus artigos formado por texto e gráficos, o qual possui uma lista de "leia também" ao final do artigo, referenciando outros assuntos, é um Hiperdocumento. Assim, o leitor pode acessar rapidamente a informação que deseja, sem a necessidade de fazer uma pesquisa demorada nos diversos volumes da enciclopédia. A questão básica é como modelar o exemplo apresentado como um grafo, onde cada nodo contém uma lista de verbetes, para o caso de índice, ou um artigo e, os arcos dirigidos representam referências do nodo origem do arco para o nodo destino do mesmo, conforme demonstrado na Figura 2.1.

Figura 2.1 - Trecho de Enciclopédia

Um sistema computadorizado de Hiperdocumento é uma forma de administração de informação, onde armazenam-se os dados, informação codificada digitalmente em uma rede de nodos, como o grafo apresentado anteriormente. Num sistema de Hiperdocumentos, é necessária a existência de mecanismos de navegação sobre o grafo de informações. Algumas formas utilizadas para a navegação são:

  • multijanela - Existe uma correspondência direta entre as janelas mostradas na tela e os nodos armazenados em uma base de dados.

  • única janela - Existe uma única janela que é "rolada" para a apresentação contínua dos trechos de informação que formam o documento.

  • cartões - Existe uma janela onde são apresentados cartões um a um.

A organização de componentes de Hiperdocumentos pode ser simples, quando tem-se uma estrutura hierárquica, como na Figura 2.2. Mas pode, também, chegar a ser bastante complexa, quando se tem Hiperdocumentos em forma de rede não estruturada, como na Figura 2.3. Existem sistemas que só manipulam Hiperdocumentos estruturados.

Figura 2.2 - Hiperdocumento Estruturado

wpe1.jpg (6013 bytes)

Figura 2.3 - Hiperdocumento Não Estruturado

Atualmente, não existe um modelo de arquitetura comum aos vários sistemas desenvolvidos, mas estes sistemas possuem certas características básicas que são:

  • nodos - é uma das unidades fundamentais de um Hiperdocumento. Nos nodos são armazenadas as informações que compõem o Hiperdocumento. O grande problema na definição de um nodo de Hiperdocumento é o fato de o mesmo possuir um limite muito rígido, fato este que não ocorre em um texto normal, onde os parágrafos se integram com seus vizinhos.

  • links e âncoras - são as outras unidades fundamentais de um Hiperdocumento. O conjunto de todos os links de um Hiperdocumento determina a sua estrutura. Os links são indicadores de nodos, e podem ser unidirecionais, quando só apontam o nodo destino, ou bidirecionais, quando apontam o nodo origem e o nodo destino. A relação existente entre âncoras, links e nodos pode ser vista na Figura 2.4.

Figura 2.4 - Relação entre âncora, link e nodo

2.2 Estrutura Lógica de Documentos

Segundo Weissheimer [WEI93], um documento pode ser construído a partir de uma estrutura lógica, sendo que esta estrutura define um modelo a ser seguido na construção dos elementos que compõem o documento. Os elementos que compõem uma estrutura lógica definem uma hierarquia apropriada a ser seguida quando da construção dos documentos. A hierarquia define os capítulos, seções, subseções, parágrafos e outros elementos que devem possuir os documentos gerados a partir da estrutura. Têm-se como vantagem no tratamento de estruturas lógicas para a criação de documentos:

  • a facilidade para a preparação dos documentos finais;

  • a padronização dos documentos gerados;

  • a capacidade de imposição de restrições quando da criação do documento, sendo que estas restrições podem ser:

  • restrição de existência - refere-se à utilização dos elementos pertencentes à estrutura (facultativa ou obrigatória), possibilitando que, se o elemento da estrutura for definido como facultativo, o usuário pode não utilizá-lo quando da criação do documento. Esta restrição torna a estrutura mais flexível;

  • restrição de tipo de elemento - permite a definição de tipos de dados que podem compor determinados elementos dos documentos (texto, imagem, áudio, elementos extraídos de uma consulta a um banco de dados);

  • restrição de cardinalidade - permite informar que um elemento da estrutura pode gerar um número mínimo e um número de ocorrências no documento gerado;

  • restrição de elementos alternativos - permite a especificação de estruturas mais genéricas, possibilitando a seqüência de caminhos distintos para os seus elementos. Com isto, uma estrutura pode ser acessada sob várias visões, podendo ela se adaptar às características dos elementos.

As estruturas também podem possuir referências a elementos de outras estruturas, existindo uma estrutura não linear de relacionamento entre os elementos das estruturas lógicas.

2.3 Características de Documentos

Os documentos têm características peculiares que exigem dos projetistas de banco de dados preocupações adicionais em relação aos sistemas de banco de dados convencionais. Alguns objetos multimídia constantes de documentos exigem uma grande quantidade de volume de informação, dependendo da qualidade e do tempo desejados [BOR96a, BOR96b, MEL95].

Uma das primeiras características é o grande volume de dados a serem armazenados, o que obrigou a criação de padrões de compressão de imagem e som, tais como JPEG, MPEG e outros. O problema não se limita aos meios de armazenamento de dados, mas, principalmente, nas redes de transmissão por onde circulam estes dados.

Na característica de leituras múltiplas, um dos aspectos dos documentos é que estes devem dar suporte a diferentes tipos de leitores e estes podem dar diferentes interpretações às leituras que fazem. Entretanto, as diferentes interpretações não podem ter diferentes significados, pois um documento não pode ser ambíguo. Assim, os autores devem atender às diferentes expectativas dos leitores, sem confundir o contexto.

Na característica de possibilidade de mais de um autor, a importância está centrada no trabalho cooperativo, mais produtivo e mais rápido. Há vários processos de trabalho cooperativo, onde um ou mais podem fazer alterações, onde todos podem fazer observações, mas não alterar o trabalho de outro, ou outras regras estabelecidas pelo grupo. Em geral, documentos podem oferecer suporte a controle de versões, tanto de textos como de links. Com estes controles, os usuários podem estabelecer controles de que versão desejam fazer links com os documentos. Como a grande riqueza dos documentos é a possibilidade de estabelecer links entre documentos, é importante que estes links possam ter associado algum tipo de comportamento, controlado pelo usuário.

Na característica de recuperação contínua no tempo, os tipos de dados como vídeo e áudio são contínuos por natureza, trazendo uma característica temporal inexistente nos tipos de dados convencionais. Nestes últimos, a informação é inteiramente representada através de seus atributos, em tipos de dados temporais. Os valores desses são variáveis dependentes do tempo. Assim, toda a referência às informações representadas como temporais terá associada o intervalo de tempo desejado.

Na característica de sincronismo, é a necessidade que se tem para mídias temporais, onde objetos como áudio e vídeo devem ser ajustados para ter início no mesmo instante, onde um não pode ter atrasos e o outro seguir adiante. Sincronismo é um dos requisitos de integridade dos dados acedidos do banco de dados.

Na característica de interação do usuário com dados multimídia, é a necessidade de uma interface especial. A mídia contínua, como no caso de acionamento de CD, videocassete ou similares, exige que estes equipamentos estejam disponíveis para o usuário, no momento da exibição. A exibição é produzida num intervalo de tempo no qual o usuário pode interagir modificando, em tempo real, o caminho da exibição.

Na característica de informações multimídia o áudio e vídeo possuem atributos qualificadores, sobre os quais se pode fazer pesquisa por conteúdo com uma linguagem tipo SQL.

Na característica de diversidade dos meios de armazenamento e exibição, um som pode estar armazenado em uma fita cassete, DAT ou ainda em um CD. O SGBD não só tem que localizar onde se encontra cada mídia, como também gerenciar a ordem e sincronismo de exibição de cada uma delas.

Na característica de estrutura de acesso, os usuários desenvolveram uma série de habilidades cognitivas e físicas para manipular documentos em papel, cujos formatos e particularidades são relativamente padronizados para todos os tipos de documentos em papel. O termo "estrutura de acesso" refere-se às facilidades providas pelo autor para auxiliar o leitor. No papel, pode tomar o formato de cabeçalhos, índices, espaços, etc., enquanto que a informação apresentada eletronicamente pode incluir uma série interativa, fácil de usar. Pesquisas demonstraram um melhor desempenho na leitura quando o texto apresentado na tela é maior (40 a 60 linhas) comparado com textos menores (20 linhas).

3 Software e Linguagens

O software necessário para a implementação de ambientes orientados a documentos depende muito da plataforma escolhida. Primeiramente, irão ser descritos os software necessários para a implementação de uma estrutura para suportar um servidor de trabalho para um ambiente orientado a documentos, nas seguintes plataformas:

Após a infra-estrutura estar definida, o próximo passo é a escolha dos software e linguagens necessários para sua implementação.

Apresenta-se uma relação de software e linguagens para implementar este ambiente. Estes software, algumas com linguagem nativas ditas visuais, estão relacionadas abaixo:

4 Conclusão

Ambientes orientados a documentos representam avanços significativos na melhoria da comunicação e produtividade das empresas. O compartilhamento de informações entre departamentos e indivíduos torna a empresa mais dinâmica. São grandes os desafios que as empresas têm enfrentado para gerenciar os vastos fluxos de dados e informações gerados diariamente, e são inúmeros os recentes desenvolvimentos que concorrem para colocar esses objetivos ao alcance de qualquer organização. As informações contidas em documentos podem ser associadas extensivamente a referências cruzadas, com um item de dado a outro, que por sua vez, pode estar ligado a outro e assim por diante. Embora esta tecnologia não seja a melhor solução para todos os problemas, ela pode ser muito bem utilizada em empresas que já tenham redes internas com protocolo TCP/IP e que possuam grupos de trabalho dispersos [BER96].

Espera-se ter caracterizado o ambiente orientado a documentos como sendo um ambiente com documentos que fornecem informações em formas que ultrapassam os métodos tradicionais de tratamento de papéis.

Referências Bibliográficas

BAL94] BALSEMÃO, Luciana de Oliveira. HYPERPRO uma ferramenta para a construção de hiperdocumentos no PROSOFT. Porto Alegre: CPGCC da UFRGS, 1994.

[BOR95] BORGES, Marcos Roberto da Silva et al. Suporte por computador ao trabalho cooperativo. Porto Alegre: Instituto de Informática da UFRGS, 1995. Trabalho apresentado na Jornada de Atualização em Informática, 1995, Canela.

[BOR96a] BORGES, Roberto C. de Mello; SOUZA, Helena S. P. Vauthier de. Modelagem orientada a objetos & hiperdocumentos. Porto Alegre: CPGCC da UFRGS, 1996.

[BOR96b] BORGES, Roberto C. de Mello. Interface homem-máquina em hiperdocumentos. Porto Alegre: CPGCC da UFRGS, 1996.

[CON87] CONKLIN, Jeff. Hyperpext: an introduction and survey. Computer, Los Alamitos, v. 20, n.9, p. 17-21, 1987.

[GOT97] GOTTESMAN, Bem Z. GroupWise 5.1 PC magazine online. Disponível na Internet. http://www.zdnet.com/pcmag/features/

grouware/gpwr1. 14 maio 1997.

[GRA98] GRAHAM, Ian S. HTML. Disponível na Internet. http://www.utoronto.ca/webdocs/

HTMLdocs/NewHTML/intro.html. Toronto, Canada. jan. 1998.

[HIL97] HILLS, Mellanie. Intranet as Groupware. New York: J. Wiley, 1997.

[LEM96] LEMAY, Laura; PERKINS, Charles L. Teach yourself Java in 21 days. Indianopolis: SAMS, 1996.

[LOT98] LOTUS Notes. Disponível na Internet. http://www.lotus.com. jan.1998.

[MEL95] MELO, Rubens N.; PORTO, Fábio A. Incorporando objetos multimídia em banco de dados. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (10. : 1995, Recife). Anais... Recife : UFPE/DI, 1995. p. 307-320.

[MIC98] MICROSOFT. Disponível na Internet. http://www.microsoft. jan. 1998.

[NET98] NETSCAPE. Disponível na Internet. http://www.netscape.com. jan.1998.

[NOT96 ] NOTES. Install guide for server da Lotus. Cambridge : Developement Corporation, 1996.

[ORA97 ] ORACLE CORPORATION. Oracle Intranet strategy. Disponível na Internet. http://www.oracle.com/ 21. mar.1997.

[POL91 ] POLANCZYK, Carlos Alexandre. Uma ferramenta baseada em hipertexto para o desenvolvimento de software. Campinas: IMECC da UNICAMP, 1991. 98p.

[REI94] REINHARDT, Andy. Gerenciando os novos documentos. Byte Brasil, São Paulo, v. 3, n. 9, p. 63-78, set. 1994.

[WEI92] WEISSHEIMER, Érico Olavo. Uma linguagem para criação de hiperdocumentos. Porto Alegre: CPGCC da UFRGS, 1992.

[WEI93] WEBER, Jay C. L.; DESHPANDE, Salil. Multimedia on the Internet. In: GROUPWARE, 1993. Proceedings… San Francisco: Morgan Kaufmann,1993. p. 311-315