Processamento de imagens de documentos

Autor: Stefano Kubiça - GPS    

1. Introdução

Enquanto o Gerenciamento eletrônico de documentos trata, basicamente, do fluxo dos diversos tipos de documentos em uma Organização, o gerenciamento de documentos eletrônicos considera as imagens dos documentos, geradas a partir do papel ou microfilme. Sendo assim, o gerenciamento de documentos eletrônicos, em última análise, deve estar incorporado ao gerenciamento eletrônico de documentos da Organização.

1.1 Atualmente o mundo é de papel!

Qual é o procedimento oficial mais importante do ser humano quando nasce? Gerar um papel, a certidão de nascimento. E quando morre?... O mesmo acontece com as organizações.

Segundo uma pesquisa da Xplor Internacional – uma associação formada por 2.500 organizações de 45 países, inclusive o Brasil, -os documentos impressos duplicarão até 2005. Dave Webster[1] não hesita em dar cifras: "Um bilhão de folhas por dia é a estimativa de quanto papel é utilizado na Europa. Quanto papel utiliza uma empresa? O armazenamento eletrônico e mais especificamente o armazenamento óptico está se tornando uma alternativa viável".

1.2 Objetivo

Este artigo é o primeiro de uma série, onde serão abordados aspectos relacionados a documentos eletrônicos tais como: aquisição, processamento, armazenamento e recuperação.

2. Aplicações

A CELEPAR como empresa provedora de tecnologia de ponta em informática e preocupada com as demandas de seus clientes em relação a novas tecnologias, está investindo na especialização em processamento de documentos eletrônicos.

Muitas são as áreas onde essa tecnologia pode ser aplicada. Desde a preservação de acervos de documentos até o processamento de imagens médicas. Um exemplo é a Secretaria da Fazenda (SEFA/CRE), onde estão sendo realizados alguns experimentos a partir de Notas Fiscais entre empresas onde, através do processamento de imagens de Notas Fiscais e cruzando estas informações com outras contidas em Bancos de Dados, pode-se, através de um processo automatizado, buscar indícios de sonegação fiscal.

3. Imagens de Documentos

Hoje, os aspectos que têm ocupado mais os pesquisadores são: a eficiência de processamento e a capacidade de armazenamento para imagens de documentos. As questões de processamento, envolvem: aquisição[2], pré-processamento[3], segmentação[2], reconhecimento[4] e pós- processamento e serão abordadas nos próximos artigos. As questões de produção e armazenamento de documentos eletrônicos são aqui tratadas a seguir.

3.1 Dados versus imagens

Por que as imagens necessitam de muito mais espaço para armazenamento? O armazenamento de imagens em computadores só é possível graças à digitalização destas imagens. Isto normalmente é feito utilizando-se um equipamento chamado scanner que gera uma imagem eletrônica a partir do papel ou microfilme. Vejamos por exemplo uma imagem da letra "W" (fig. 1).

Fig. 1 - imagem da letra "W"

Se queremos armazenar no computador a letra "W", podemos fazer isso de duas maneiras: armazenando como dado ou como imagem. Como dado, a letra "W" ocupa um Byte (8 bits). Supondo que a imagem da letra "W" (fig. 1) esteja inserida em um espaço de uma polegada quadrada representada pela matriz 10x10. Necessitamos então armazenar 100 pontos (no mínimo 100 bits). Neste caso teremos uma resolução de 10 pontos por polegada (10 dpi). Em uma aplicação real devemos considerar no mínimo 200 dpi. No nosso exemplo, teríamos uma matriz de 200x200 e o espaço necessário para o armazenamento da imagem da letra "W" seria de 5.000 (cinco mil) Bytes.

A imagem da (fig. 1) é muito simples e pode ser representada e armazenada em preto e branco. No caso de imagens onde detalhes em níveis de cinza devem ser preservados (fig. 2), cada célula da matriz de pontos conterá mais de um bit dependendo da resolução. Com resolução de 256 níveis de cinza, são necessários 8 bits para cada célula da matriz, portanto, a nossa imagem da letra "W" com 200 dpi e 256 níveis de cinza ocuparia 40.000 Bytes.

Fig. 2 - imagem com 256 níveis de cinza[2]

Na verdade não tem sentido armazenar caracteres como imagem, mas um documento geralmente possui figuras, gráficos, logotipos, bordas, etc. Nestes casos, o armazenamento destes componentes como imagem é inevitável. Mesmo em documentos contendo somente textos temos problemas. A conversão das imagens de textos em dados através de um processo de OCR muitas vezes não traz resultados satisfatórios devido à qualidade dos documentos.

3.2 Armazenamento de Imagens

A questão do armazenamento torna-se importante na medida que, como vimos, imagens ocupam muito espaço, e muitas vezes precisam trafegar num sistema de gerenciamento eletrônico gerando sobrecarga e custo. Para resolver estes problemas, a tecnologia de armazenamento tem evoluído em duas frentes: o desenvolvimento das mídias e a compactação das imagens. No caso do desenvolvimento das mídias, hoje já é possível armazenar grandes quantidades de informação a custos razoáveis e com perspectivas de progressos ainda maiores. No caso de compactação de imagens, existem algoritmos sofisticados que permitem compactações em até 90% sem perda da qualidade, o que facilita o armazenamento e minimiza o custo das transmissões.

O gerenciamento de documentos eletrônicos, exige alguns cuidados quando se tratar de armazenamento, tais como:

Desempenho (tempo de resposta);

Confiabilidade (margem de erro aceitável);

Custo (retorno do investimento);

Obsolescência de tecnologia (evolução) ;

Dimensionamento;

Vida útil (deterioração das mídias).

4. Produção de documentos eletrônicos

O processo de produção de documentos eletrônicos tem como objetivo gerar, de forma mais eficiente possível, o conjunto de imagens que deverá fazer parte do gerenciamento de documentos eletrônicos.

A produção de documentos eletrônicos envolve, normalmente, as seguintes etapas na seqüência:

1 - Preparação dos documentos;

2 - Digitalização propriamente dita;

3 - Indexação para posterior recuperação;

4 - Inspeção (controle de qualidade);

5 - Manutenção (troca imagens rejeitadas);

6 - Gravação (armazenamento temporário);

7 - Arquivamento (armazenamento definitivo);

8 - Inclusão no sistema de gerenciamento.

A etapa mais cara e demorada é a indexação. Nesta etapa são gerados índices para posterior recuperação do documento e também imagens dos caracteres de interesse são transformadas em dados.

A extração dos dados para geração de índices ou transformação, na maioria dos casos é realizada de duas maneiras:

  1. Digitação;

  2. OCR (Reconhecimento Óptico de Caracteres).

A digitação é um processo lento e sujeito a erros, enquanto o OCR é um processo automático mas, como mencionamos anteriormente, apresenta problemas quando os documentos têm baixa qualidade o que é muito comum na prática. Como contornar esses problemas?

As mais recentes técnicas de processamento de imagens têm permitido eliminar estes problemas na maioria dos casos. Na verdade, estas técnicas procuram primeiro recuperar a qualidade da imagem digitalizada. Depois, evitam utilizar OCR’s tradicionais e preferem implementar reconhecedores específicos, usando, por exemplo, redes neurais ou computação evolucionária. Essa modificação inclui uma nova etapa entre a digitalização e indexação, chamada de processamento da imagem.

O processamento da imagem pode usar as mais diferentes técnicas de recuperação e reconhecimento, dependendo da aplicação, e divide-se em: pre-processamento, segmentação, reconhecimento e pós-processamento, conforme já mencionado, e serão abordadas nos próximos artigos.

REFERÊNCIAS BIBLIOGRÁFICAS

[1] WEBSTER, Dave. Document management; the storage solution today and tomorrow. Conference proceedings. Londres, 1995.

[2] FACON, Jacques. Processamento e análise de imagens. Curitiba, PUC Pr, 1998. Curso de Mestrado em Informática Aplicada

[3] O’GORMAN, Lawrence. Document image analysis. IEEE Computer Society, Los Alamitos, 1995.

[4] SCHALKOFF, Robert. Pattern recognition: Statistical, structural and neural approaches. New York : J. Wiley, 1992.

<