Processamento de imagens de documentos - Parte II

Autores: Stefano Kubiça – GPS Jacques Facon - PUC - Pr Edouard Lethelier - PUC-Pr

Vimos em artigo publicado no BateByte anterior que:

O gerenciamento de documentos eletrônicos considera as imagens dos documentos, geradas a partir do papel ou microfilme.
O trabalho com imagens de documentos envolve aspectos cruciais como processamento e armazenamento.
Imagens necessitam de muito espaço para armazenamento, porém técnicas de compactação hoje já permitem soluções razoáveis mesmo para grandes volumes.
Na produção de documentos eletrônicos, a etapa que requer maior trabalho de processamento é a indexação.
As questões de processamento, envolvem: aquisição[1], pré-processamento[2], segmentação[1], reconhecimento[3] e pós- processamento.

Trataremos neste artigo as questões relativas a aquisição. As demais questões serão abordadas nos próximos artigos.

AQUISIÇÃO DE IMAGENS

Introdução.

O sentido da visão pode ser considerado o meio mais eficiente de que o ser humano dispõe para captar as informações originadas no ambiente que o cerca. Algumas aplicações de imagens e alguns tipos de imagens requerem uma interação visual bastante intensa. A capacidade humana para processar e interpretar imensas quantidades de dados de natureza visual motiva o desenvolvimento de técnicas e dispositivos, de modo a estender esta sua capacidade e sensibilidade ainda mais. O conhecimento de como reage o sistema visual humano e de algumas técnicas disponíveis para melhor adequar a imagem à aplicação são importantes para poder explorar de forma mais eficiente os recursos de sistemas de processamento de imagens. A utilização da imagem na forma digital torna possível o seu processamento computacional, aumentando sua qualidade.

2. A Visão humana

O sistema visual refere-se ao complexo sistema biológico que permite ao homem a sua interpretação da radiação eletromagnética do espectro visível. Este abrange as operações do olho humano, seu processo de conversão desta radiação em sinais neuronais e operações de processamento de baixo, médio e alto nível que ocorrem em diversas áreas do cérebro. Estas operações são:

Emissão de sinais luminosos por reflexão da luz.

Os raios luminosos provenientes de fontes externas, são refletidos pelas superfícies dos objetos, dando, assim, origem a sinais que vão de encontro ao sistema visual.

Recepção dos sinais luminosos pelo sistema visual.

Para que esses sinais sejam recebidos adequadamente, são necessários ajustes de foco e de luminosidade, assim como a existência de uma superfície sensível à luz. Num sistema orgânico, o cristalino, o tamanho da pupila e a retina, respectivamente, fazem o papel requerido. De modo análogo ao de uma câmara fotográfica a luz no plano do filme, a luz oriunda de uma cena é focalizada pelo cristalino do olho, formando uma imagem em receptores discretos de luz sobre a superfície da retina, através de células nervosas denominadas cones e bastonetes.

Já em um sistema artificial, temos um conjunto de lentes, um mecanismo de movimentação das mesmas, um diafragma e uma superfície sensível que depende do sistema em utilização.

Transformação dos sinais luminosos pela superfície sensível.

A retina é composta por células nervosas sensíveis à intensidade e ao comprimento de onda da luz. Essas células transformam as respectivas informações em sinais nervosos, os quais são remetidos ao cérebro pelo nervo óptico. A resolução de detalhes finos está principalmente ligada ao fato de que vários cones podem estar conectados a uma única terminação nervosa. A grande área de distribuição dos bastonetes na retina e o fato de que vários destes estão conectados a uma única terminação nervosa reduz a quantidade de detalhes discerníveis por estes receptores. Os cones são extremamente sensíveis a cores e estão concentrados em uma pequena região central, enquanto que o restante da retina consiste numa mescla de cones e bastonetes. Portanto, o olho possui amostragem espacial e características de resolução não lineares.

Para atender a exigências do mundo industrial, existe hoje uma diversidade muito grande de sensores que permitem a transformação da intensidade do sinal luminoso em um sinal elétrico. A evolução e a concepção dos mesmos acompanha de perto os circuitos eletrônicos, indo das válvulas aos circuitos de estado sólido.

O armazenamento da informação.

A informação é armazenada em uma memória compatível com o sistema em questão. Existe uma série de teorias sobre o funcionamento da memória animal assim como uma grande quantidade de tipos de memórias no mercado. O principal é que o sistema seja capaz de armazenar as informações por um determinado período de tempo e de ter acesso de modo eficiente a essas quando necessário.

O processamento da informação.

A informação, uma vez recebida e armazenada, é processada de acordo com a configuração do sistema. A configuração está determinada pela evolução do organismo, assim como por processos de assimilação e/ou adaptação do mesmo. Existem várias teorias de compreensão do processamento da informação pelo cérebro. Uma abordagem é considerar que o cérebro leva em conta uma base de dados para efetuar uma comparação entre a informação recebida e alguns padrões de situações semelhantes armazenados nessa base.

Resposta Nervosa.

De forma geral, o cérebro fornece para a entidade envolvida no processo (braço, perna, etc...) uma resposta dependente da semelhança encontrada ou não encontrada e prepara o comportamento adequado. Caso encontre um padrão desconhecido ou novo, o cérebro tem a faculdade de classificá-lo na base de dados e então enriquecê-la.

Característica do sistema visual humano.

Assimilação da informação.

O número e a natureza de padrões que os sistemas visuais orgânicos são capazes de processar fazendo a devida assimilação e adaptação contínua do sistema é extremamente elevada. O atual conhecimento científico e tecnológico não permite tal desempenho e uma escolha com perda significativa de informação é em geral efetuada.

Eficiência do processamento.

O tempo com que os sistemas orgânicos desempenham o processamento da informação é o suficiente e necessário para a sobrevivência dos organismos. Já a eficiência do processamento artificial impõe sérias restrições ao tempo de resposta necessário a muitas aplicações.

Diversidade do ambiente.

Enquanto um filme fotográfico possui um único nível de sensibilidade, a retina pode adaptar sua sensibilidade em uma vasta gama, por meio de adaptações químicas em seus receptores e pelo fato de que os bastonetes são especializados para baixas intensidades luminosas (visão scotópica) e os cones para altas intensidades (visão fotocópica). A retina pode também se adaptar a variações locais que ocorrem numa imagem, mudando o limiar de sensibilidade de células receptoras individuais. Já um filme não tem essa flexibilidade. A habilidade do olho em discriminar entre vários níveis de brilho é uma consideração importante para a apresentação dos resultados do processamento de imagens. A faixa dos níveis de intensidade luminosa ao qual o sistema visual humano pode se adaptar é da ordem de 1000. Há também considerável evidência experimental de que o brilho subjetivo, que é o brilho percebido pelo sistema visual humano, seja uma função logarítmica da intensidade da luz incidente no olho. Para o sistema visual humano poder operar sobre toda a faixa de intensidades, ocorre uma mudança de sua sensibilidade global, um fenômeno conhecido como adaptação de brilho. No caso de uma cena complexa, o sistema visual não se adapta a um nível único de intensidade, mas sim a um nível médio que depende das propriedades desta cena. À medida que o olho a percorre, o nível de adaptação instantâneo flutua em torno desta média. De modo a obter uma visualização suave para o olho, para uma grande classe de tipos de imagem, normalmente é necessária uma gama com mais 100 níveis de intensidade.

Em função dos dados anteriores, podemos constatar que a capacidade dos organismos de se adaptarem a situações novas, e às vezes adversas, é extremamente boa quando comparada com os sistemas artificiais. Condições deficientes de iluminação, informação imprecisa ou parcial, deformação da imagem e outros fatores exigem estruturas de tratamento da informação extremamente confiáveis para que o reconhecimento seja feito adequadamente.

Concepção de um sistema de visão artificial.

Os sistemas de visão artificial visam, com o auxílio do conhecimento de diversas áreas (biologia, medicina, comunicação visual, eletrônica, matemática mecânica fina), obter um conjunto de técnicas e metodologias que possam dar suporte ao desenvolvimento de teorias e produtos suficientemente eficientes e confiáveis para aplicações práticas. Cita-se, como exemplo, a automatização dos processos de controle de qualidade, identificação e classificação de produtos e exploração de ambientes diversos.

O processamento e a análise de imagens é uma ciência que permite modificar, analisar e manipular imagens digitais, originalmente contínuas, a partir de um computador. Os algoritmos de processamento de imagens são procedimentos passo-a-passo para otimizar as operações de tratamento de imagens. A estação de processamento de imagens deve fornecer três facilidades: os meios de digitalizá-las, de visualizá-las e de manipulá-las.

Estas considerações supõem que o sistema seja dotado de ferramentas que permitam atingir esses objetivos. Um sistema genérico mínimo de processamento de imagens é constituído de captores de visão, de uma parte para aquisição-digitalização de imagens, uma memória para as mesmas, um computador que pode ter acesso a essa memória e um conjunto de ferramentas que permita visualizar o conteúdo da memória. Então, o sistema adquire, processa e visualiza imagens.

Um sistema de captura é constituído de:

Sensores de Visão.

Fornecem uma projeção da cena de trabalho e realizam a aquisição de imagens. Na maioria dos casos, esses sensores são câmeras, sensores eletromecânicos, etc... No caso do uso de uma câmera, um sistema de iluminação pode permitir a obtenção de uma imagem de melhor contraste e de melhor qualidade, reduzindo, portanto, a quantidade de processamentos preliminares.

Um Hardware de Digitalização de Imagens.

Cujo alvo é colocar a imagem do sensor na memória. O módulo de aquisição permite escrever de modo eficiente na memória que pode ser lida pelo computador e pelo módulo de visualização. O módulo de digitalização transforma as imagens contínuas em imagens digitais. O alvo dessa transformação é quantificar a qualidade, o contraste, as diferenças de cores da cena. O digitalizador cria uma imagem digitalizada, representada por uma matriz de números, cujos elementos são chamados pixels.

Um Computador.

Executa os algoritmos de processamento de imagens permitindo flexibilidade e custo de processamento e de memória relativamente baixos. Os algoritmos são desenvolvidos para, em condições de iluminação a priori variáveis, possibilitar a escolha da informação adequada nas imagens a ser interpretada e a partir da qual serão tomadas as decisões.

Aquisição de imagens.

A aquisição de imagens, consiste em obter imagens eletrônicas a partir de documentos em papel, microfilme, etc. Cada imagem eletrônica é um conjunto de pontos chamados pixels e que de uma forma discreta representam os componentes do documento original.

O bom resultado no processamento de imagens de documentos depende da qualidade da imagem gerada. Normalmente tem-se uma estação de captura de documentos onde um dos principais componentes é um sensor. De forma geral, os sensores fornecem um sinal analógico correspondente à amostragem seqüencial da imagem. Como a maioria das técnicas de processamento de imagens é realizada de forma numérica em um computador, é necessária a discretização do sinal analógico. A amostragem da imagem contida no sinal analógico é obtida por transformação via conversor analógico-digital controlado por um sinal de relógio de um dispositivo digitalizador (scanner).

Dependendo da necessidade da aplicação, as imagens podem ser adquiridas em preto e branco, em graduações de nível de cinza ou coloridas. Imagens em preto e branco são pobres em detalhes mas têm a vantagem de requerer pouco espaço de armazenamento e os procedimentos para trabalhar com imagens em preto e branco são geralmente simples e rápidos. Imagens em níveis de cinza têm uma escala que varia de 2 (preto e branco) até 256. Quanto maior o nível de cinza, maior é a riqueza de detalhes da imagem, porém, maior também a necessidade de espaço para o armazenamento e os procedimentos para manipulação geralmente são complexos e mais lentos. Imagens coloridas de documentos ainda oferecem restrições em aplicações práticas, principalmente devido a volumes de documentos, espaço de armazenamento e velocidade de processamento. Imagens coloridas podem ser muito úteis e viáveis, por exemplo, com imagens médicas. No processamento de documentos, grande parte das soluções são obtidas com imagens binárias ou em poucos níveis de cinza.

Além das questões acima mencionadas, outros cuidados devem ser observados na aquisição de uma imagem de documento para processamento eletrônico. A estação de captura deve estar preparada para gerar imagens com a melhor qualidade possível, evitando que a imagem eletrônica seja gerada com informações indesejáveis (ruídos) ou que informações importantes sejam truncadas. Quanto melhor a qualidade da imagem adquirida, mais fáceis e rápidos serão os processamentos das fases posteriores.

REFERÊNCIAS BIBLIOGRÁFICAS

[1] FACON, Jacques. Processamento e análise de imagens. Curitiba : PUC Pr, 1998.

[2] O’GORMAN, Lawrence. Document image analysis. Los Alamitos : IEEE Computer Society Press, 1995.

[3] SCHALKOFF, Robert. Pattern recognition statistical, structural and neural approaches. New York, J. Wiley, 1992.