Processamento de imagens de documentos - Parte IV

Autores: Stefano Kubiça - GPS Edouard Lethelier - PUC - PR

SEGMENTAÇÃO

1. INTRODUÇÃO

Segmentação de imagem é um processo que particiona o domínio espacial de uma imagem em subconjuntos mutuamente exclusivos, chamados de regiões, onde cada uma destas é uniforme e homogênea com respeito a algumas propriedades, como tom ou textura, e cujos valores destas propriedades diferem em alguns aspectos e significados das propriedades de cada região vizinha.

O alvo da segmentação é obter, a partir de uma imagem adquirida (digitalizada) e pré-processada, um conjunto de "primitivas ou segmentos significativos" que contém a informação semântica relativa à imagem de origem.

Em geral, as primitivas usadas são "naturais": contornos e regiões. Os diferentes tratamentos usados levam à noção de contorno, de região ou uma noção mista. Essa noção é preferível, mas é mais complicado porque a passagem região-contorno ou contorno-região é mais fácil em teoria que na prática.

Quando se trata de segmentação de páginas de documentos eletrônicos, o que buscamos identificar e segmentar são geralmente blocos, linhas e caracteres.

A segmentação em blocos tem por objetivo identificar, dentro de uma página, blocos de texto, figuras, gráficos etc. Os blocos identificados como texto podem, por sua vez, ser segmentados em linhas que, por sua vez, podem ser segmentadas em caracteres.

2. PRINCIPAIS TIPOS DE SEGMENTAÇÃO

2.1 Segmentação por região

A detecção de regiões numa imagem pode ser feita com um dos objetivos: extrair uma determinada região ou dividir (particionar) a imagem num conjunto de regiões disjuntas cuja união representa a imagem inteira.

Uma região de uma imagem é um conjunto de pontos "ligados" onde, de qualquer ponto da região pode-se chegar a qualquer outro ponto por um caminho inteiramente contido nessa região. As regiões que se deseja detectar, em geral, são regiões bem "homogêneas", ou seja, apresentam alguma propriedade local aproximadamente constante. Comumente esta propriedade é a continuidade no nível de cinza.

Um exemplo de função exprimindo essa propriedade de continuidade sobre uma região R(x,y) pode ser:

R(x,y) é homogênea se e somente se, para qualquer dupla de pontos, a diferença entre os níveis de cinza dos dois pontos não for maior que uma constante.

Os diferentes métodos para particionamento em regiões são:

Limiarização (threshold)
Divisão e fusão (split and merge)

Limiarização

O princípio da limiarização [1] consiste em separar as regiões de uma imagem quando esta apresenta duas classes (o fundo e o objeto). A limiarização é baseada na utilização de um histograma. No caso de níveis de cinza bem repartidos, dado que o histograma apresenta distintamente as duas classes na forma de dois picos separados por um "vale", a limiarização é trivial.

Método de Divisão e Fusão

O método de Divisão e Fusão permite agrupar pixels para criar regiões sobre as quais um predicado de homogeneidade H é verificado. A imagem será manipulada através de divisões e fusões até se obter regiões que satisfaçam o critério H (mesmo nível de cinza, mesma média etc).

Esse método é muitas vezes associado a uma estrutura QUADTREE que permite, de uma forma elegante, decompor e agrupar partes de uma imagem. Construir um quadtree consiste em dividir uma imagem I(x,y) em quatro regiões iguais e continuar a dividir cada região da mesma maneira até encontrar regiões satisfazendo a um critério H. O quadtree é uma estrutura em árvore constituída: a) de uma raiz, que corresponde à imagem original, b) de nós, onde nó representa um quadrante da imagem e pode ter quatro ou zero descendentes, os filhos.

2.2 Segmentação por textura

A segmentação por textura deve permitir a colocação em evidência dos motivos da imagem considerando-se as propriedades de regula-ridade e de repetição. A noção de textura supõe que:

O motivo seja um agrupamento aleatório ou não aleatório de subconjuntos da imagem;
As entidades detectadas sejam uniformes e tenham aproximadamente as mesmas dimensões em qualquer lugar da imagem e
O motivo local seja repetido numa região comparativamente larga em relação ao tamanho desse motivo.

Na realidade, apesar dessa definição parecer razoável e clara, a noção própria de textura fica mal definida. Alguns pesquisadores consideram que ela pode revestir-se de um aspecto anárquico e homogêneo (exemplos da erva, da casca de árvore, etc.) enquanto outros consideram que ela se reveste mais de um aspecto determinístico e estruturado (exemplos do tecido, do muro, etc).

Os três métodos principais para segmentar uma imagem pela textura são: estatísticos, estru-turais e espectrais. As técnicas estatísticas permitem caracterizar uma textura do tipo suave, irregular, granulado, etc. As técnicas estruturais tratam da disposição das primitivas numa imagem, por exemplo, textura baseada sobre linhas paralelas dispostas regularmente. As técnicas espectrais levam às propriedades do espectro de Fourier [2] e permitem detectar a periodicidade global, identificando altas energias.

2.3 Segmentação por contorno

Um contorno é uma mudança brusca do nível de cinza entre duas regiões relativamente homogêneas. Ele pode aparecer como uma seqüência de pontos, uma linha, um segmento, uma curva ou uma forte variação do nível de cinza médio.

Detecção de Pontos

A forma mais resumida de segmentar uma imagem sob forma de contornos é de segmentá-la na forma de pontos particulares relevantes. Isto supõe, muitas vezes, eliminar de forma eficiente o ruído [1] para evitar detecções falsas. Esses pontos particulares relevantes pesquisados são pontos isolados que devem conter muita informação e não devem ser deteriorados por um ruído. Essa categoria de pontos é muito usada no processo de reconhecimento de objetos e na análise do movimento.

Detecção de Bordas

Uma das técnicas detecção de bordas mais usada consiste no processamento de uma imagem a partir de um operador de derivada local. O Gradiente G(x,y) e o Laplaciano L(x,y), operadores de derivada de primeira e segunda ordem, podem ser usados para realçar o contraste. Esses operadores são, também, muito usados na pesquisa de contornos.

A avaliação do gradiente através de máscaras não é única, mas depende dos coeficientes e do tamanho das máscaras. A escolha das máscaras adequadas depende de vários critérios (quantidade de ruído, tipo de ruído, contraste, etc.) cujo principal e mais significativo é o tamanho da máscara. Este define a importância da suavização nos cálculos das diferenças (princípio da derivada local). Quanto maior a máscara, maior será a suavização.

A imagem gradiente não fornece diretamente os contornos. Na prática, ela fornece traços grossos e irregulares. Para obter traços mais precisos e mais nítidos, usa-se o processo de limiarização da imagem do módulo do gradiente. A precisão dos traços depende do valor da limiarização e da exatidão dos cálculos das derivadas: um valor alto usado na limiarização fornece traços finos mas muitas vezes interrompidos, enquanto um valor fraco proporciona traços mais completos porém mais grossos e podem produzir linhas que não existem na imagem de origem.

2.4 Enlace de bordas e detecção de contornos

As técnicas precedentes permitem detectar descontinuidades nos níveis de cinza e fornecer contornos entre as diferentes regiões. Mas raramente o conjunto de pixels traduz contornos completos. Por causa do ruído, dos cortes no contorno devido à iluminação não uniforme e de outras perturbações, o contorno aparece como sendo um conjunto descontínuo.

A partir desses fatos, alguns procedimentos de enlace de bordas são usados junto aos algoritmos detecção de contornos para reunir pixels de bordas em um conjunto significativo de contorno das regiões.

Perseguição de Contornos

Uma técnica apropriada para enlaçar pixels de um contorno é dispor de uma ferramenta que permite analisar as características dos pixels que têm a possibilidade de pertencer ao contorno e escolher os mais relevantes. Um algoritmo eficiente de perseguição de contornos consiste em usar a codificação de Freeman [2]. A vantagem dessa codificação é permitir representar simplesmente uma seqüência de pontos a partir de oito direções, numeradas de 0 até 7, que são os eixos verticais, horizontais e as duas diagonais.

O princípio do algoritmo de perseguição reside na busca iterativa de pontos similares do contorno, cada um desses pontos respeitando um critério de pertinência ao contorno e escolhido da vizinhança do ponto anterior já retido. O grande interesse desse algoritmo vem do fato que a busca é otimizada por pesquisa orientada segundo direções preferenciais.

O critério de pertinência depende exclusi-vamente do tipo de imagem processada, mas de forma geral, está ligada à noção de nível de cinza. Ele pode ser, por exemplo, o valor de gradiente caso a imagem tenha sido derivada por um operador de diferenciação do tipo Gradiente, ou ainda simplesmente um dos níveis de cinza (preto ou branco) caso a imagem seja binária.

Transformada de Hough [3]

Um problema freqüentemente encontrado na extração de primitivas é a detecção de curvas analíticas do tipo segmento de reta, círculos, elipses, etc.

O método da transformada de Hough para detecção de bordas é aplicável quando se possui informações precisas acerca da forma da curva. Os dados de base da transformada de Hough são geralmente pontos de uma imagem obtidos através das transformações de gradiente e da limiarização. A idéia é aplicar na imagem uma transformação tal que todos os pontos pertencentes a uma mesma curva sejam mapeados num único ponto de um espaço dos parâmetros da curva procurada. A transforma-
da de Hough é um método de acumulação de requisitos muito geral. Ela permite detectar
qualquer curva, mesmo pouco visível ou forte-mente ruidosa.

Uma desvantagem do método é a precisão da discretização dos parâmetros. O risco no caso de um passo de discretização muito fraco, é não detectar as curvas. Ao contrário, o passo de discretização muito alto cria erros de interpretação do acumulador ao nível da precisão do lugar das curvas bem como ao nível do número das retas. Uma outra desvantagem da transformada de Hough é que ela não permite obter a posição nem o comprimento das curvas.

3. CONCLUSÃO

A segmentação deve ser realizada após o pré-processamento [1] da imagem. Tem como principal objetivo dividir a imagem em subconjuntos que possam ser facilmente processados na etapa de reconhecimento, que será discutida no próximo artigo.

REFERÊNCIAS BIBLIOGRÁFICAS

[1] KUBIÇA, Stefano. Gerenciamento eletrônico de documentos. Bate Byte, Curitiba, n. 90, p. 29, set. 1999.

[2] FACON, Jacques. Processamento e análise de imagens : PUC-Pr, 1998. (Curso de Mestrado em Informática Aplicada)

[3] O'GORMAN, Lawrence. Document image analysis. Los Alamitos : IEEE Computer Society Press, 1995.