Solução com OCR
Autores: Luiz Fernando Ballin Ortolani - GAC - Sara Fichman Raskin - GPT
Trata-se de um projeto de tratamento de imagem com utilização de OCR tendo como aplicação a Investigação Policial Informatizada - PIN, visando disponibilizar à Polícia Civil os recursos de informática para captura, armazenamento, tratamento e recuperação de dados e imagens de elementos com passagem nas unidades policiais civis e notícias policiais publicadas na imprensa. Coube à CELEPAR desenvolver o projeto-piloto de sistema com recursos integrados de dados textuais e imagens, e conhecer a tecnologia de tratamento de imagens em aplicações (sistemas) com recursos de Banco de Dados com Imagens e OCR.
O projeto está dividido em dois módulos: OCR e Imagem. De imediato, estamos abordando o módulo OCR.
O MÓDULO OCR
OCR - Optical Character Recognition - ou Reconhecimento óptico de Caracteres, é o processo pelo qual um aplicativo é capaz de converter a imagem de um documento (gravada ou não em um arquivo gráfico) em uma seqüência de caracteres. Atualmente os OCRs estão reconhecendo, também, fonte, corpo e atributos de caracteres e até o layout de página dos documentos.
O processo de reconhecimento é constituído de duas fases principais: digitalização e o reconhecimento propriamente dito. Naquela, com auxilio de um scanner preferencialmente de mesa, uma cópia do documento original é reproduzido de forma digitalizada, podendo gerar um arquivo gráfico que servirá de entrada para o OCR.
O formato desses arquivos é, normalmente, TIFF (Tagged Image File Format), mas os produtos mais recentes permitem a geração dos formatos PCX e BMP, também aceitos pelos produtos de OCR e, em muitos casos, disponíveis com a aquisição do scanner.
A partir do arquivo gráfico, o OCR identifica as áreas de texto do documento - o usuário pode selecionar sua área de interesse- e efetua o reconhecimento, gerando o texto gravado em arquivo separado. O OCR acompanha a maioria dos scanners comercializados.
Em alguns produtos existe uma terceira etapa, extremamente importante para melhorar a qualidade, que consiste na verificação do reconhecimento comparando o texto convertido com um dicionário, incluindo, também, correção ortográfica. O arquivo texto final pode ser gravado em diferentes formatos permitindo a transferência para processadores de texto, bancos de dados, programas de editoração eletrônica ou aplicações específicas para as necessidades dos usuários, com as vantagens de reduzir a digitação, permitir a alteração do layout, facilitar o armazenamento e a recuperação das informações.
Outro recurso já disponível nos OCRs é a capacidade de aprendizado, recurso através do qual um OCR é capaz de aprender a reconhecer novos caracteres. Esta característica é fundamental para documentos que não contêm somente textos, mas, também, números, símbolos ou textos com fontes e atributos diferentes.
O documento original pode conter formatação pré- definida, como uma fatura, transferindo os dados de interesse diretamente para o sistema informatizado; ou, ainda, o documento pode não ter formatação alguma, em geral possui grande volume de informações, como um livro ou uma enciclopédia.
Uma solução baseada em OCR deve levar em conta os efeitos de um reconhecimento errado, como a troca do l (ele minúsculo) com o número 1, podendo inviabilizar tal alternativa porque apesar da melhoria dessa categoria de produtos, o reconhecimento não é 100% correto. Num teste rápido que realizamos. o índice foi de 80%. A imagem digitalizada ocupou 110Kb enquanto o texto convertido ocupou 3,2Kb - uma redução considerável.
A qualidade do reconhecimento depende da qualidade do equipamento de digitalização (resolução e sensibilidade) e da qualidade do documento original (papel, tamanho e tipo da fonte de caracteres). Os piores resultados quanto ao reconhecimento são para textos produzidos com impressoras matriciais (75%). Melhoram com fax (80%), jornal (93%), livros e revistas (97%), segundo testes publicados pela revista PC Magazine Brasil, outubro de 1993.
Alguns produtos disponíveis no país são: CatchWord, Go-CR, OmniPage 386, OmniPage Professional, Perceive Dos, Perceive Windows, Recognita Plus. Entre as marcas de scanners tem-se: Advanced Vision Research, Canon. Epson, Genius, Hewlett-Packard Howtek, Light Speed, Logitech, Microtek, com modelos de mão - menor precisão, mais baratos mas recomendados para capturas da borda interna de livros e revistas - e modelos de mesa - maior precisão e mais caros.
Uma das maiores fontes de informações para as atividades de investigação é o material publicado na imprensa. As reportagens policiais apresentam, diariamente, os acontecimentos da área, com narrativa de ocorrências, nomes dos envolvidos, locais e formas de atuação, compondo material de significativo interesse para a Polícia Civil.
Por este módulo, com recursos de tecnologia da informação, as notícias policiais publicadas em jornais com circulação no Estado, serão catalogadas e armazenadas para subsidiar investigações.
A idéia básica consiste em capturar a imagem dos jornais, com auxilio de scanner; aplicar sobre a imagem recursos de OCR, gravando a reportagem na forma de texto; armazenar texto numa base de dados textual; disponibilizar a recuperação com recursos dos softwares para tratamento de texto.
Consideramos esta aplicação como ideal para projeto-piloto desta tecnologia porque os volumes de trabalho não necessitam de recursos especializados de equipamentos, principalmente scanner, e o fato do reconhecimento não atingir 100%, ou seja, nem todo o texto da reportagem será reconhecido fielmente pelo OCR, não comprometerá a qualidade e finalidade dos trabalhos propostos.
O uso da tecnologia OCR pela Polícia Civil poderá ser avaliado por este projeto-piloto e, eventualmente, ela poderá ser aplicada para outros sistemas como o SIV (Identificação Civil) e para o registro de ocorrências policiais de todo o Paraná.
Para a primeira etapa do projeto PIN, foi realizada uma pesquisa no mercado buscando identificar fornecedores de produtos de reconhecimento óptico de caracteres ou OCR com disponibilidade de instalá-los na CELEPAR - GPT, para uma breve avaliação, o que não foi muito fácil. Paralelamente, uma reportagem da PC-Magazine Brasil sobre o assunto, sinalizou-nos com os produtos existentes no mercado para essa finalidade - gerar arquivos-texto a partir da scanerização de documentos- analisando sete produtos que, segundo a revista, apresentaram resultados muito bons, apesar de não oferecerem suporte adequado à língua portuguesa.
Diversos fornecedores foram contactados sem sucesso, até que conseguimos indicação de uma empresa que nos disponibilizou dois produtos, sendo um deles o OMNIPAGE PROFESSIONAL versão 5.0. Uma outra empresa contactada nos prometeu trazer o software RECOGNITA PLUS, mas não o fez.
O OMNIPAGE é um produto da CAERE Corporatíon e o mais vendido nesse segmento; foi simples de instalar, embora mais demorado que o outro produto, por ser mais completo (inclui até um editor gráfico para tratar as imagens digitalizadas melhorando o reconhecimento). Ele oferece recursos para reconhecimento de 11 línguas diferentes, selecionáveis de uma lista, inclusive o português, e reconhece caracteres de fontes e tamanhos diversos.
A seguir, o resultado dos testes realizados com os dois produtos, elaborados com utilização de documentos impressos em jornal e realizados em um microcomputador 486-DX2 (66 Mhz) com scanner de mesa HP Scanjet 11p, com resolução de 300 ppp, no intuito de avaliarmos o desempenho de cada produto no reconhecimento dos caracteres.
Em seguida, um exemplo de teste efetuado a partir de uma notícia de jornal, passado por um produto de OCR e salvo no formato Word for Windows 2.0, recuperado e impresso pelo mesmo numa impressora laser HP.
Polícia investiga abuso sexual
De Londres
A polícia da Irlanda do Norte está investigando o que pode ser o maior caso de abuso sexual da história do Reino Unido.
0 caso envolve cerca de cem crianças, a maioria garotos entre 8 e 12 anos de idade. Entre as vítimas estaria ainda um menino de 3 anos.
A investigação está sendo feita na região da cidade de Londonderry. Até agora foram presos 3 homens acusados dos abusos, que incluiriam estupro e realização de sexo em grupo.
Segundo o jornal "The Observer", a polícia já interrogou mais de 10 outros suspeitos.
Algumas mulheres também estariam envolvidas.
Os casos investigados ocorreram nos últimos 5 anos e fariam parte de um dossiê mantido em sigilo pela polícia da Irlanda do Norte.
Em um outro caso separado, um casal da mesma região está acusando um padre católico de ter abusado sexualmente de sua filha, em 1988, quando a garota tinha 8 anos de idade.
A igreja teria escondido o padre nos últimos 3 anos para protegê-lo de uma investigação policial.
Depois que a primeira denúncia foi feita, em 1991, o padre foi transferido para a República da Irlanda, onde está até hoje. (RS).
Trata-se de um projeto de tratamento de imagem com utilização de OCR tendo como aplicação a Investigação Policial Informatizada - PIN, visando disponibilizar à Polícia Civil os recursos de informática para captura, armazenamento, tratamento e recuperação de dados e imagens de elementos com passagem nas unidades policiais civis e notícias policiais publicadas na imprensa. Coube à CELEPAR desenvolver o projeto-piloto de sistema com recursos integrados de dados textuais e imagens, e conhecer a tecnologia de tratamento de imagens em aplicações (sistemas) com recursos de Banco de Dados com Imagens e OCR.
O projeto está dividido em dois módulos: OCR e Imagem. De imediato, estamos abordando o módulo OCR.
O MÓDULO OCR
OCR - Optical Character Recognition - ou Reconhecimento óptico de Caracteres, é o processo pelo qual um aplicativo é capaz de converter a imagem de um documento (gravada ou não em um arquivo gráfico) em uma seqüência de caracteres. Atualmente os OCRs estão reconhecendo, também, fonte, corpo e atributos de caracteres e até o layout de página dos documentos.
O processo de reconhecimento é constituído de duas fases principais: digitalização e o reconhecimento propriamente dito. Naquela, com auxilio de um scanner preferencialmente de mesa, uma cópia do documento original é reproduzido de forma digitalizada, podendo gerar um arquivo gráfico que servirá de entrada para o OCR.
O formato desses arquivos é, normalmente, TIFF (Tagged Image File Format), mas os produtos mais recentes permitem a geração dos formatos PCX e BMP, também aceitos pelos produtos de OCR e, em muitos casos, disponíveis com a aquisição do scanner.
A partir do arquivo gráfico, o OCR identifica as áreas de texto do documento - o usuário pode selecionar sua área de interesse- e efetua o reconhecimento, gerando o texto gravado em arquivo separado. O OCR acompanha a maioria dos scanners comercializados.
Em alguns produtos existe uma terceira etapa, extremamente importante para melhorar a qualidade, que consiste na verificação do reconhecimento comparando o texto convertido com um dicionário, incluindo, também, correção ortográfica. O arquivo texto final pode ser gravado em diferentes formatos permitindo a transferência para processadores de texto, bancos de dados, programas de editoração eletrônica ou aplicações específicas para as necessidades dos usuários, com as vantagens de reduzir a digitação, permitir a alteração do layout, facilitar o armazenamento e a recuperação das informações.
Outro recurso já disponível nos OCRs é a capacidade de aprendizado, recurso através do qual um OCR é capaz de aprender a reconhecer novos caracteres. Esta característica é fundamental para documentos que não contêm somente textos, mas, também, números, símbolos ou textos com fontes e atributos diferentes.
O documento original pode conter formatação pré- definida, como uma fatura, transferindo os dados de interesse diretamente para o sistema informatizado; ou, ainda, o documento pode não ter formatação alguma, em geral possui grande volume de informações, como um livro ou uma enciclopédia.
Uma solução baseada em OCR deve levar em conta os efeitos de um reconhecimento errado, como a troca do l (ele minúsculo) com o número 1, podendo inviabilizar tal alternativa porque apesar da melhoria dessa categoria de produtos, o reconhecimento não é 100% correto. Num teste rápido que realizamos. o índice foi de 80%. A imagem digitalizada ocupou 110Kb enquanto o texto convertido ocupou 3,2Kb - uma redução considerável.
A qualidade do reconhecimento depende da qualidade do equipamento de digitalização (resolução e sensibilidade) e da qualidade do documento original (papel, tamanho e tipo da fonte de caracteres). Os piores resultados quanto ao reconhecimento são para textos produzidos com impressoras matriciais (75%). Melhoram com fax (80%), jornal (93%), livros e revistas (97%), segundo testes publicados pela revista PC Magazine Brasil, outubro de 1993.
Alguns produtos disponíveis no país são: CatchWord, Go-CR, OmniPage 386, OmniPage Professional, Perceive Dos, Perceive Windows, Recognita Plus. Entre as marcas de scanners tem-se: Advanced Vision Research, Canon. Epson, Genius, Hewlett-Packard Howtek, Light Speed, Logitech, Microtek, com modelos de mão - menor precisão, mais baratos mas recomendados para capturas da borda interna de livros e revistas - e modelos de mesa - maior precisão e mais caros.
Uma das maiores fontes de informações para as atividades de investigação é o material publicado na imprensa. As reportagens policiais apresentam, diariamente, os acontecimentos da área, com narrativa de ocorrências, nomes dos envolvidos, locais e formas de atuação, compondo material de significativo interesse para a Polícia Civil.
Por este módulo, com recursos de tecnologia da informação, as notícias policiais publicadas em jornais com circulação no Estado, serão catalogadas e armazenadas para subsidiar investigações.
A idéia básica consiste em capturar a imagem dos jornais, com auxilio de scanner; aplicar sobre a imagem recursos de OCR, gravando a reportagem na forma de texto; armazenar texto numa base de dados textual; disponibilizar a recuperação com recursos dos softwares para tratamento de texto.
Consideramos esta aplicação como ideal para projeto-piloto desta tecnologia porque os volumes de trabalho não necessitam de recursos especializados de equipamentos, principalmente scanner, e o fato do reconhecimento não atingir 100%, ou seja, nem todo o texto da reportagem será reconhecido fielmente pelo OCR, não comprometerá a qualidade e finalidade dos trabalhos propostos.
O uso da tecnologia OCR pela Polícia Civil poderá ser avaliado por este projeto-piloto e, eventualmente, ela poderá ser aplicada para outros sistemas como o SIV (Identificação Civil) e para o registro de ocorrências policiais de todo o Paraná.
Para a primeira etapa do projeto PIN, foi realizada uma pesquisa no mercado buscando identificar fornecedores de produtos de reconhecimento óptico de caracteres ou OCR com disponibilidade de instalá-los na CELEPAR - GPT, para uma breve avaliação, o que não foi muito fácil. Paralelamente, uma reportagem da PC-Magazine Brasil sobre o assunto, sinalizou-nos com os produtos existentes no mercado para essa finalidade - gerar arquivos-texto a partir da scanerização de documentos- analisando sete produtos que, segundo a revista, apresentaram resultados muito bons, apesar de não oferecerem suporte adequado à língua portuguesa.
Diversos fornecedores foram contactados sem sucesso, até que conseguimos indicação de uma empresa que nos disponibilizou dois produtos, sendo um deles o OMNIPAGE PROFESSIONAL versão 5.0. Uma outra empresa contactada nos prometeu trazer o software RECOGNITA PLUS, mas não o fez.
O OMNIPAGE é um produto da CAERE Corporatíon e o mais vendido nesse segmento; foi simples de instalar, embora mais demorado que o outro produto, por ser mais completo (inclui até um editor gráfico para tratar as imagens digitalizadas melhorando o reconhecimento). Ele oferece recursos para reconhecimento de 11 línguas diferentes, selecionáveis de uma lista, inclusive o português, e reconhece caracteres de fontes e tamanhos diversos.
A seguir, o resultado dos testes realizados com os dois produtos, elaborados com utilização de documentos impressos em jornal e realizados em um microcomputador 486-DX2 (66 Mhz) com scanner de mesa HP Scanjet 11p, com resolução de 300 ppp, no intuito de avaliarmos o desempenho de cada produto no reconhecimento dos caracteres.
Em seguida, um exemplo de teste efetuado a partir de uma notícia de jornal, passado por um produto de OCR e salvo no formato Word for Windows 2.0, recuperado e impresso pelo mesmo numa impressora laser HP.
Polícia investiga abuso sexual
De Londres
A polícia da Irlanda do Norte está investigando o que pode ser o maior caso de abuso sexual da história do Reino Unido.
0 caso envolve cerca de cem crianças, a maioria garotos entre 8 e 12 anos de idade. Entre as vítimas estaria ainda um menino de 3 anos.
A investigação está sendo feita na região da cidade de Londonderry. Até agora foram presos 3 homens acusados dos abusos, que incluiriam estupro e realização de sexo em grupo.
Segundo o jornal "The Observer", a polícia já interrogou mais de 10 outros suspeitos.
Algumas mulheres também estariam envolvidas.
Os casos investigados ocorreram nos últimos 5 anos e fariam parte de um dossiê mantido em sigilo pela polícia da Irlanda do Norte.
Em um outro caso separado, um casal da mesma região está acusando um padre católico de ter abusado sexualmente de sua filha, em 1988, quando a garota tinha 8 anos de idade.
A igreja teria escondido o padre nos últimos 3 anos para protegê-lo de uma investigação policial.
Depois que a primeira denúncia foi feita, em 1991, o padre foi transferido para a República da Irlanda, onde está até hoje. (RS).