Tópicos sobre a implantação do processo de descoberta de conhecimento em organizações empresariais

Autores: Carlos Miguel Tobar e Maria de Fátima Messi

Resumo

A informação tem sido, cada vez mais, um fator relevante para os tomadores de decisões em uma organização. A busca desenfreada pela informação e sua importância levam a procurar meios eficazes de obtê-la, bem como métodos para tratá-la e extraí-la a partir de bancos de dados. Mineração de Dados é uma tecnologia que surgiu com o intuito de auxiliar na constante busca pela informação, agindo sobre armazéns com grandes quantidades de dados e tentando extrair destes apenas a informação que é relevante à organização. O objetivo deste trabalho é abordar tópicos para a implantação de um processo de descoberta de conhecimento, utilizando uma ferramenta de Mineração de Dados, visando o auxílio à tomada de decisões em uma organização empresarial. Atualmente, muitos dos sistemas em produção nas organizações possuem saídas de informações que não satisfazem os tomadores de decisões, sendo gasto muito tempo para manipular dados até que informações sejam apresentadas na forma desejada. Com a utilização de uma ferramenta de Mineração de Dados, espera-se que estas respostas auxiliares nas tomadas de decisões possam ser obtidas em menor tempo e com menos esforço.

Palavras-chave: Mineração de Dados; Descoberta de Conhecimento; Tecnologia da Informação; Plano de Implantação; Sistema de Informação.

1. Introdução

Desde a década de 60, os bancos de dados e a tecnologia da informação têm evoluído de sistemas de processamento de arquivos primitivos a sofisticados e poderosos sistemas de bancos de dados. Métodos eficientes para processamento de transações OLTP (On line Analytical Processing), onde uma consulta é visualizada como uma transação somente para leitura, têm contribuído substancialmente para a evolução e a aceitação da tecnologia relacional como a melhor ferramenta para armazenagem eficiente, recuperação e manipulação de grandes quantidades de dados [HAN, 2001].

A tecnologia de banco de dados, desde meados dos anos 80, tem sido caracterizada pela adoção popular do modelo relacional e por um aumento nas pesquisas sobre novos bancos de dados mais poderosos. Estas pesquisas abrangem bancos de dados relacionais-estendidos, orientados a objetos, objeto-relacionais e modelos dedutivos. Sistemas de bancos de dados heterogêneos e sistemas de informação baseados em Internet também têm se mostrado bastante importantes para as organizações.

Atualmente, os dados podem ser armazenados em diferentes tipos de bancos de dados, porém a abundância de dados aliada à necessidade de ferramentas poderosas de análise de dados têm sido um problema para as organizações. Os dados coletados em grandes bancos de dados têm se tornado arquivos não utilizados e, com isso, importantes decisões são freqüentemente tomadas baseando-se, não na informação armazenada, e sim na intuição do tomador de decisão, simplesmente porque ele não dispõe da ferramenta apropriada para efetuar a extração da informação de maneira segura.

A principal razão pela qual a Mineração de Dados tem ganhado mercado é devido à existência de grande quantidade de dados e a iminente necessidade de transformar tais dados em informação útil e conhecimento. A Mineração de Dados pode ser vista como um resultado da evolução natural da tecnologia da informação [HAN, 2001].

A idéia essencial da Mineração de Dados é a extração de relacionamentos de dados a partir de um banco de dados com grande quantidade de dados armazenados. As ferramentas de Mineração de Dados são utilizadas para prever tendências e comportamentos futuros, permitindo aos tomadores de decisões basearem-se em fatos passados e não em suposições.

Embora a Mineração de Dados seja uma tecnologia poderosa na descoberta de informações ocultas nos bancos de dados, ela não elimina a necessidade de conhecimento do negócio e o entendimento dos dados. Além disso, requer o entendimento da ferramenta escolhida, bem como do algoritmo utilizado na busca dos dados [FAYYAD e UTHURUSAMY, 1996].

A Mineração de Dados é uma das etapas do processo de descoberta do conhecimento (KDD – Knowledge Discovery in Database), buscando por padrões de interesse e utilizando-se de uma forma particular de representação ou de um conjunto de tais representações. No item 3, são detalhadas as etapas deste processo, seguindo as definições do modelo CRISP (Cross Industry Standard Process for Data Mining) [CRISP, 1999], cujo objetivo central é auxiliar na descoberta do conhecimento nas organizações.

Este trabalho tem como objetivo central abordar tópicos para um plano de implantação do processo de descoberta do conhecimento para empresas, utilizando uma ferramenta de Mineração de Dados junto a sistemas implantados e que produzem grande quantidade de dados.

A seguir, é apresentado um arcabouço para um plano de implantação da Mineração de Dados em uma organização com sistemas em operação, com vistas à implantação de um processo de descoberta do conhecimento, que se inicia com a escolha de uma ferramenta. Uma síntese dos critérios dessa escolha é apresentada primeiro, baseando-se na metodologia de Collier [COLLIER et al., 1999] que define a forma pela qual tais critérios são pontuados e analisados. O item seguinte apresenta as etapas pertencentes ao processo de descoberta do conhecimento seguindo o modelo CRISP [CRISP, 1999]. O trabalho é finalizado apresentando conclusões, de forma que possam ser utilizadas de maneira prática por organizações empresariais que estejam interessadas em um processo de descoberta do conhecimento.

2. Critérios para Escolha de uma Ferramenta

Para que a escolha de uma ferramenta de Mineração de Dados seja executada com sucesso, alguns critérios devem ser considerados, levando-se em conta os objetivos da organização e, desta forma, permitir minimizar ou até mesmo eliminar os impactos negativos da escolha de uma ferramenta inadequada para um determinado objetivo [MESSI, 2001].

A metodologia de Collier é um instrumento a ser utilizado na seleção de uma entre várias ferramentas e vem definir categorias de critérios a serem considerados durante a avaliação, que são apresentadas a seguir:

  • Performance computacional;
  • Funcionalidade;
  • Usabilidade; e
  • Suporte para atividades.

Uma quinta categoria de critérios, denominada Outros, permite que a definição de seus critérios associados seja feita pela própria organização conforme a necessidade. Por exemplo, se há interesse da organização em considerar os custos de aquisição das ferramentas de Mineração de Dados em avaliação.

Deve haver uma discussão com os usuários finais da ferramenta sobre os critérios e os pesos que serão atribuídos, para que as necessidades dos mesmos fiquem contempladas na avaliação.

Segundo a metodologia de Collier, os critérios associados a estas categorias permitem atingir um nível maior de detalhes ao longo da avaliação de ferramentas de Mineração de Dados. Quando da avaliação de uma ferramenta, tais critérios associados devem receber uma pontuação, segundo um peso e uma classificação associados a cada critério dentro de cada categoria. Ao final desta seleção, a média desta pontuação irá apontar a ferramenta mais adequada ao objetivo.

3. Rumo à Implantação

A nova geração de teorias computacionais e ferramentas, que vai ao encontro das necessidades de extração de informações inteligentes dos bancos de dados organizacionais, é parte do campo emergente denominado descoberta de conhecimento. O centro do processo de descoberta do conhecimento em bancos de dados é a aplicação de métodos específicos de Mineração de Dados para descoberta de padrões e extração do conhecimento. O modelo CRISP [CRISP, 1999] é uma referência para que seja desenvolvido um plano de integração para a descoberta do conhecimento.

Segue abaixo uma síntese das etapas pertencentes ao modelo CRISP:

  • O entendimento do negócio que visa obter conhecimento sobre os objetivos do negócio e seus requisitos.
  • O entendimento dos dados que visa a familiarização com o banco de dados pelo grupo de projeto, utilizando-se de conjuntos de dados "modelo".
  • A preparação dos dados que visa a limpeza, integração e formatação dos dados da etapa anterior.
  • A modelagem dos dados (ou Mineração de Dados) que visa a aplicação de técnicas de modelagem sobre o conjunto de dados preparado na etapa anterior.
  • A avaliação do projeto que visa garantir que o modelo gerado atenda às expectativas da organização.
  • A definição das fases de implantação do projeto de Mineração de Dados.

3.1. Os usuários finais

Deve-se planejar a realização de reuniões semanais entre a equipe de desenvolvimento do projeto e os usuários do sistema, tendo em vista o papel de cada participante, que envolve:

  • Do lado da equipe de desenvolvimento do projeto, a condução e gerência das etapas do projeto;
  • Do lado dos usuários do sistema, a efetivação de validações das etapas e ajustes, quando solicitados;
  • Expectativas em relação à ferramenta de Mineração de Dados devem ser administradas. É importante esclarecer junto aos usuários que o tema Mineração de Dados não é algo totalmente automatizado, sendo essencial o conhecimento do negócio, bem como métodos e ferramentas adequados para o sucesso do mesmo. O aparecimento de números mágicos não ocorre, deve haver um esforço para gerar e analisar os dados ocultos, para então haver a tomada de decisão embasada em fatos.

3.2. A Equipe de Desenvolvimento

Reuniões da equipe de desenvolvimento devem ter uma freqüência definida pela própria equipe, conforme a necessidade, porém o objetivo destas reuniões é alinhar o grupo técnico.

Seguem abaixo alguns subitens que devem ser tratados pela equipe de desenvolvimento ao longo do projeto:

  • O cronograma para implantação do projeto;
  • O treinamento dos usuários finais na utilização da solução proposta (ferramenta de Mineração de Dados sobre bancos de dados do sistema em uso); e
  • A manutenção do sistema (uso da ferramenta de Mineração de Dados acessando bancos de dados do sistema em uso), após sua implantação.

4. Conclusão

Este trabalho aborda tópicos relacionados com a implantação da Mineração de Dados em organizações com sistemas em operação, sistemas estes responsáveis pelos dados que se deseja minerar. Os tópicos cobrem uma metodologia para avaliação de ferramentas de Mineração de Dados e apresentam as etapas do modelo CRISP, que é utilizado como orientação para o processo de descoberta do conhecimento. A junção do modelo CRISP e da metodologia de Collier estabelece uma base para um plano de implantação do referido processo.

A Mineração de Dados é uma tecnologia que permite descobrir, em um grande banco de dados, informações que estão camufladas ou escondidas, resultando em agilidade nas tomadas de decisões, através da análise de tendências e comportamentos. Por isso, tem se tornado cada vez mais popular e largamente utilizada em variadas áreas de aplicações.

A Mineração de Dados pode oferecer vantagens competitivas às organizações empresariais, pois permite identificar informações antes desconhecidas pelos tomadores de decisões, com relação ao sistema em uso. Sua realização, por outro lado, não é fácil porque compõe-se de um processo complexo por natureza, interativo, que envolve os usuários desde o princípio, e que deve manter-se alinhado às necessidades da organização em todas as etapas, sempre validando as etapas que forem concluídas junto aos usuários e ajustando-as, caso seja necessário.

Referências

[CRISP, 1999] CROSS Industry Standard Process for data mining. 1999. Disponível em: <http://www.crisp-dm.org>. Acesso em: jun.2001.

[COLLIER et al. 1999] COLLIER, K. et al. A methodology for evaluating and selecting data mining software. In: HAWAII INTERNATIONAL CONFERENCE ON SYSTEM SCIENCES, 32., 1999, Maui HI. Proceedings... Maui HI: IEEE,1999. p2-6.

[FAYYAD e UTHURUSAMY, 1996] FAYYAD, U.; UTHURUSAMY, R. Data mining and knowledge discovery in databases. Communications of the ACM, New York, v. 39, n. 11, p. 26, Nov. 1996.

[HAN, 2001] HAN, J.; KAMBER, M. Data mining – concepts and techniques. San Francisco: Morgan Kaufmann Publishers, 2001.

[MESSI, 2001] MESSI, M. F. Um plano para implantação do processo de descoberta de conhecimento sobre um sistema de chão de fábrica. Dissertação (Mestrado) - PUC-Campinas. Campinas, 2001.