Coluna do estagiário celepariano

Data Mining

Autora: Mônica Cristina Barazetti - Estagiária da GPS

1 O QUE É O KDD?

É uma técnica de descoberta de dados que significa Knowledge Discovery In Database ou Descoberta de Conhecimento em Banco de Dados.

Muito da pesquisa em KDD tem enfocado o emprego de técnicas tradicionais de aprendizagem automática (machine learning) a dados armazenados em bancos de dados relacionais. A questão da autonomia e generalidade de ferramentas de KDD também vem sendo objeto de atenção, recentemente .

A aprendizagem automática é uma das áreas da Inteligência Artificial. As técnicas atuais de aprendizagem automática podem ser classificadas (entre outras formas) quanto ao paradigma utilizado - se indutivo ou analítico - e quanto à presença de um instrutor (também chamado oráculo) no processo - ou seja, a aprendizagem pode ser supervisionada ou não supervisionada.

A aprendizagem por indução permite inferir conhecimento através de generalizações elaboradas sobre conjunto de exemplos, denominado conjunto de treino.

Devido à possibilidade de considerar uma base de dados como um grande conjunto de treino, muitos dos trabalhos de KDD têm aplicado e adaptado técnicas de aprendizagem indutiva para o Data Mining. A aplicação destes métodos, contudo, não é direta, uma vez que os bancos de dados apresentam uma série de características não comuns, tratadas em aprendizado automático, tais como:

  • os dados não foram concebidos para serem usados por algoritmos de aprendizagem automática;

  • grande volume de dados envolvidos, que, muitas vezes, inviabiliza o entendimento de toda a base de dados como um conjunto de treino, quer por razões de desempenho, quer por incapacidade de gerenciamento de todo o volume de dados na memória.

2. TÉCNICAS DE KDD

Há técnicas já bastante usadas e comprovadamente úteis e eficazes para mineração de dados. Estas técnicas operam sobre grandes volumes de dados, extraindo informações implícitas ou padrões de dados que não estão explícitos.

Entre as técnicas principais de Descoberta de Conhecimento em dados estruturados, podem ser citadas as seguintes :

2.1 Associações

As técnicas de associação procuram encontrar padrões entre conjuntos de valores ou em gráficos evolutivos de valores. Uma regra de associação é uma indicação de que existe um certo relacionamento entre fatos diferentes. Utiliza a técnica de regra de indução.

Exemplo:

Analisando-se gráficos de desempenho de diversos atletas de um determinado esporte, durante um mesmo período de tempo, pode-se chegar a um gráfico padrão por análise estatística. Assim, pode-se assumir que o desempenho padrão de um atleta neste esporte pode ser representado pelo gráfico padrão descoberto. Também poderá ser determinado o desvio padrão, fornecendo uma margem de erro na determinação deste padrão, ou seja, gráficos dentro desta margem também seriam considerados dentro do padrão.

2.2 Dependências

A técnica de dependência visa estabelecer relações de dependência entre variáveis de um sistema.

Exemplo:

Em um sistema de vendas de produtos poderia ser descoberto (também por análise estatística) que todo cliente que compra o produto A também compra o produto B (esta relação poderia ser representada pela forma A B).

2.3 Classificação

Determinam a classe ou categoria de um elemento, a partir das características (ou atributos) deste elemento e com base em classes pré-definidas. Uma nova classe poderia ser acrescida ao conjunto, caso fosse detectado um elemento com características contraditórias (satisfazendo duas classes, mas não podendo ser classificado assim por serem classes disjuntas) ou então quando as características do elemento não se enquadrassem em nenhuma das classes pré-estabelecidas.

Exemplo:

Poderíamos ter uma classe de transportes que é identificada por atributos como tipo de combustível, quantidade de rodas que todos os transportes contêm. Mas, para sermos mais específicos, poderíamos ter classes de transportes aéreos, transportes terrestres e transportes marítimos que têm características diferentes da classe pré-definida.

2.4 Agrupamento ou Generalização

É o processo inverso da classificação. A partir de determinados elementos, técnicas de clustering (um cluster é um grupo de entidades (coisas ou eventos) que têm características similares e que compartilham certas propriedades) seriam responsáveis por definir as classes e enquadrar os elementos. Para tanto, devem ser analisados os atributos de caracterização (aqueles que podem pertencer a várias classes) e os de discriminação dos elementos (aqueles que pertencem somente a uma classe).

Exemplo:

Sendo o inverso da classificação , nesta técnica poderíamos determinar a existência de uma classe paciente internado e depois agrupar ou generalizar atributos ligados a este tipo de classe como: Nome do paciente, doença do paciente, tempo de internação, remédios usados durante a recuperação, etc...

2.5 As Técnicas de Evolução ou Seqüência de Tempo

Buscam descobrir regras de associação ou dependência entre eventos ocorridos em momentos diferentes.

Exemplo:

Num sistema de venda de produtos, poderia ser descoberto que todo cliente que compra o produto A volta à mesma empresa para comprar o produto B, em menos de um mês.

3 PASSOS DO PROCESSO KDD

O processo do KDD é interativo e iterativo (com muitas decisões feitas pelo usuário), envolvendo numerosos passos, que podem ser resumidos como:

3.1 Entendendo o Objetivo da Aplicação

Inclui conhecimento anterior e os objetivos da aplicação.

3.2 Criando uma Coleção de Dados Designado

Inclui selecionar uma coleção de dados ou focalizar em um subconjunto de variáveis os dados para se estabelecer qual descoberta será executada.

3.3 Limpeza de Dados e Pré-Processamento

Inclui operações básicas, como remover dados ou inutilidades se necessário, colecionando a informação necessária para modelar ou responder pelo sistema, enquanto são decididas estratégias como: controlar campos de dados perdidos, atualizar informações de tempo em tempo e decidir o que emitir.

3.4 Redução de Dados e Projeção

Inclui achar características úteis para representar os dados, dependendo do objetivo da tarefa e usar redução de dimensionalidade ou métodos de transformação para reduzir o número efetivo de variáveis ou achar representações variadas para os dados.

3.5 Escolhendo a Função de Data Mining

Inclui decidir o objetivo do modelo do algoritmo mining através dos dados (com exemplos de sumarização, classificação, regressão e agrupamento).

3.6 Escolhendo os Dados Algoritmos (Mining)

Inclui selecionar métodos que serão usados para procurar padrões nos dados, como decidir quais modelos e parâmetros podem ser apropriados (por exemplo: modelos para dados categóricos são diferentes de modelos com vetores baseados na realidade) e emparelhar dados para cada método mining com os critérios globais do KDD processados (por exemplo: o usuário pode estar mais interessado em entender o modelo do que nas suas capacidades de pré-diagnóstico).

3.7 Data Mining

Inclui procurar padrões de interesse em uma representação de forma particular ou em um conjunto de representações como regras de classificação ou árvores, regressão, agrupamento, sucessão, modelação, dependência e análise de dados.

3.8 Interpretação

Inclui interpretar os padrões descobertos e voltar possivelmente a quaisquer dos passos prévios, como também visualizar padrões, remover padrões redundantes ou irrelevantes e traduzir o importante em condições compreensíveis por usuários.

3.9 Usar Descoberta do Conhecimento

Inclui incorporar este conhecimento na performance do sistema. Ações baseadas no conhecimento ou documentadas facilitam o acesso a informações pelas partes interessadas, como também checam e solucionam grandes conflitos previamente com a extração de conhecimento.

4 DESAFIOS E EXPECTATIVAS

Enquanto aplicações novas de KDD renderam papéis insignificantes, o campo é dominado por problemas que requerem uma quantia significante de pesquisa e investigação. Os problemas estatísticos clássicos de indiferença de modelos finitos e incerteza em administrar os resultados derivados permanecem fundamentais a KDD. Porque o data mining enfatiza a máquina – conduzem à exploração e à enumeração de muitos padrões - há outros desafios que envolvem o espaço de procura. Procurar algoritmos pode diminuir em uma parte pequena o potencial de espaço e pode-se ter que confiar em métodos não práticos.

Além disso, a maioria dos dados não pode ser esperada de algoritmos minings, até mesmo o mais eficiente, porque esquadrinhar os dados inteiros pode levar dias ou semanas. Este fato está provando estratégias e afirmando o que é essencial em métodos de aproximação. Finalmente, há um volume crescente de dados não estruturados, na forma de texto, imagens e tudo relacionado a Web. Isso requer, para dados novos, algoritmos minings. Soluções serão necessárias para estes problemas de pesquisa desafiadores, explorar o potencial de mining das bases de informação do próximo século .

Enquanto estes desafios proverem bastante assunto para investigadores de banco de dados, as notícias boas são que uma geração nova de ferramentas minings está emergindo. Enquanto algumas destas ferramentas são complexas para usuários empresariais, elas são significativamente mais simples que as opções prévias oferecidas por pacotes de análise estatística. As ferramentas estão sendo integradas com bancos de dados operacionais e, em alguns casos, podem escalar a bancos de dados muito grandes.

Este sucesso conduzirá a uma explosão em interesse. Mas apesar das armadilhas destes algoritmos, as recompensas de um banco de dados bom pode satisfazer totalmente.

5) CONCLUSÃO

O campo do KDD está tendo um crescimento rápido, mas ainda não é o crescimento esperado. Há muitos desafios para superar, mas um pouco de sucesso foi alcançado. Porque a função de maior potencial de aplicações de KDD é muito importante, houve uma pressa para oferecer produtos e serviços no mercado. Um grande desafio que enfrenta o campo é como evitar o tipo de falsas expectativas que infestam estas e outras tecnologias relacionadas como inteligência artificial e redes neurais. É de responsabilidade dos investigadores neste campo assegurar que não são exageradas as contribuições atribuídas ao potencial do KDD e dos usuários de entenderem a verdadeira natureza das contribuições junto com as suas limitações.

Problemas fundamentais neste campo permanecem não solucionados. Por exemplo: os problemas básicos de conclusão estatística e descoberta permanecem tão difíceis e desafiadores como sempre foram. Mas é uma tecnologia que promete, já que estamos na era dos dados digitais.

REFERÊNCIAS BIBLIOGRÁFICAS

DESCOBERTA de conhecimento e base de dados textuais. Disponível na Internet. http://Atlas.ucpel.tche.br/~loh/dc-texto.htm.

FAYYAD, Usama et al. The KDD proccess for extracting useful knowledge from volumes of data. Communications on the ACM, New York, v. 39, n. 11, p. 27-34, Nov. 1996.

FAYYAD, Usama. Diving into databases. Database Programming & Design, San Mateo, v. 11, n. 3, p. 24-31, Mar. 1998.

IKEMATU, Ricardo Shoiti. Tutorial DBForum´98 – Data mining: ferramentas e técnicas. Bate Byte, Curitiba, n. 76, p. 4-7, jun. 1998.

MINERAÇÃO de dados. Disponível na Internet. http://143.54.12.11/fapergs/TRelacionados.html