O número de dados armazenadas nas empresas vem aumentando a cada dia o que supera as habilidades humanas em analisa-los e interpreta-los, sendo necessário à utilização de ferramentas e técnicas para automatizar e analisar a massa de dados de forma rápida e inteligente (FAYYAD, 1996).
Essas técnicas e ferramentas que buscam transformar esses dados armazenados em conhecimento, são o objetivo do Knowledge Discovery in Databases - KDD (descoberta de conhecimento em bases de dados).
Segundo FAYYAD (1996), KDD foi criado em 1989 com o intuito de encontrar conhecimento em dados e dar ênfase a uma grande aplicação em particular o método de mineração de dados.
Em resumo segundo (FAYYAD, 1996) o processo de encontrar e interpretar modelos extraídos de uma massa de dados é chamado de KDD envolvendo repetidas aplicações específicas de métodos ou algoritmos Data Mining e a interpretação dos padrões gerados.
O processo de descoberta, ou seja, KDD envolve áreas como estatística, matemática, banco de dados, inteligência artificial, visualização de dados e reconhecimento de padrões todos com um único objetivo de extrair conhecimento a partir de grandes bases de dados.
O processo de KDD é divido em cinco etapas (MANNILA, 1996).:
-
Seleção dos dados - selecionar e coletar o conjunto de dados
-
Pré-processamento e limpeza dos dados – resolver inconsistências dos dados
-
Transformação dos dados – integrar e organizar dados coletados de diferentes fontes
-
Data Mining – Mineração dos dados extraídos
-
Interpretação e Avaliação dos resultados – Processo de descoberta do conhecimento devendo possibilitar o retorno para qualquer uma das fases anteriores caso os resultados não estejam plenamente consistentes.
Principais áreas de conhecimento do KDD:
-
Aprendizado de Máquina – utilização de estratégias de aprendizado de máquina e modelos cognitivos para aquisição automática de conhecimento
-
Bases de Dados – Utilização de técnicas e pesquisas com o objeto de melhorar e aprimorar a exploração das características dos dados.
-
Estatística e Matemática – Utilização de modelos matemáticos ou estatísticos para criação e identificação de padrões e regras entre os dados.
-
Sistemas Especialistas – são programas de computadores de inteligência artificial, ou seja, soluções criadas em linguagem de máquina para resolver problemas do mundo real.
-
Visualização de Dados – Descoberta da informação, ou seja, análise do resultado final que pode ser demonstrado em forma de gráficos, figuras e ícones.
Desta forma a mineração de dados utilizando KDD é a combinação de diferentes técnicas.
[]s
Nenhum comentário:
Postar um comentário