Análise de dados de construção
Introdução
Em geral
mineração de dados ou exploração de dados (é a etapa de análise da descoberta de conhecimento em bancos de dados ou KDD) é um campo da estatística e da ciência da computação que se refere ao processo que tenta descobrir padrões em grandes volumes de conjuntos de dados.[1][2] Ele usa métodos de inteligência artificial, aprendizado de máquina, estatística e sistemas de banco de dados. O objetivo geral do processo de mineração de dados é extrair informações de um conjunto de dados e transformá-las em uma estrutura compreensível para uso posterior. Além da etapa de análise bruta, envolve aspectos de gerenciamento de dados e banco de dados, processamento de dados, considerações de modelo e inferência, métricas de interesse, considerações de teoria da complexidade computacional, pós-processamento das estruturas descobertas, visualização e atualização online.
O termo é um conceito moderno e é frequentemente mal utilizado para se referir a qualquer forma de processamento de dados ou informações em grande escala (recolha, extração, armazenamento, análise e estatística), mas também tem sido generalizado para qualquer tipo de sistema informático de apoio à decisão, incluindo inteligência artificial, aprendizagem automática e inteligência empresarial. No uso da palavra, o termo-chave é descoberta, comumente definida como “a detecção de algo novo”. Até mesmo o popular livro “Data Mining: System of Practical Learning Tools and Techniques with Java” (que cobre todo o material de aprendizado de máquina) originalmente seria chamado simplesmente de “Practical Machine Learning”, e o termo mineração de dados foi adicionado por razões de marketing. Muitas vezes os termos mais gerais “análise de dados”, “análise”; ou, quando se refere aos métodos atuais, “inteligência artificial” e “aprendizado de máquina” são mais apropriados.
A tarefa real de mineração de dados é a análise automática ou semiautomática de grandes quantidades de dados para extrair padrões interessantes e até então desconhecidos, como grupos de registros de dados (análise de cluster), registros incomuns (detecção de anomalias) e dependências (mineração de regras de associação). Isso geralmente envolve o uso de técnicas de banco de dados, como índices espaciais. Esses padrões podem então ser vistos como uma espécie de resumo dos dados de entrada e podem ser usados em análises posteriores ou, por exemplo, em aprendizado de máquina e análise preditiva. Por exemplo, a etapa de mineração de dados poderia identificar vários grupos nos dados, que podem então ser usados para obter resultados de previsão mais precisos por um sistema de apoio à decisão. Nem a recolha de dados, a preparação de dados, nem a interpretação de resultados e informações fazem parte da fase de mineração de dados, mas pertencem a todo o processo KDD como etapas adicionais.[3].