Tecnologia
Contenido
Existen muchísimas herramientas para el manejo de los macrodatos. Algunos ejemplos incluyen Apache_Hadoop, NoSQL, Apache_Cassandra, inteligencia empresarial, aprendizaje automático y MapReduce. Estas herramientas tratan con algunos de los tres tipos de macrodatos:[45].
• - Datos estructurados: datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y los almacenes de datos.
• - Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos multimedia, correos electrónicos o documentos de texto.
• - Datos semiestructurados: datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Estos datos poseen sus propios metadatos semiestructurados[46] que describen los objetos y las relaciones entre ellos, y pueden acabar siendo aceptados por convención. Como ejemplos tenemos los archivos tipo hojas de cálculo, HTML, XML o JSON.
Un informe de 2011 del McKinsey Global Institute") caracteriza los componentes principales y el ecosistema de macrodatos de la siguiente manera:[47].
• - Técnicas para analizar datos, como pruebas A / B, aprendizaje automático y procesamiento del lenguaje natural.
• - Grandes tecnologías de datos, como inteligencia de negocios, computación en la nube y bases de datos.
• - Visualización, como tablas, gráficos y otras visualizaciones de los datos.
Los macrodatos multidimensionales también se pueden representar como cubos de datos o, matemáticamente, tensores. Los sistemas de bases de datos Array se han propuesto proporcionar almacenamiento y soporte de consultas de alto nivel en este tipo de datos. Las tecnologías adicionales que se aplican a los macrodatos incluyen un cálculo basado en tensor eficiente,[48] como el aprendizaje de subespacio multilineal,[49] bases de datos de procesamiento paralelo masivo (MPP), aplicaciones basadas en búsqueda, extracción de datos,[50] sistemas de archivos distribuidos"), bases de datos distribuidas, nube e infraestructura basada en HPC(aplicaciones, almacenamiento y recursos informáticos)[51] e Internet. A pesar de que se han desarrollado muchos enfoques y tecnologías, sigue siendo difícil llevar a cabo el aprendizaje automático con grandes datos.[52].
Algunas bases de datos relacionales de MPP tienen la capacidad de almacenar y administrar petabytes de datos. Implícita es la capacidad de cargar, supervisar, realizar copias de seguridad y optimizar el uso de las tablas de datos de gran tamaño en el RDBMS.[53].
El programa de Análisis Topológico de Datos") de DARPA busca la estructura fundamental de los conjuntos de datos masivos y en 2008 la tecnología se hizo pública con el lanzamiento de una compañía llamada Ayasdi.[54].
Los profesionales de los procesos de análisis de macrodatos generalmente son hostiles al almacenamiento compartido más lento,[55] prefieren el almacenamiento de conexión directa (DAS) en sus diversas formas, desde unidad de estado sólido (SSD) hasta disco SATA de gran capacidad enterrado dentro de nodos de procesamiento paralelo. La percepción de las arquitecturas de almacenamiento compartidas, la red de área de almacenamiento (SAN) y el almacenamiento conectado a la red (NAS), es que son relativamente lentas, complejas y costosas. Estas cualidades no son consistentes con los sistemas de análisis de datos grandes que prosperan en el rendimiento del sistema, infraestructura de productos básicos y bajo costo.
La entrega de información real o casi en tiempo real es una de las características definitorias del análisis de macrodatos. Por lo tanto, se evita la latencia siempre que sea posible. Los datos en la memoria son buenos; los datos en el disco giratorio en el otro extremo de una conexión FC SAN no lo son. El costo de una SAN en la escala necesaria para las aplicaciones analíticas es mucho mayor que otras técnicas de almacenamiento.
Hay ventajas y desventajas para el almacenamiento compartido en el análisis de macrodatos, pero los practicantes de análisis de macrodatos a partir de 2011 no lo favorecieron.
Capturar
De onde vêm todos esses dados? Nós os fabricamos direta e indiretamente, segundo após segundo. Um iPhone hoje tem mais capacidade computacional do que a NASA tinha quando os humanos chegaram à Lua,[56] então a quantidade de dados gerados por pessoa e em unidade de tempo é muito grande. Catalogamos a origem dos dados de acordo com as seguintes categorias:[57].
• - Gerado pelas próprias pessoas. O ato de enviar e-mails ou mensagens no WhatsApp, postar um status no Facebook, publicar relações de trabalho no Linkedin, tuitar conteúdo ou responder uma pesquisa na rua são coisas que fazemos diariamente e que criam novos dados e metadados que podem ser analisados. Estima-se que a cada minuto por dia sejam enviados mais de 200 milhões de e-mails, mais de 700 mil conteúdos sejam compartilhados no Facebook, dois milhões de pesquisas sejam realizadas no Google ou 48 horas de vídeo sejam editadas no YouTube.[58] Por outro lado, rastrear o uso em um sistema ERP, incluir registros em um banco de dados ou inserir informações em uma planilha são outras formas de gerar esses dados.
• - Obtido de transações. Faturação, cartões de fidelização, chamadas telefónicas, ligações a torres telefónicas, acesso a redes Wi-Fi públicas, pagamentos com cartões de crédito ou transações entre contas bancárias geram informações que, quando processadas, podem ser dados relevantes. Por exemplo, transações bancárias: O que o utilizador conhece como um rendimento de X euros, o sistema irá captá-lo como uma ação realizada numa data e hora específicas, num local específico, entre utilizadores registados e com determinados metadados.
• - Marketing eletrônico e web. Uma grande quantidade de dados é gerada durante a navegação na Internet. Com a web 2.0, o paradigma webmaster-leitor de conteúdo foi quebrado e os próprios usuários se tornam criadores de conteúdo graças à sua interação com o site. Existem muitas ferramentas de rastreamento usadas principalmente para fins de marketing e análise de negócios. “Os movimentos do mouse são registrados em mapas de calor e há um registro de quanto gastamos em cada página e quando as visitamos.
• - Obtido a partir de interações máquina-máquina (M2M). São dados obtidos a partir da coleta de métricas obtidas de dispositivos (medidores, temperatura, luz, altura, pressão, sensores sonoros...) que transformam magnitudes físicas ou químicas e as convertem em dados. Eles existem há décadas, mas a chegada das comunicações sem fio (Wi-Fi, Bluetooth, RFID, etc.) revolucionou o mundo dos sensores. Alguns exemplos são GPS na indústria automotiva, sensores de sinais vitais (muito úteis para seguros de vida), pulseiras em festivais,[59] monitores de operação e condução de automóveis (obtêm-se informações muito úteis para seguradoras),[60] smartphones (são sensores de localização).
• - Dados biométricos coletados. Geralmente provêm dos serviços de segurança, defesa e inteligência.[61] São quantidades de dados geradas por leitores biométricos, como scanners de retina, scanners de impressões digitais ou leitores de cadeia de DNA. O objetivo destes dados é fornecer mecanismos de segurança e geralmente são guardados por ministérios de defesa e departamentos de inteligência. Um exemplo de aplicação é a ligação cruzada de DNA entre uma amostra de um crime e uma amostra da nossa base de dados.
Transformação
Uma vez encontradas as fontes dos dados necessários, provavelmente teremos um número infinito de tabelas de origem que não estarão relacionadas. O próximo objetivo é ter os dados coletados no mesmo local e dar-lhes um formato adequado.
É aqui que as plataformas de extração, transformação e carregamento (ETL) entram em ação. Seu objetivo é extrair dados de diferentes fontes e sistemas, depois realizar transformações (conversões de dados, limpeza de dados sujos), alterações de formato, etc.) e, finalmente, carregar os dados no banco de dados ou data warehouse especificado.[62] Um exemplo de plataforma ETL é a Pentaho Data Integration, mais especificamente sua aplicação Spoon.
Armazenamento NoSQL
O termo NoSQL refere-se a Não Apenas SQL e são sistemas de armazenamento que não estão em conformidade com o esquema de relacionamento entre entidades.[63] Eles fornecem um sistema de armazenamento muito mais flexível e simultâneo e permitem que grandes quantidades de informações sejam manipuladas muito mais rapidamente do que bancos de dados relacionais.
Distinguimos quatro grandes grupos de bancos de dados NoSQL:
• - Armazenamento de valor-chave (valor-chave): os dados são armazenados de forma semelhante a mapas de dados ou dicionários, onde os dados são acessados a partir de uma chave única.[64] Os valores (dados) são isolados e independentes uns dos outros, e não são interpretados pelo sistema. Eles podem ser simples "Variáveis (programação)"), como números inteiros ou caracteres, ou objetos. Por outro lado, este sistema de armazenamento carece de uma estrutura de dados clara e estabelecida, por isso não requer uma formatação de dados muito rigorosa.[65].
Eles são úteis para operações simples baseadas em chaves. Um exemplo é o aumento da velocidade de carregamento de um site que pode utilizar diferentes perfis de usuário, tendo os arquivos que devem ser incluídos mapeados de acordo com o ID do usuário e que foram calculados previamente. Apache Cassandra é a tecnologia de armazenamento de valor-chave mais reconhecida pelos usuários.[66].
• - Armazenamento de documentos: as bases de dados documentais apresentam grande semelhança com as bases de dados de valores-chave, diferindo nos dados que armazenam. Se no anterior não era necessária uma estrutura de dados específica, neste caso salvamos dados semiestruturados.[66] Esses dados agora são chamados de documentos, e podem ser formatados em XML, JSON, JSON binário ou o que o mesmo banco de dados aceitar.
CouchDB ou MongoDB[66] são talvez os mais conhecidos. Menção especial deve ser feita ao MapReduce, uma tecnologia do Google inicialmente projetada para seu algoritmo PageRank, que permite selecionar um subconjunto de dados, agrupá-lo ou reduzi-lo e carregá-lo em outra coleção, e Hadoop, que é uma tecnologia Apache projetada para armazenar e processar grandes quantidades de dados.
• - Armazenamento de grafos: os bancos de dados de grafos rompem com a ideia de tabelas e são baseados na teoria dos grafos, onde se estabelece que as informações são os nós e as relações entre as informações são as arestas,[66] algo semelhante ao modelo relacional. Sua maior utilização é contemplada em casos de relacionamento de grandes quantidades de dados que podem ser altamente variáveis. Por exemplo, nós "Nó (computação)") podem conter objetos "Objeto (programação)"), variáveis "Variável (programação)") e atributos "Atributo (computação)") que são diferentes uns dos outros. As operações JOIN são substituídas por travessias no gráfico e uma lista de adjacências entre os nós é salva.[64] Encontramos um exemplo nas redes sociais: no Facebook cada nó é considerado um usuário, podendo ter arestas “Edge (teoria dos grafos)”) de amizade com outros usuários, ou arestas “Edge (teoria dos grafos)”) de publicação com nós “Nó (computação)”) de conteúdo. Soluções como Neo4J") e GraphDB[66] são as mais conhecidas em bancos de dados gráficos.
Análise de dados
A análise permite que você observe os dados e explique o que está acontecendo. Tendo os dados necessários armazenados de acordo com diferentes tecnologias de armazenamento, perceberemos que precisaremos de diferentes técnicas de análise de dados, como as seguintes:
• - Associação: permite encontrar relações entre diferentes variáveis.[67] Sob a premissa da causalidade, o objetivo é encontrar uma previsão no comportamento de outras variáveis. Esses relacionamentos podem ser sistemas de venda cruzada em negócios eletrônicos.
• - Data mining (data mining): visa encontrar comportamentos preditivos. Abrange o conjunto de técnicas que combinam métodos estatísticos e de aprendizado de máquina com armazenamento de banco de dados.[68] Está intimamente relacionado aos modelos usados para descobrir padrões em grandes quantidades de dados.
• - Agrupamento (clustering): a análise de cluster é um tipo de mineração de dados que divide grandes grupos de indivíduos em grupos menores dos quais não sabíamos sua semelhança antes da análise.[68] O objetivo é encontrar semelhanças entre esses grupos, e a descoberta de novos, sabendo quais qualidades os definem. É uma metodologia adequada para encontrar relações entre resultados e fazer uma avaliação preliminar da estrutura dos dados analisados. Existem diferentes técnicas e algoritmos de clustering[69].
• - Análise de texto (análise de texto): muitos dos dados gerados pelas pessoas são textos, como e-mails, pesquisas na web ou conteúdo. Esta metodologia permite-nos extrair informações destes dados e assim modelar tópicos e questões ou prever palavras.[70].
• - Análise topológica de dados (TDA): visa analisar a estrutura geométrica e topológica dos dados. Desenvolvido desde a década de 90 utilizando ferramentas de topologia algébrica como a homologia persistente.[71] Tem se mostrado útil para o agrupamento de alguns dados e para a análise de dados oncológicos, sendo capaz de prever respostas a tratamentos e gerar diagnósticos.[72].
Visualização de dados
Como diz o Instituto Nacional de Estatística "Instituto Nacional de Estadistica (Espanha)" em seus tutoriais, "uma imagem vale mais que mil palavras ou mil dados."[73] A mente aprecia muito mais uma apresentação bem estruturada de resultados estatísticos em gráficos ou mapas do que em tabelas com números e conclusões. No big data vamos um passo além: parafraseando Edward Tufte, um dos mais reconhecidos especialistas em visualização de dados em todo o mundo, "o mundo é complexo, dinâmico, multidimensional, o papel é estático e plano. Como podemos representar a rica experiência visual do mundo na mera planície? Como podemos representar a rica experiência visual do mundo na mera planície?"
Mondrian "Mondrian (informática)")[74] é uma plataforma que permite visualizar informação através das análises realizadas aos dados que possuímos. Com esta plataforma tentamos atingir um público mais específico e uma utilidade mais limitada como um scorecard abrangente de uma organização. Nos últimos anos, outras plataformas como Tableau, Power BI e Qlik se espalharam.[75].
Por outro lado, os infográficos tornaram-se um fenômeno viral, onde são coletados os resultados de diferentes análises de nossos dados, e são um material atraente, divertido e simplificado para o público de massa.[76].