Modelos preditivos urbanos | Construpedia

Modelos preditivos urbanos

Introdução

Em geral

big data,[1][2] também chamado de dados massivos, inteligência de dados ou dados em larga escala (do inglês big data), é um termo que se refere a conjuntos de dados tão grandes e complexos que exigem aplicativos de processamento de dados de computador não tradicionais para processá-los adequadamente. Dados são a reprodução simbólica de um atributo ou variável quantitativa ou qualitativa; segundo a RAE “Informação sobre algo específico que permite seu conhecimento exato ou serve para deduzir as consequências derivadas de um fato”.[3] Portanto, os procedimentos utilizados para encontrar padrões repetitivos nesses dados são mais sofisticados e requerem software especializado. Em textos científicos em espanhol, o termo inglês big data é frequentemente usado diretamente, como aparece no ensaio de Viktor Schönberger "A revolução dos dados massivos.[4][5].

O uso moderno do termo big data tende a se referir à análise do comportamento do usuário, extraindo valor dos dados armazenados e formulando previsões por meio de padrões observados. A disciplina dedicada ao big data faz parte do setor de tecnologias de informação e comunicação. Esta disciplina trata de todas as atividades relacionadas a sistemas que manipulam grandes conjuntos de dados.

As dificuldades mais comuns ligadas à gestão destes grandes volumes de dados centram-se na sua recolha e armazenamento,[6] nas pesquisas, partilha e análise,[7] e nas visualizações e representações. A tendência para manipular enormes volumes de dados deve-se, em muitos casos, à necessidade de incluir tais informações para a criação de relatórios estatísticos e modelos preditivos utilizados em diversos assuntos, como análise de negócios, publicidade, doenças infecciosas, espionagem e monitorização da população, ou combate ao crime organizado.[8].

O limite superior de processamento tem crescido ao longo dos anos.[9] Estima-se que o mundo armazenou cerca de 5 zetabytes em 2014. Se você colocar essas informações em livros, convertendo as imagens e tudo isso em seu equivalente em letras, você poderá fazer 4.500 pilhas de livros que chegam até o sol.[10].

Os cientistas regularmente encontram limites nas análises devido à grande quantidade de dados em certas áreas, como meteorologia, genômica,[11] conectômica") (uma abordagem para o estudo do cérebro; em inglês: Connectomics; em francês: Conectomique), simulações complexas de processos físicos[12] e pesquisas relacionadas a processos biológicos e ambientais.[13]

Modelos preditivos urbanos

Introdução

Em geral

Definição

O termo está em uso desde a década de 1990, e alguns dão crédito a John Mashey por popularizá-lo. Big data é um termo que se refere a uma quantidade de dados que excede a capacidade do software convencional de ser capturado, gerenciado e processado em um tempo razoável. O volume de big data está em constante crescimento. Em 2012, estimou-se que seu tamanho variava de uma dúzia de terabytes a vários petabytes de dados em um único conjunto de dados. Na metodologia MIKE2.0"), dedicada a investigar tópicos relacionados à gestão da informação"), eles definem big data[21] em termos de permutações úteis, complexidade e dificuldade na exclusão de registros individuais.

Também foi definido como dados massivos o suficiente para destacar questões e preocupações em torno da eficácia do anonimato de uma perspectiva mais prática do que teórica.[22].

Em 2001, em um relatório de pesquisa baseado em conferências e apresentações relacionadas,[23] o Grupo META (agora Gartner "Gartner (empresa)") definiu o crescimento constante de dados como uma oportunidade e desafio para pesquisas em volume, velocidade e variedade. O Gartner continua a usar big data como referência.[24] Além disso, grandes fornecedores do mercado de big data estão desenvolvendo soluções para atender às demandas mais críticas sobre como processar tamanha quantidade de dados, como MapR e Cloudera.

Uma definição de 2016 afirma que big data representa ativos de informação caracterizados por um volume, velocidade e variedade tão elevados que requerem tecnologia e métodos analíticos específicos para a sua transformação em valor.

• - Aprendizado de máquina: Big data muitas vezes não pergunta por que e simplesmente detecta padrões.[28].

• - Pegada digital: Big data é muitas vezes um subproduto gratuito da interação digital.

Uma definição de 2018 afirma que, com big data, são necessárias ferramentas de computação paralela para lidar com os dados", e observa: "Isso representa uma mudança distinta e claramente definida na computação usada através de teorias de programação paralela e perda de algumas das garantias e capacidades feitas pelo modelo relacional de Codd."[29].

A crescente maturidade do conceito descreve de forma clara e clara a diferença entre big data (dados em larga escala) e business intelligence:.

• - Business intelligence utiliza estatísticas descritivas com dados com alta densidade de informação para medir coisas, detectar tendências, etc.

• - Por sua vez, big data utiliza estatísticas e conceitos indutivos para identificar sistemas não lineares"),[30] para inferir leis (regressões, relações não lineares e efeitos causais) a partir de grandes conjuntos de dados com baixa densidade de informação, a fim de revelar relações e dependências, ou para fazer previsões de resultados e comportamentos.[31].

Arquitetura

Os repositórios de big data existem em muitas formas, muitas vezes criados por empresas com necessidades especiais. Historicamente, os fornecedores comerciais ofereceram sistemas paralelos de gerenciamento de banco de dados para big data a partir da década de 1990. Durante muitos anos, a WinterCorp publicou um relatório de base de dados maior[34].

A Teradata Corporation em 1984 comercializou o sistema de processamento paralelo DBC 1012. Os sistemas Teradata foram os primeiros a armazenar e analisar 1 terabyte de dados em 1992. Os discos rígidos tinham 2,5 GB em 1991, portanto a definição de big data evolui continuamente de acordo com a Lei de Kryder. A Teradata instalou o primeiro sistema baseado em RDBMS da classe petabyte em 2007. A partir de 2017, existem algumas dezenas de bancos de dados relacionais Teradata da classe Petabyte instalados, o maior dos quais excede 50 PB. Os sistemas até 2008 eram 100% de dados relacionais estruturados. Desde então, o Teradata adicionou tipos de dados não estruturados, incluindo XML, JSON e Avro.

(agora LexisNexis Group") desenvolveu uma estrutura de compartilhamento de arquivos distribuído baseada em C++ para armazenamento e consultas de dados. O sistema armazena e distribui dados estruturados, semiestruturados e não estruturados em vários servidores. Os usuários podem criar consultas em um dialeto de C++ chamado ECL. ECL usa um método "aplicar esquema na leitura" para inferir a estrutura dos dados armazenados quando eles são consultados, em vez de quando são armazenados. Em 2004, LexisNexis adquiriu a Seisint Inc.[35] e em 2008 adquiriu a ChoicePoint, Inc.[36] e sua plataforma de processamento paralelo de alta velocidade foi incorporada aos sistemas HPCC (ou High Performance Computing Cluster) e em 2011, o HPCC foi de código aberto sob a licença Apache Quantcast File System v2.0.[37].

O CERN e outros experimentos de física coletaram grandes conjuntos de dados durante muitas décadas, geralmente analisados por meio de computadores de alto desempenho (supercomputadores), em vez de arquiteturas reduzidas de mapas de produtos, que geralmente se referem ao movimento de big data.

Em 2004, o Google publicou um artigo sobre um processo chamado MapReduce que utiliza uma arquitetura semelhante. O conceito MapReduce fornece um modelo de processamento paralelo e uma implementação associada foi lançada para processar grandes quantidades de dados. Com o MapReduce, as consultas são divididas e distribuídas entre nós paralelos e processadas em paralelo (a etapa Map). Os resultados são coletados e entregues (etapa Reduzir). A estrutura teve muito sucesso, então outros queriam replicar o algoritmo. Portanto, uma implementação da estrutura MapReduce foi adotada por um projeto de código aberto Apache chamado Hadoop.[38] O Apache Spark foi desenvolvido em 2012 em resposta às limitações do paradigma MapReduce, pois adiciona a capacidade de configurar muitas operações (não apenas mapear seguido de reduzir).

MIKE2.0 é uma abordagem aberta ao gerenciamento de informações que reconhece a necessidade de revisões devido às implicações do big data identificadas em um artigo intitulado "Fornecendo soluções de big data".[39] A metodologia aborda o gerenciamento de big data em termos de permutações úteis de fontes de dados, complexidade nas inter-relações e dificuldade em excluir (ou modificar) registros individuais.[40].

Estudos de 2012 mostraram que uma arquitetura multicamadas é uma opção para resolver os problemas apresentados pelo big data. Uma arquitetura paralela distribuída distribui dados entre vários servidores; Esses ambientes de execução paralela podem melhorar drasticamente as velocidades de processamento de dados. Esse tipo de arquitetura insere dados em um SGBD paralelo, que implementa o uso dos frameworks MapReduce e Hadoop. Este tipo de framework busca tornar o poder de processamento transparente para o usuário final através do uso de um servidor front-end.[41].

A análise de big data para aplicações de manufatura é comercializada como uma arquitetura 5C (conexão, conversão, cibernética, cognição e configuração).[42].

O data lake permite que uma organização mude seu foco do controle centralizado para um modelo compartilhado para responder às mudanças na dinâmica do gerenciamento de informações. Isso permite a rápida segregação de dados no data lake, reduzindo o tempo de sobrecarga.[43][44].

Tecnologia

Contenido

Existen muchísimas herramientas para el manejo de los macrodatos. Algunos ejemplos incluyen Apache_Hadoop, NoSQL, Apache_Cassandra, inteligencia empresarial, aprendizaje automático y MapReduce. Estas herramientas tratan con algunos de los tres tipos de macrodatos:[45].

• - Datos estructurados: datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y los almacenes de datos.

• - Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos multimedia, correos electrónicos o documentos de texto.

• - Datos semiestructurados: datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Estos datos poseen sus propios metadatos semiestructurados[46] que describen los objetos y las relaciones entre ellos, y pueden acabar siendo aceptados por convención. Como ejemplos tenemos los archivos tipo hojas de cálculo, HTML, XML o JSON.

Un informe de 2011 del McKinsey Global Institute") caracteriza los componentes principales y el ecosistema de macrodatos de la siguiente manera:[47].

• - Técnicas para analizar datos, como pruebas A / B, aprendizaje automático y procesamiento del lenguaje natural.

• - Grandes tecnologías de datos, como inteligencia de negocios, computación en la nube y bases de datos.

• - Visualización, como tablas, gráficos y otras visualizaciones de los datos.

Los macrodatos multidimensionales también se pueden representar como cubos de datos o, matemáticamente, tensores. Los sistemas de bases de datos Array se han propuesto proporcionar almacenamiento y soporte de consultas de alto nivel en este tipo de datos. Las tecnologías adicionales que se aplican a los macrodatos incluyen un cálculo basado en tensor eficiente,[48] como el aprendizaje de subespacio multilineal,[49] bases de datos de procesamiento paralelo masivo (MPP), aplicaciones basadas en búsqueda, extracción de datos,[50] sistemas de archivos distribuidos"), bases de datos distribuidas, nube e infraestructura basada en HPC(aplicaciones, almacenamiento y recursos informáticos)[51] e Internet. A pesar de que se han desarrollado muchos enfoques y tecnologías, sigue siendo difícil llevar a cabo el aprendizaje automático con grandes datos.[52].

Algunas bases de datos relacionales de MPP tienen la capacidad de almacenar y administrar petabytes de datos. Implícita es la capacidad de cargar, supervisar, realizar copias de seguridad y optimizar el uso de las tablas de datos de gran tamaño en el RDBMS.[53].

El programa de Análisis Topológico de Datos") de DARPA busca la estructura fundamental de los conjuntos de datos masivos y en 2008 la tecnología se hizo pública con el lanzamiento de una compañía llamada Ayasdi.[54].

Los profesionales de los procesos de análisis de macrodatos generalmente son hostiles al almacenamiento compartido más lento,[55] prefieren el almacenamiento de conexión directa (DAS) en sus diversas formas, desde unidad de estado sólido (SSD) hasta disco SATA de gran capacidad enterrado dentro de nodos de procesamiento paralelo. La percepción de las arquitecturas de almacenamiento compartidas, la red de área de almacenamiento (SAN) y el almacenamiento conectado a la red (NAS), es que son relativamente lentas, complejas y costosas. Estas cualidades no son consistentes con los sistemas de análisis de datos grandes que prosperan en el rendimiento del sistema, infraestructura de productos básicos y bajo costo.

La entrega de información real o casi en tiempo real es una de las características definitorias del análisis de macrodatos. Por lo tanto, se evita la latencia siempre que sea posible. Los datos en la memoria son buenos; los datos en el disco giratorio en el otro extremo de una conexión FC SAN no lo son. El costo de una SAN en la escala necesaria para las aplicaciones analíticas es mucho mayor que otras técnicas de almacenamiento.

Hay ventajas y desventajas para el almacenamiento compartido en el análisis de macrodatos, pero los practicantes de análisis de macrodatos a partir de 2011 no lo favorecieron.

Capturar

De onde vêm todos esses dados? Nós os fabricamos direta e indiretamente, segundo após segundo. Um iPhone hoje tem mais capacidade computacional do que a NASA tinha quando os humanos chegaram à Lua,[56] então a quantidade de dados gerados por pessoa e em unidade de tempo é muito grande. Catalogamos a origem dos dados de acordo com as seguintes categorias:[57].

• - Gerado pelas próprias pessoas. O ato de enviar e-mails ou mensagens no WhatsApp, postar um status no Facebook, publicar relações de trabalho no Linkedin, tuitar conteúdo ou responder uma pesquisa na rua são coisas que fazemos diariamente e que criam novos dados e metadados que podem ser analisados. Estima-se que a cada minuto por dia sejam enviados mais de 200 milhões de e-mails, mais de 700 mil conteúdos sejam compartilhados no Facebook, dois milhões de pesquisas sejam realizadas no Google ou 48 horas de vídeo sejam editadas no YouTube.[58] Por outro lado, rastrear o uso em um sistema ERP, incluir registros em um banco de dados ou inserir informações em uma planilha são outras formas de gerar esses dados.

• - Obtido de transações. Faturação, cartões de fidelização, chamadas telefónicas, ligações a torres telefónicas, acesso a redes Wi-Fi públicas, pagamentos com cartões de crédito ou transações entre contas bancárias geram informações que, quando processadas, podem ser dados relevantes. Por exemplo, transações bancárias: O que o utilizador conhece como um rendimento de X euros, o sistema irá captá-lo como uma ação realizada numa data e hora específicas, num local específico, entre utilizadores registados e com determinados metadados.

• - Marketing eletrônico e web. Uma grande quantidade de dados é gerada durante a navegação na Internet. Com a web 2.0, o paradigma webmaster-leitor de conteúdo foi quebrado e os próprios usuários se tornam criadores de conteúdo graças à sua interação com o site. Existem muitas ferramentas de rastreamento usadas principalmente para fins de marketing e análise de negócios. “Os movimentos do mouse são registrados em mapas de calor e há um registro de quanto gastamos em cada página e quando as visitamos.

• - Obtido a partir de interações máquina-máquina (M2M). São dados obtidos a partir da coleta de métricas obtidas de dispositivos (medidores, temperatura, luz, altura, pressão, sensores sonoros...) que transformam magnitudes físicas ou químicas e as convertem em dados. Eles existem há décadas, mas a chegada das comunicações sem fio (Wi-Fi, Bluetooth, RFID, etc.) revolucionou o mundo dos sensores. Alguns exemplos são GPS na indústria automotiva, sensores de sinais vitais (muito úteis para seguros de vida), pulseiras em festivais,[59] monitores de operação e condução de automóveis (obtêm-se informações muito úteis para seguradoras),[60] smartphones (são sensores de localização).

• - Dados biométricos coletados. Geralmente provêm dos serviços de segurança, defesa e inteligência.[61] São quantidades de dados geradas por leitores biométricos, como scanners de retina, scanners de impressões digitais ou leitores de cadeia de DNA. O objetivo destes dados é fornecer mecanismos de segurança e geralmente são guardados por ministérios de defesa e departamentos de inteligência. Um exemplo de aplicação é a ligação cruzada de DNA entre uma amostra de um crime e uma amostra da nossa base de dados.

Transformação

Uma vez encontradas as fontes dos dados necessários, provavelmente teremos um número infinito de tabelas de origem que não estarão relacionadas. O próximo objetivo é ter os dados coletados no mesmo local e dar-lhes um formato adequado.

É aqui que as plataformas de extração, transformação e carregamento (ETL) entram em ação. Seu objetivo é extrair dados de diferentes fontes e sistemas, depois realizar transformações (conversões de dados, limpeza de dados sujos), alterações de formato, etc.) e, finalmente, carregar os dados no banco de dados ou data warehouse especificado.[62] Um exemplo de plataforma ETL é a Pentaho Data Integration, mais especificamente sua aplicação Spoon.

Armazenamento NoSQL

O termo NoSQL refere-se a Não Apenas SQL e são sistemas de armazenamento que não estão em conformidade com o esquema de relacionamento entre entidades.[63] Eles fornecem um sistema de armazenamento muito mais flexível e simultâneo e permitem que grandes quantidades de informações sejam manipuladas muito mais rapidamente do que bancos de dados relacionais.

Distinguimos quatro grandes grupos de bancos de dados NoSQL:

• - Armazenamento de valor-chave (valor-chave): os dados são armazenados de forma semelhante a mapas de dados ou dicionários, onde os dados são acessados a partir de uma chave única.[64] Os valores (dados) são isolados e independentes uns dos outros, e não são interpretados pelo sistema. Eles podem ser simples "Variáveis (programação)"), como números inteiros ou caracteres, ou objetos. Por outro lado, este sistema de armazenamento carece de uma estrutura de dados clara e estabelecida, por isso não requer uma formatação de dados muito rigorosa.[65].

Eles são úteis para operações simples baseadas em chaves. Um exemplo é o aumento da velocidade de carregamento de um site que pode utilizar diferentes perfis de usuário, tendo os arquivos que devem ser incluídos mapeados de acordo com o ID do usuário e que foram calculados previamente. Apache Cassandra é a tecnologia de armazenamento de valor-chave mais reconhecida pelos usuários.[66].

• - Armazenamento de documentos: as bases de dados documentais apresentam grande semelhança com as bases de dados de valores-chave, diferindo nos dados que armazenam. Se no anterior não era necessária uma estrutura de dados específica, neste caso salvamos dados semiestruturados.[66] Esses dados agora são chamados de documentos, e podem ser formatados em XML, JSON, JSON binário ou o que o mesmo banco de dados aceitar.

CouchDB ou MongoDB[66] são talvez os mais conhecidos. Menção especial deve ser feita ao MapReduce, uma tecnologia do Google inicialmente projetada para seu algoritmo PageRank, que permite selecionar um subconjunto de dados, agrupá-lo ou reduzi-lo e carregá-lo em outra coleção, e Hadoop, que é uma tecnologia Apache projetada para armazenar e processar grandes quantidades de dados.

• - Armazenamento de grafos: os bancos de dados de grafos rompem com a ideia de tabelas e são baseados na teoria dos grafos, onde se estabelece que as informações são os nós e as relações entre as informações são as arestas,[66] algo semelhante ao modelo relacional. Sua maior utilização é contemplada em casos de relacionamento de grandes quantidades de dados que podem ser altamente variáveis. Por exemplo, nós "Nó (computação)") podem conter objetos "Objeto (programação)"), variáveis "Variável (programação)") e atributos "Atributo (computação)") que são diferentes uns dos outros. As operações JOIN são substituídas por travessias no gráfico e uma lista de adjacências entre os nós é salva.[64] Encontramos um exemplo nas redes sociais: no Facebook cada nó é considerado um usuário, podendo ter arestas “Edge (teoria dos grafos)”) de amizade com outros usuários, ou arestas “Edge (teoria dos grafos)”) de publicação com nós “Nó (computação)”) de conteúdo. Soluções como Neo4J") e GraphDB[66] são as mais conhecidas em bancos de dados gráficos.

Análise de dados

A análise permite que você observe os dados e explique o que está acontecendo. Tendo os dados necessários armazenados de acordo com diferentes tecnologias de armazenamento, perceberemos que precisaremos de diferentes técnicas de análise de dados, como as seguintes:

• - Associação: permite encontrar relações entre diferentes variáveis.[67] Sob a premissa da causalidade, o objetivo é encontrar uma previsão no comportamento de outras variáveis. Esses relacionamentos podem ser sistemas de venda cruzada em negócios eletrônicos.

• - Data mining (data mining): visa encontrar comportamentos preditivos. Abrange o conjunto de técnicas que combinam métodos estatísticos e de aprendizado de máquina com armazenamento de banco de dados.[68] Está intimamente relacionado aos modelos usados para descobrir padrões em grandes quantidades de dados.

• - Agrupamento (clustering): a análise de cluster é um tipo de mineração de dados que divide grandes grupos de indivíduos em grupos menores dos quais não sabíamos sua semelhança antes da análise.[68] O objetivo é encontrar semelhanças entre esses grupos, e a descoberta de novos, sabendo quais qualidades os definem. É uma metodologia adequada para encontrar relações entre resultados e fazer uma avaliação preliminar da estrutura dos dados analisados. Existem diferentes técnicas e algoritmos de clustering[69].

• - Análise de texto (análise de texto): muitos dos dados gerados pelas pessoas são textos, como e-mails, pesquisas na web ou conteúdo. Esta metodologia permite-nos extrair informações destes dados e assim modelar tópicos e questões ou prever palavras.[70].

• - Análise topológica de dados (TDA): visa analisar a estrutura geométrica e topológica dos dados. Desenvolvido desde a década de 90 utilizando ferramentas de topologia algébrica como a homologia persistente.[71] Tem se mostrado útil para o agrupamento de alguns dados e para a análise de dados oncológicos, sendo capaz de prever respostas a tratamentos e gerar diagnósticos.[72].

Visualização de dados

Como diz o Instituto Nacional de Estatística "Instituto Nacional de Estadistica (Espanha)" em seus tutoriais, "uma imagem vale mais que mil palavras ou mil dados."[73] A mente aprecia muito mais uma apresentação bem estruturada de resultados estatísticos em gráficos ou mapas do que em tabelas com números e conclusões. No big data vamos um passo além: parafraseando Edward Tufte, um dos mais reconhecidos especialistas em visualização de dados em todo o mundo, "o mundo é complexo, dinâmico, multidimensional, o papel é estático e plano. Como podemos representar a rica experiência visual do mundo na mera planície? Como podemos representar a rica experiência visual do mundo na mera planície?"

Mondrian "Mondrian (informática)")[74] é uma plataforma que permite visualizar informação através das análises realizadas aos dados que possuímos. Com esta plataforma tentamos atingir um público mais específico e uma utilidade mais limitada como um scorecard abrangente de uma organização. Nos últimos anos, outras plataformas como Tableau, Power BI e Qlik se espalharam.[75].

Por outro lado, os infográficos tornaram-se um fenômeno viral, onde são coletados os resultados de diferentes análises de nossos dados, e são um material atraente, divertido e simplificado para o público de massa.[76].

Aplicativos

Los macrodatos han sido utilizados por la industria de los medios, las empresas y los gobiernos para dirigirse con mayor precisión a su público y aumentar la eficiencia de sus mensajes.

Los macrodatos han aumentado la demanda de especialistas en administración de la información tanto que Software AG"), Oracle Corporation, IBM, Microsoft, SAP, EMC, HP y Dell han gastado más de $ 15 mil millones en firmas de software especializadas en administración y análisis de datos. En 2010, esta industria valía más de $ 100 mil millones y crecía a casi un 10 por ciento anual: aproximadamente el doble de rápido que el negocio del software en general.[77].

Las economías desarrolladas usan cada vez más tecnologías intensivas en datos. Hay 4600 millones de suscripciones de teléfonos móviles en todo el mundo, y entre 1000 y 2000 millones de personas que acceden a Internet. Entre 1990 y 2005, más de mil millones de personas en todo el mundo ingresaron a la clase media, lo que significa que más personas se volvieron más alfabetizadas, lo que a su vez llevó al crecimiento de la información. La capacidad efectiva mundial para intercambiar información a través de redes de telecomunicaciones era de 281 petabytes en 1986, 471 petabytes en 1993, 2.2 exabytes en 2000, 65 exabytes en 2007[78] y las predicciones cifran el tráfico de internet en 667 exabytes anualmente para 2014. Según una estimación, un tercio de la información almacenada en todo el mundo está en forma de texto alfanumérico e imágenes fijas,[79] que es el formato más útil para la mayoría de las aplicaciones de macrodatos. Esto también muestra el potencial de los datos aún no utilizados (es decir, en forma de contenido de video y audio).

Si bien muchos proveedores ofrecen soluciones estándar para los macrodatos, los expertos recomiendan el desarrollo de soluciones internas personalizadas para resolver el problema de la compañía si la empresa cuenta con capacidades técnicas suficientes.[80].

Governo

A utilização e a adoção de grandes volumes de dados nos processos governamentais permitem eficiências em termos de custos, produtividade e inovação, mas não estão isentas de falhas.[81] A análise de dados requer frequentemente que várias partes do governo (central e local) trabalhem de forma colaborativa e criem novos processos para alcançar o resultado desejado.

Big data é comumente usado para influenciar o processo democrático. Os representantes do povo podem ver tudo o que os cidadãos fazem, e os cidadãos podem ditar a vida pública dos representantes através de tweets e outros métodos de divulgação de ideias na sociedade. As campanhas presidenciais de Obama e Trump utilizaram-nas amplamente[82] e há especialistas que alertam que a democracia representativa deve ser “reinventada”. Caso contrário, é possível que se torne uma ditadura da informação."[83].

O Banco Interamericano de Desenvolvimento (BID) tem desenvolvido estudos na América Latina nos quais apresenta diversos casos de utilização de big data na concepção e implementação de políticas públicas. Destacando intervenções em questões de mobilidade urbana, cidades inteligentes e segurança, entre outros temas. As suas recomendações giram em torno de como construir instituições públicas que consigam, através da utilização de dados massivos, ser mais transparentes e ajudar a tomar melhores decisões.[84].

Desenvolvimento internacional

Pesquisas sobre o uso eficaz de tecnologias de informação e comunicação para o desenvolvimento (também conhecidas como ICT4D) sugerem que a tecnologia de big data pode fazer contribuições importantes, mas também apresenta desafios únicos para o desenvolvimento internacional.[85][86] Os avanços na análise de big data oferecem oportunidades econômicas para melhorar a tomada de decisões em áreas críticas de desenvolvimento, como saúde, emprego, produtividade econômica, crime, segurança e gestão de recursos, e desastres naturais.[87] Além disso, os dados gerados pelo usuário oferecem novas oportunidades para oferecer uma voz sem precedentes. No entanto, os desafios de longa data para as regiões em desenvolvimento, como a infraestrutura tecnológica inadequada e a escassez de recursos económicos e humanos, exacerbam as preocupações existentes com os grandes volumes de dados, como a privacidade, a metodologia imperfeita e as questões de interoperabilidade.[87].

Indústria

O big data fornece uma infraestrutura para transparência na indústria transformadora, que é a capacidade de desvendar incertezas como o desempenho e a disponibilidade de componentes inconsistentes. Fabricação preditiva") como uma abordagem aplicável para tempo de inatividade próximo de zero e transparência requer uma grande quantidade de dados e ferramentas de previsão avançadas para um processo sistemático de dados em informações úteis. Uma estrutura conceitual de fabricação preditiva começa com a aquisição de dados onde diferentes tipos de dados sensoriais estão disponíveis, como acústica, vibração, pressão, corrente, tensão e dados do controlador. Uma grande quantidade de dados sensoriais, além de dados históricos, constrói o big data na fabricação. Big data gerado Eles atuam como entrada para ferramentas preditivas e estratégias preventivas, como como Prognóstico e Gestão de Saúde (PHM).[89].

Mídia

Os profissionais de mídia e publicidade abordam o big data como muitos pontos de dados acionáveis sobre milhões de pessoas. A indústria parece estar a afastar-se da abordagem tradicional de utilização de ambientes mediáticos específicos, como jornais, revistas ou programas de televisão, e, em vez disso, potencializa os consumidores com tecnologias que chegam às pessoas-alvo em momentos óptimos e em locais óptimos. O objetivo final é servir, ou transmitir, uma mensagem ou conteúdo que (estatisticamente falando) esteja alinhado com a mentalidade do consumidor. Por exemplo, os ambientes de publicação adaptam cada vez mais mensagens (anúncios) e conteúdos (artigos) para atrair os consumidores, que foram recolhidos exclusivamente através de várias atividades de mineração de dados.[90].

• - Orientação ao consumidor (para publicidade ao vendedor)[91].

• - Mineração de dados.

• - Jornalismo de dados: Editores e jornalistas utilizam ferramentas de big data para fornecer informações e infográficos únicos e inovadores.

Música

O reconhecimento de emoções musicais (REM) (Music Emotion Recognition MER) é um campo de pesquisa científica recente e em evolução. Em linhas gerais, pode-se dizer que o REM gira em torno de diversas ideias a respeito da compreensão psicológica da relação entre o afeto humano e a música. Uma das ideias centrais do REM reside na capacidade de determinar, através de sistemas automáticos, através da introdução de vários dados (sinais musicais) e variáveis (parâmetros computacionais), quais e que tipo de emoções são percebidas a partir de composições musicais, e tentar perceber como cada uma das formas das suas características estruturais pode produzir certos tipos de reações características nos ouvintes.[92].

Seguro

Os prestadores de seguros de saúde recolhem dados sobre "determinantes sociais", como o consumo de alimentos e de televisão, o estado civil, o tamanho das roupas e os hábitos de compra, a partir dos quais fazem previsões sobre os custos de saúde para detectar problemas de saúde nos seus clientes. É controverso se estas previsões estão atualmente a ser utilizadas para definir preços.[93].

Esportes

Numa área onde tanto dinheiro se movimenta, eles tendem a usar novas tecnologias antes dos usuários básicos. Verificamos, por exemplo, que a análise dos jogos constitui uma parte fundamental na formação dos profissionais e na tomada de decisões dos treinadores.

Amisco")[94] é um sistema aplicado por equipas de algumas das ligas mais importantes da Europa desde 2001. É composto por 8 câmaras e vários computadores instalados nos estádios, que registam os movimentos dos jogadores a uma velocidade de 25 registos por segundo, e depois enviam os dados para uma central onde fazem uma análise massiva dos dados. A informação que é devolvida como resultado inclui uma reprodução do jogo em duas dimensões, os dados técnicos e estatísticos, e um resumo dos dados físicos de cada jogador, permitindo que você selecione diversas dimensões e visualizações de dados diferentes.[94].

Financiar

O crescimento dos dados no mundo financeiro exige a utilização de big data para processamento rápido de dados, segmentação avançada de clientes, criação de estratégias dinâmicas de preços, gestão de riscos, prevenção de fraudes, apoio à tomada de decisões, detecção de tendências de consumo, definição de novas formas de fazer melhor as coisas, detecção de alertas e outros tipos de eventos complexos, e monitorização avançada da concorrência.[95].

Marketing e vendas

O big data é cada vez mais utilizado para segmentação avançada de consumidores, automatizando a personalização de produtos, adaptando as comunicações ao momento do ciclo de vendas, capturando novas oportunidades de vendas, apoiando a tomada de decisões em tempo real e a gestão de crises.[96][97].

Investigação

La búsqueda encriptada y la formación de grupos de macrodatos se demostraron en marzo de 2014 en la Sociedad Estadounidense de Educación en Ingeniería"). Gautam Siwach") participó en abordar los desafíos de macrodatos por el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y Amir Esmailpour"), en el Grupo de Investigación de UNH, investigó las características clave de macrodatos como la formación de clusters y sus interconexiones. Se centraron en la seguridad de los macrodatos y la orientación del término hacia la presencia de diferentes tipos de datos en forma cifrada en la interfaz de la nube al proporcionar las definiciones sin procesar y los ejemplos de tiempo real dentro de la tecnología. Además, propusieron un enfoque para identificar la técnica de codificación para avanzar hacia una búsqueda acelerada sobre texto encriptado que conduzca a las mejoras de seguridad en macrodatos.[98].

En marzo de 2012, la Casa Blanca anunció una "Iniciativa de macrodatos" nacional que consistía en seis departamentos y agencias federales comprometiendo más de $ 200 millones para proyectos de investigación de macrodatos.

La iniciativa incluyó una subvención de la National Science Foundation "Expeditions in Computing" de $ 10 millones durante 5 años para el AMPLab[99] en la Universidad de California, Berkeley.[100] El AMPLab también recibió fondos de DARPA, y más de una docena de patrocinadores industriales y utiliza macrodatos para atacar una amplia gama de problemas, desde predecir la congestión del tráfico[101] hasta combatir el cáncer.[102].

La Iniciativa de macrodatos de la Casa Blanca también incluyó un compromiso del Departamento de Energía de proporcionar $ 25 millones en financiamiento durante 5 años para establecer el Instituto de Administración, Análisis y Visualización de Datos Escalables (SDAV),[103] dirigido por Lawrence Berkeley National Laboratory del Departamento de Energía. Laboratorio. El Instituto SDAV tiene como objetivo reunir la experiencia de seis laboratorios nacionales y siete universidades para desarrollar nuevas herramientas que ayuden a los científicos a gestionar y visualizar datos en las supercomputadoras del Departamento.

El estado de Massachusetts anunció la Iniciativa de macrodatos de Massachusetts en mayo de 2012, que proporciona fondos del gobierno estatal y de empresas privadas a una variedad de instituciones de investigación. El Instituto de Tecnología de Massachusetts alberga el Centro de Ciencia y Tecnología de Intel para los macrodatos en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, que combina fondos y esfuerzos de investigación gubernamentales, corporativos e institucionales.[104].

La Comisión Europea está financiando el Foro público privado de macrodatos, que duró dos años, a través de su Séptimo Programa de Framework para involucrar a empresas, académicos y otras partes interesadas en la discusión de problemas de macrodatos. El proyecto tiene como objetivo definir una estrategia en términos de investigación e innovación para guiar las acciones de apoyo de la Comisión Europea en la implementación exitosa de la economía de macrodatos. Los resultados de este proyecto se utilizarán como aportación para Horizonte 2020, su próximo programa.

El gobierno británico anunció en marzo de 2014 la fundación del Instituto Alan Turing, que lleva el nombre del pionero de la informática y el descifrador de códigos, que se centrará en nuevas formas de recopilar y analizar grandes conjuntos de datos.[105].

En el Día de la Inspiración del Canadian Open Data Experience (CODE) de la Universidad de Waterloo Stratford Campus"), los participantes demostraron cómo el uso de la visualización de datos puede aumentar la comprensión y el atractivo de los grandes conjuntos de datos y comunicar su historia al mundo.[106].

Para que la fabricación sea más competitiva en los Estados Unidos (y en el mundo), es necesario integrar más ingenio e innovación estadounidenses en la fabricación; Por lo tanto, la National Science Foundation ha otorgado al centro de investigación cooperativa Industry Industry para Intelligent Maintenance Systems (IMS) en la Universidad de Cincinnati para que se concentre en el desarrollo de herramientas y técnicas predictivas avanzadas aplicables en un entorno de macrodatos.[107] En mayo de 2013, el IMS Center celebró una reunión de la junta asesora de la industria centrada en los macrodatos, donde presentadores de varias compañías industriales discutieron sus preocupaciones, problemas y objetivos futuros en el entorno de macrodatos.

Ciencias sociales computacionales: cualquier persona puede usar Interfaces de programación de aplicaciones (API) proporcionadas por grandes titulares de datos, como Google y Twitter, para realizar investigaciones en las ciencias sociales y del comportamiento.[108] A menudo, estas API se proporcionan de forma gratuita. Tobias Preis usó los datos de Tendencias de Google para demostrar que los usuarios de Internet de países con un producto interno bruto (PIB) per cápita más alto tienen más probabilidades de buscar información sobre el futuro que la información sobre el pasado. Los hallazgos sugieren que puede haber un vínculo entre el comportamiento en línea y los indicadores económicos del mundo real.[109][110][111] Los autores del estudio examinaron los registros de consultas de Google realizados por la relación del volumen de búsquedas para el año siguiente ('2011') con el volumen de búsquedas del año anterior ('2009'), al que denominaron 'índice de orientación futura'.[112] Compararon el índice de orientación futura con el PIB per cápita de cada país y encontraron una fuerte tendencia en los países donde los usuarios de Google informan más sobre el futuro para tener un PIB más alto. Los resultados sugieren que potencialmente puede haber una relación entre el éxito económico de un país y el comportamiento de búsqueda de información de sus ciudadanos capturado en macrodatos.

Tobias Preis") y sus colegas Helen Susannah Moat") y H. Eugene Stanley") introdujeron un método para identificar los precursores en línea de los movimientos bursátiles, utilizando estrategias de negociación basadas en los datos del volumen de búsquedas provistos por Google Trends.[113] Su análisis del volumen de búsqueda de Google para 98 términos de relevancia financiera variable, publicado en Scientific Reports"),[114] sugiere que los aumentos en el volumen de búsqueda para términos de búsqueda relevantes financieramente tienden a preceder grandes pérdidas en los mercados financieros.[115][116][113][117][118][119].

Los grandes conjuntos de datos vienen con desafíos algorítmicos que anteriormente no existían. Por lo tanto, existe una necesidad de cambiar fundamentalmente las formas de procesamiento.

Los talleres sobre algoritmos para conjuntos de datos masivos modernos (MMDS) reúnen a científicos informáticos, estadísticos, matemáticos y profesionales del análisis de datos para analizar los desafíos algorítmicos de macrodatos.[120].

Amostragem de Big Data

Uma importante questão de pesquisa que pode ser feita sobre grandes conjuntos de dados é se você precisa ver todos os dados para tirar certas conclusões sobre as propriedades dos dados ou se uma amostra é boa o suficiente.

O nome big data contém um termo relacionado ao tamanho, e esta é uma característica importante do big data. Mas amostragem (estatísticas) "Amostragem (estatísticas)") permite a seleção de pontos de dados corretos dentro de um conjunto de dados maior para estimar as características de toda a população. Por exemplo, cerca de 600 milhões de tweets são produzidos todos os dias. É necessário olhar todos eles para determinar os temas que serão discutidos durante o dia? É necessário olhar todos os tweets para determinar o sentimento sobre cada um dos tópicos? Na fabricação, diferentes tipos de dados sensoriais, como acústica, vibração, pressão, corrente, tensão e dados do controlador, estão disponíveis em curtos intervalos de tempo. Para prever o tempo de inatividade, pode não ser necessário examinar todos os dados, mas uma amostra pode ser suficiente. O big data pode ser dividido em diversas categorias de pontos de dados, como dados demográficos, psicográficos (Marketing), comportamentais e transacionais. Com grandes conjuntos de pontos de dados, os profissionais de marketing podem criar e usar segmentos de consumidores mais personalizados para um direcionamento mais estratégico.

Algum trabalho foi feito em algoritmos de amostragem para big data. Uma formulação teórica foi desenvolvida para amostragem de dados do Twitter.[121].

Saúde e medicina

Em meados de 2009, o mundo viveu uma pandemia de gripe A, chamada gripe suína ou H1N1. O site Google Flu Trends")[122] tentou prevê-lo a partir dos resultados de pesquisa. O Google Flu Trends usou dados de pesquisas de usuários que continham sintomas semelhantes aos da gripe e os agrupou por local e data, e teve como objetivo prever a atividade da gripe com até duas semanas de antecedência do que os sistemas tradicionais. No entanto, em 2013 descobriu-se que previa o dobro de consultas médicas do que realmente havia. Seus criadores cometeram dois erros: a) a nova ferramenta gerou muito interesse no público, que a consultou mais por curiosidade do que por necessidade, o que gerou ruído nas informações, e b) os algoritmos de previsão dos motores de busca Em artigo na revista Science "Science (magazine)") em 2014, foram analisados os erros cometidos pelo Google Flu Trends: "querer substituir os métodos mais tradicionais e comprovados de coleta e análise de dados por técnicas de big data, em vez de apenas substituí-los por técnicas de big data. aplique essas técnicas como complemento, como Brittany Wenger fez com Cloud4cancer". O Google Flu Trends parou de funcionar.[123].

Mais especificamente, na Nova Zelândia[124], cruzaram os dados de tendências da gripe do Google com os dados existentes dos sistemas nacionais de saúde e descobriram que estavam alinhados. Os gráficos mostraram uma correlação com as pesquisas por sintomas relacionados à gripe e a extensão da pandemia no país. Os países com sistemas de previsão subdesenvolvidos podem beneficiar de previsões públicas e fiáveis para fornecer à sua população medidas de segurança adequadas.

Entre 1853 e 1854, uma epidemia de cólera em Londres matou milhares de pessoas. O médico John Snow estudou os registros de óbitos e descobriu que a maioria dos casos ocorreu em um bairro específico: as pessoas haviam bebido água do mesmo poço. Quando o fecharam, o número de casos começou a diminuir.[123].

Em 2012, na Google Science Fair, Brittany Wenger, uma estudante de 18 anos, apresentou um projeto de software para ajudar no diagnóstico precoce do câncer de mama. Ele chamou a plataforma de Cloud4cancer"), que utiliza uma rede de inteligência artificial e bancos de dados hospitalares para diferenciar uma amostra de tecido benigno de uma amostra de tumor maligno. O sistema inteligente projetado por Wenger distingue os dois tipos de tumores em segundos, inserindo as características observadas na plataforma. É possível que esse sistema seja posteriormente aplicado a outras condições, como a leucemia.[123].

Defesa e segurança

Para aumentar a segurança contra ataques das próprias organizações, sejam elas empresas no ambiente económico ou os próprios ministérios da defesa no ambiente de ataques cibernéticos, a utilidade das tecnologias de big data é contemplada em cenários como a vigilância e segurança de fronteiras, a luta contra o terrorismo e o crime organizado, contra a fraude, planos de segurança dos cidadãos ou planeamento táctico de missões e inteligência militar.[125].

Caso específico do projeto Aloja

O projeto Aloja[126] foi iniciado por um compromisso conjunto do Barcelona Supercomputing Center (BSC) e da Microsoft Research. O objetivo deste projeto de big data é "alcançar a otimização automática nas implantações do Hadoop em diferentes infraestruturas".

Caso específico de sustentabilidade

A Conservação Internacional é uma organização com o propósito de conscientizar a sociedade sobre o cuidado com o meio ambiente de forma responsável e sustentável. Com a ajuda da plataforma Vertica Analytics da HP, foram instaladas 1.000 câmeras em dezesseis florestas em quatro continentes. Essas câmeras incorporam sensores e, como câmera oculta, registram o comportamento da fauna. Com estas imagens e dados dos sensores (precipitação, temperatura, humidade, solar...) obtêm-se informações sobre como as alterações climáticas ou o desgaste do solo afetam o seu comportamento e desenvolvimento.[127].

Avaliações

Las críticas al paradigma de los macrodatos vienen en dos formas, aquellas que cuestionan las implicaciones del enfoque en sí mismo, y las que cuestionan la forma en que se realiza actualmente.[128] Un enfoque de esta crítica es el campo de los estudios de datos críticos.

Críticas ao paradigma do big data

"Um problema crucial é que não sabemos muito sobre os microprocessos empíricos subjacentes que levam ao surgimento das características de rede típicas de big data."[129] Em sua crítica, Snijders, Matzat e Reips apontam que muitas vezes são feitas suposições muito fortes sobre propriedades matemáticas que podem não refletir de forma alguma o que realmente está acontecendo no nível dos microprocessos. Mark Graham criticou amplamente a afirmação de Chris Anderson de que o big data marcará o fim da teoria:[130] focando em particular na noção de que o big data deve sempre ser contextualizado nos seus contextos sociais, económicos e políticos.[131] Mesmo quando as empresas investem somas de oito e nove dígitos para obter insights do fluxo de informações de fornecedores e clientes, menos de 40% dos funcionários têm processos e competências suficientemente maduros para o fazer. Para superar esse déficit de insights, o big data, não importa quão abrangente ou bem analisado, é complementado por “grande julgamento”, de acordo com um artigo da Harvard Business Review.[132].

Na mesma linha, observou-se que as decisões baseadas na análise de big data inevitavelmente “são informadas pelo mundo como era no passado ou, na melhor das hipóteses, como é atualmente”. Alimentados por uma grande quantidade de dados sobre experiências passadas, os algoritmos podem prever o desenvolvimento futuro se o futuro for semelhante ao passado. Se a dinâmica do sistema do futuro mudar (se não for um processo estacionário), o passado pode dizer pouco sobre o futuro. Fazer previsões em ambientes em mudança exigiria uma compreensão profunda da dinâmica do sistema, o que requer teoria. Em resposta a esta crítica, Alemany Oliver e Vayre sugeriram usar "o raciocínio abdutivo como um primeiro passo no processo de pesquisa para contextualizar as pegadas digitais dos consumidores e fazer surgir novas teorias." [134] Além disso, foi sugerido combinar abordagens de big data com simulações de computador, como modelos baseados em agentes e sistemas complexos. Os modelos baseados em agentes estão se tornando melhores na previsão do resultado das complexidades sociais até mesmo de cenários futuros desconhecidos por meio de simulações de computador que dependem de uma coleção de algoritmos mutuamente interdependentes.[135][136] Finalmente, o uso de métodos multivariados que exploram a estrutura latente dos dados, como análise fatorial e análise de cluster, têm se mostrado úteis como abordagens analíticas que vão além das abordagens bivariadas (tabs cruzadas). normalmente empregado com conjuntos de dados menores.

Na saúde e na biologia, as abordagens científicas convencionais baseiam-se na experimentação. Para essas abordagens, o fator limitante é a informação relevante que pode confirmar ou refutar a hipótese inicial.[137] Um novo postulado é agora aceito nas ciências biológicas: a informação fornecida por dados de grande volume (ômicas) sem hipóteses prévias é complementar e às vezes necessária para abordagens convencionais baseadas na experimentação.[138] Em abordagens massivas, a formulação de uma hipótese relevante para explicar os dados é o fator limitante.[139] A lógica de busca é invertida e invertida. eles devem considerar os limites da indução ("Glória da Ciência e o Escândalo da Filosofia", C. D. Broad, 1926).

Os defensores da privacidade estão preocupados com a ameaça à privacidade representada pelo aumento do armazenamento e integração de informações de identificação pessoal; painéis de especialistas publicaram diversas recomendações políticas para alinhar a prática com as expectativas de privacidade.[140][141][142] O uso indevido de big data em vários casos pela mídia, empresas e até mesmo pelo governo permitiu a abolição da confiança em quase todas as instituições fundamentais que sustentam a sociedade.[143].

Nayef Al-Rodhan argumenta que será necessário um novo tipo de contrato social para proteger as liberdades individuais num contexto de big data e de corporações gigantes que detêm grandes quantidades de informação. O uso de big data deve ser melhor monitorado e regulamentado em nível nacional e internacional.[144] Barocas e Nissenbaum argumentam que uma forma de proteger usuários individuais é fornecer informações sobre os tipos de informações que são coletadas, com quem são compartilhadas, sob quais limitações e para quais fins.[145].

O perigo do big data também pode ser visto no impacto que tem no sistema educativo. Os alunos podem ser afetados negativamente pelo medo de serem supervisionados, o que afeta o seu bem-estar e causa estresse relacionado ao seu desempenho. Portanto, a privacidade é essencial para garantir que os alunos estejam protegidos.[146].

Críticas ao modelo 'V'

O modelo “V” de big data é atraente porque se concentra na escalabilidade computacional e não perde a perceptibilidade e a compreensibilidade da informação. Isso levou ao big data cognitivo, que caracteriza a aplicação de big data de acordo com:[147].

• - Completar os dados: compreender os aspectos não óbvios dos dados;

• - Correlação de dados, causalidade e previsibilidade: causalidade como requisito não essencial para alcançar a previsibilidade;

• - Explicação e interpretação: o ser humano quer compreender e aceitar o que entende, onde os algoritmos não resolvem;

• - Nível de tomada de decisão automatizada: algoritmos que suportam a tomada de decisão automatizada e a autoaprendizagem algorítmica;.

Críticas à novidade

Grandes conjuntos de dados têm sido analisados por máquinas de computação há mais de um século, incluindo análises do censo dos EUA realizado em 1890 por máquinas de cartões perfurados da IBM que computavam estatísticas incluindo médias e variações de populações em todo o continente. Nas décadas mais recentes, experimentos científicos como o CERN produziram dados em escalas semelhantes aos atuais “big data” comerciais. No entanto, as experiências científicas tendem a analisar os seus dados utilizando clusters e grelhas especializadas de computação de alto desempenho (supercomputação), em vez de nuvens de computadores básicos baratos, como na actual vaga comercial, o que implica uma diferença de cultura e tecnologia.

Críticas à execução de Big Data

Ulf-Dietrich Reips") e Uwe Matzat") escreveram em 2014 que o big data havia se tornado uma "moda passageira" na pesquisa científica. A pesquisadora Danah Boyd expressou preocupação com o uso de big data na ciência, negligenciando princípios como a escolha de uma amostra representativa por estar muito preocupada em lidar com grandes quantidades de dados.[148] Essa abordagem pode distorcer os resultados de uma forma ou de outra. A integração entre recursos de dados heterogêneos - alguns que podem ser considerados big data e outros não - apresenta desafios logísticos e analíticos formidáveis, mas muitos pesquisadores argumentam que tais integrações provavelmente representam as novas fronteiras mais promissoras na ciência. Os usuários de big data muitas vezes “se perdem no grande volume de números” e “trabalhar com big data permanece subjetivo, e o que ele quantifica não tem necessariamente uma reivindicação mais próxima da verdade objetiva”. Desenvolvimentos recentes no domínio do BI, como relatórios proativos, apontam especialmente para melhorias na usabilidade de big data, através da filtragem automatizada de dados não úteis e correlações.[151].

A análise de big data costuma ser superficial em comparação com a análise de conjuntos de dados menores. [194] Em muitos projetos de big data, não há análise de big data, mas o desafio é extrair, transformar e carregar parte do pré-processamento de dados.[152].

Big data é uma palavra da moda e um "termo vago",[153][139] mas ao mesmo tempo uma "obsessão" de empresários, consultores, cientistas e da mídia. Amostras de big data, como o Google Flu Trends, não geraram boas previsões nos últimos anos, exagerando os surtos de gripe por um fator de dois. Da mesma forma, os prémios da Academia e as previsões eleitorais baseadas exclusivamente no Twitter estavam mais frequentemente erradas. O big data apresenta frequentemente os mesmos desafios que o small data; Adicionar mais dados não resolve problemas de preconceito, mas pode enfatizar outros problemas. Em particular, fontes de dados como o Twitter não são representativas da população em geral e os resultados extraídos dessas fontes podem levar a conclusões erradas. O Google Translate, que se baseia na análise estatística de grandes dados de texto, faz um bom trabalho na tradução de páginas da web. No entanto, os resultados de domínios especializados podem ser dramaticamente tendenciosos. Por outro lado, o big data também pode introduzir novos problemas, como o problema das comparações múltiplas): o teste simultâneo de um grande conjunto de hipóteses provavelmente produzirá muitos resultados falsos que erroneamente parecem significativos. Ioannidis argumentou que "a maioria dos resultados de pesquisas publicados são falsos"[154] devido essencialmente ao mesmo efeito: quando muitas equipes científicas e pesquisadores realizam experimentos (ou seja, processam uma grande quantidade de dados científicos, embora não com big data), a probabilidade de um resultado "significativo" ser falso cresce rapidamente, ainda mais quando resultados positivos são publicados. Além disso, os resultados da análise de big data são tão bons quanto o modelo em que se baseiam. Num exemplo, o big data participou na tentativa de prever os resultados das eleições presidenciais dos EUA em 2016[155] com vários graus de sucesso. A Forbes previu: “Se você acredita na análise de big data, é hora de começar a planejar a presidência de Hillary Clinton e tudo o que isso implica”.

Criminalística algorítmica

Os algoritmos analisam grandes quantidades de dados para prever o comportamento criminoso. No entanto, esta prática levanta sérias questões éticas sobre a privacidade e potenciais preconceitos nas decisões baseadas em dados, sublinhando a necessidade de um debate informado e de políticas regulamentares que protejam os direitos individuais na era dos grandes dados.[157].

Definição

Também foi definido como dados massivos o suficiente para destacar questões e preocupações em torno da eficácia do anonimato de uma perspectiva mais prática do que teórica.[22].

• - Aprendizado de máquina: Big data muitas vezes não pergunta por que e simplesmente detecta padrões.[28].

• - Pegada digital: Big data é muitas vezes um subproduto gratuito da interação digital.

A crescente maturidade do conceito descreve de forma clara e clara a diferença entre big data (dados em larga escala) e business intelligence:.

• - Business intelligence utiliza estatísticas descritivas com dados com alta densidade de informação para medir coisas, detectar tendências, etc.

Arquitetura

A análise de big data para aplicações de manufatura é comercializada como uma arquitetura 5C (conexão, conversão, cibernética, cognição e configuração).[42].

Tecnologia

Contenido

Un informe de 2011 del McKinsey Global Institute") caracteriza los componentes principales y el ecosistema de macrodatos de la siguiente manera:[47].

• - Técnicas para analizar datos, como pruebas A / B, aprendizaje automático y procesamiento del lenguaje natural.

• - Grandes tecnologías de datos, como inteligencia de negocios, computación en la nube y bases de datos.

• - Visualización, como tablas, gráficos y otras visualizaciones de los datos.

Hay ventajas y desventajas para el almacenamiento compartido en el análisis de macrodatos, pero los practicantes de análisis de macrodatos a partir de 2011 no lo favorecieron.

Capturar

Transformação

Armazenamento NoSQL

Distinguimos quatro grandes grupos de bancos de dados NoSQL:

Análise de dados

Visualização de dados

Aplicativos

Los macrodatos han sido utilizados por la industria de los medios, las empresas y los gobiernos para dirigirse con mayor precisión a su público y aumentar la eficiencia de sus mensajes.

Governo

Desenvolvimento internacional

Indústria

Mídia

• - Orientação ao consumidor (para publicidade ao vendedor)[91].

• - Mineração de dados.

• - Jornalismo de dados: Editores e jornalistas utilizam ferramentas de big data para fornecer informações e infográficos únicos e inovadores.

Música

Seguro

Esportes

Financiar

Marketing e vendas

Investigação

Los grandes conjuntos de datos vienen con desafíos algorítmicos que anteriormente no existían. Por lo tanto, existe una necesidad de cambiar fundamentalmente las formas de procesamiento.

Amostragem de Big Data

Algum trabalho foi feito em algoritmos de amostragem para big data. Uma formulação teórica foi desenvolvida para amostragem de dados do Twitter.[121].

Saúde e medicina

Defesa e segurança

Caso específico do projeto Aloja

Caso específico de sustentabilidade

Avaliações

Críticas ao paradigma do big data

Críticas ao modelo 'V'

• - Completar os dados: compreender os aspectos não óbvios dos dados;

• - Correlação de dados, causalidade e previsibilidade: causalidade como requisito não essencial para alcançar a previsibilidade;

• - Explicação e interpretação: o ser humano quer compreender e aceitar o que entende, onde os algoritmos não resolvem;

• - Nível de tomada de decisão automatizada: algoritmos que suportam a tomada de decisão automatizada e a autoaprendizagem algorítmica;.

Navegación

Modelos preditivos urbanos

Introdução

Em geral

Modelos preditivos urbanos

Introdução

Em geral

Definição

Características

Arquitetura

Tecnologia

Contenido

Capturar

Transformação

Armazenamento NoSQL

Análise de dados

Visualização de dados

Aplicativos

Governo

Desenvolvimento internacional

Indústria

Mídia

Música

Seguro

Esportes

Financiar

Marketing e vendas

Investigação

Amostragem de Big Data

Saúde e medicina

Defesa e segurança

Caso específico do projeto Aloja

Caso específico de sustentabilidade

Avaliações

Críticas ao paradigma do big data

Críticas ao modelo 'V'

Críticas à novidade

Críticas à execução de Big Data

Criminalística algorítmica

Virtualização de big data

Referências

Definição

Características

Arquitetura

Tecnologia

Contenido

Capturar

Transformação

Armazenamento NoSQL

Análise de dados

Visualização de dados

Aplicativos

Governo

Desenvolvimento internacional

Indústria

Mídia

Música

Seguro

Esportes

Financiar

Marketing e vendas

Investigação

Amostragem de Big Data

Saúde e medicina

Defesa e segurança

Caso específico do projeto Aloja

Caso específico de sustentabilidade

Avaliações

Críticas ao paradigma do big data

Críticas ao modelo 'V'

Críticas à novidade

Críticas à execução de Big Data

Criminalística algorítmica

Virtualização de big data

Referências