Ciência de Dados é um campo de conhecimento interdisciplinar que utiliza matemática, estatística, computação científica, método científico, processos de engenharia e algoritmos para obter (coletar ou extrair), processar, analisar e apresentar relatórios de dados ruidosos, estruturados e não estruturados.[1] A ciência de dados é multifacetada e pode ser descrita como uma ciência, um paradigma de pesquisa, um método de pesquisa, uma disciplina, um fluxo de trabalho ou uma profissão.[2].
A ciência de dados integra o conhecimento do domínio de aplicação subjacente (por exemplo, economia aplicada, pesquisa de marketing, finanças, pesquisa operacional, medicina, tecnologia da informação, ciências naturais)[3] com estatística, análise de dados, ciência da computação, matemática e seus métodos relacionados para compreender e analisar fenômenos "reais" com dados. estatísticas e ciência da informação. Jim Gray, vencedor do Prêmio Turing, imaginou a ciência de dados como um "quarto paradigma" da ciência (empírica, teórica, computacional e agora orientada por dados) e afirmou que "tudo na ciência está mudando devido ao impacto da tecnologia da informação" e ao dilúvio de dados.
Um cientista de dados é um profissional que, por meio da escrita e aplicação de código de programação e conhecimento em estatística, trabalha na coleta de dados, limpeza de dados, exploração de dados, modelagem de dados, visualização de dados, implementação de soluções de aprendizado de máquina e interpretação de resultados. Os cientistas de dados vêm de diferentes profissões ou formações: matemáticos, engenheiros, economistas, atuários, físicos, químicos e, às vezes, de campos que podem parecer muito distantes, como a medicina.
História
Em 1962, John W. Tukey precedeu o termo “Ciência de Dados” em seu artigo “O Futuro da Análise de Dados” ao explicar uma evolução da estatística matemática. Nisto, ele primeiro definiu a análise de dados como: “Procedimentos de análise de dados, técnicas de interpretação dos resultados desses procedimentos, formas de planejar a coleta de dados para tornar sua análise mais fácil, mais precisa ou exata, e todos os maquinários e resultados da estatística matemática que são aplicados à análise de dados.
A ciência de dados tem sido considerada por muitos uma disciplina criada recentemente, mas na realidade este conceito foi utilizado pela primeira vez pelo cientista dinamarquês Peter Naur na década de 1960 como substituto da ciência da computação. Em 1974 publicou o livro
Análise de Big Data em Projetos
Introdução
Em geral
Ciência de Dados é um campo de conhecimento interdisciplinar que utiliza matemática, estatística, computação científica, método científico, processos de engenharia e algoritmos para obter (coletar ou extrair), processar, analisar e apresentar relatórios de dados ruidosos, estruturados e não estruturados.[1] A ciência de dados é multifacetada e pode ser descrita como uma ciência, um paradigma de pesquisa, um método de pesquisa, uma disciplina, um fluxo de trabalho ou uma profissão.[2].
A ciência de dados integra o conhecimento do domínio de aplicação subjacente (por exemplo, economia aplicada, pesquisa de marketing, finanças, pesquisa operacional, medicina, tecnologia da informação, ciências naturais)[3] com estatística, análise de dados, ciência da computação, matemática e seus métodos relacionados para compreender e analisar fenômenos "reais" com dados. estatísticas e ciência da informação. Jim Gray, vencedor do Prêmio Turing, imaginou a ciência de dados como um "quarto paradigma" da ciência (empírica, teórica, computacional e agora orientada por dados) e afirmou que "tudo na ciência está mudando devido ao impacto da tecnologia da informação" e ao dilúvio de dados.
Um cientista de dados é um profissional que, por meio da escrita e aplicação de código de programação e conhecimento em estatística, trabalha na coleta de dados, limpeza de dados, exploração de dados, modelagem de dados, visualização de dados, implementação de soluções de aprendizado de máquina e interpretação de resultados. Os cientistas de dados vêm de diferentes profissões ou formações: matemáticos, engenheiros, economistas, atuários, físicos, químicos e, às vezes, de campos que podem parecer muito distantes, como a medicina.
História
Em 1962, John W. Tukey precedeu o termo “Ciência de Dados” em seu artigo “O Futuro da Análise de Dados” ao explicar uma evolução da estatística matemática. Nisto, ele primeiro definiu a análise de dados como: “Procedimentos de análise de dados, técnicas de interpretação dos resultados desses procedimentos, formas de planejar a coleta de dados para tornar sua análise mais fácil, mais precisa ou exata, e todos os maquinários e resultados da estatística matemática que são aplicados à análise de dados.
Concise Survey of Computer Methods
[10]
onde o conceito de ciência de dados é amplamente utilizado, o que permitiu uma utilização mais livre no mundo acadêmico.
Em 1977, a Associação Internacional para Computação Estatística (IASC) é estabelecida como uma seção do Instituto Internacional de Estatística (ISI). “É missão do IASC relacionar a metodologia estatística tradicional, a moderna tecnologia informática e o conhecimento especializado do assunto, para converter dados em informação e conhecimento.”[11].
Em 1996, o termo 'Ciência de Dados' foi usado pela primeira vez em uma conferência chamada "Ciência de Dados, Classificação e Métodos Relacionados", que ocorreu em uma reunião de membros da Federação Internacional de Sociedades de Classificação (IFCS) com sede em Kobe, Japão.[11] Em 1997, C. F. Jeff Wu") deu uma palestra chamada "Estatística = Ciência de Dados?", onde descreveu o trabalho estatístico como uma trilogia composta de coleta de dados, análise e modelagem de dados e tomada de decisão, pedindo que as estatísticas fossem renomeadas como ciência de dados, e os estatísticos como cientistas de dados.[12].
Em 2001, William S. Cleveland introduziu a ciência de dados como uma disciplina independente, ampliando o campo da estatística para incluir avanços na computação com dados em seu artigo "Ciência de dados: um plano de ação para expandir as áreas técnicas do campo da estatística". Cleveland estabeleceu seis áreas técnicas que ele acreditava que constituiriam o campo da ciência de dados: investigações multidisciplinares, modelos e métodos para dados, computação com dados, pedagogia, avaliação de ferramentas e teoria.[13]
Em abril de 2002, o 'Conselho Internacional para a Ciência: Comitê de Dados para Ciência e Tecnologia' (CODATA) começou a publicar o Data Science Journal"),[14] focado em problemas como a descrição de sistemas de dados, sua publicação na Internet, suas aplicações e seus problemas jurídicos. Pouco depois, em janeiro de 2003, a Universidade de Columbia começou a publicar o The Journal of Data Science"),[15] que ofereceu uma plataforma para todos os profissionais de dados apresentarem suas perspectivas e trocarem ideias.
[16]
Foi em 2008 que Jeff Hammerbacher e DJ Patil o reutilizaram para definir seus próprios trabalhos realizados no Facebook e LinkedIn, respectivamente,[17].
Em 2009, os pesquisadores Yangyong Zhu e Yun Xiong do 'Centro de Pesquisa em Dataologia e Ciência de Dados', publicaram “Introdução à Dataologia e Ciência de Dados”, onde afirmam que “ao contrário das ciências naturais e das ciências sociais, a Datalogia e a Ciência de Dados tomam dados da Internet e seu objeto de estudo.”[11].
Em 2013, o 'IEEE Task Force on Data Science and Advanced Analytics' foi lançado,[18] enquanto a primeira conferência internacional 'IEEE International Conference on Data Science and Advanced Analytics' foi lançada em 2014.[19] Em 2015, o International Journal on Data Science and Analytics foi lançado pela Springer para publicar trabalhos originais em ciência de dados e análise de big data.[20].
Aplicativos
Marketing
Em setembro de 1994, a BusinessWeek publicou o artigo “Database Marketing”, afirmando que as empresas coletam uma grande quantidade de informações sobre os clientes, que são analisadas para prever a probabilidade de compra de um produto. Eles afirmam que esse conhecimento é usado para elaborar uma mensagem de marketing precisamente calibrada para o indivíduo buscar. Explicam também que, na década de 1980, o entusiasmo provocado pela difusão dos leitores de códigos de barras terminou numa desilusão generalizada, pois muitas empresas ficaram sobrecarregadas com a grande quantidade de dados para poderem fazer algo útil com a informação dos seus clientes. No entanto, muitas empresas acreditam que não há outra escolha senão desafiar a fronteira do marketing e dos bancos de dados para desenvolver ainda mais as tecnologias necessárias.[21].
Em 2014, a empresa sueca de streaming de música Spotify comprou a The Echo Nest, uma empresa especializada em ciência de dados musicais. Este agora se encarrega de armazenar e analisar as informações de seus 170 milhões de usuários.[22] Com a ajuda da referida empresa, em 2015 o Spotify lançou um serviço de música personalizado chamado Discover Weekly que recomenda semanalmente aos seus usuários uma seleção de músicas que possam interessá-los através de algoritmos e análise dos dados da música ouvida e do histórico de pesquisa da semana anterior. O serviço teve uma boa recepção geral[23] e atualmente aparece como um forte argumento de venda em comparação com a concorrência da empresa.[24].
A Netflix, empresa norte-americana de conteúdo multimídia de streaming, oferece aos seus mais de 120 milhões de usuários uma plataforma capaz de analisar, por meio de algoritmos, os hábitos de consumo dos usuários para diferenciar o conteúdo que procuram e determinar quais novos conteúdos podem interessá-los. Todd Yellin"), vice-presidente de produtos da Netflix, explicou que alguns dos dados armazenados podem se estender desde a hora do dia em que seus usuários se conectam, quanto tempo passam na plataforma, sua lista de conteúdos visualizados recentemente (até mesmo analisar a ordem específica destes). Toda a informação que é armazenada é usada especificamente para ser analisada, aprender com o usuário e poder dar-lhe recomendações precisas.[25].
Governança
Na América Latina, o Banco Interamericano de Desenvolvimento (BID) desenvolveu estudos exploratórios nos quais a ciência de dados é analisada na implementação e desenho de políticas públicas na região, tomando casos em países como Argentina e Brasil, apresentando recomendações para sua implementação e manutenção.
Estes abrangem temas como mobilidade urbana sustentável, cidades inteligentes, segurança, propriedade de dados e privacidade. Entre as sugestões apresentadas na pesquisa está a de alcançar “inteligência de valor público, que “tem potencial para ser um componente estratégico para a tomada de decisões e para o desenho, implementação e avaliação de políticas públicas”. Outra delas é a capacidade de alcançar a partir deste campo uma melhoria na responsabilização dos governos perante os cidadãos e promover progressos em termos de curadoria de dados nas instituições públicas.
Ciência de dados e Big data
Textualmente, Big Data (ou big data) refere-se a enormes volumes de dados que não podem ser processados de forma eficaz com as aplicações tradicionais que são aplicadas atualmente.[27] De acordo com o guia Amazon Web Service, Big Data é considerado uma coleção considerável de dados que tem dificuldades de serem armazenados em bancos de dados tradicionais, e também de serem processados em servidores padrão e de serem analisados com aplicações comuns.
O termo geralmente está relacionado à ciência de dados, pois essa costuma ser sua fonte de informações para análise; A ciência de dados analisa grandes conjuntos de dados confusos e incompletos para chegar a descobertas que orientam decisões sobre operações e produtos.
Cientista de Dados
Contenido
Las personas que se dedican a la ciencia de datos se les conoce como científico de datos, de acuerdo con el proyecto Master in Data Science define al científico de datos como una mezcla de estadísticos, informáticos, matemáticos y pensadores creativos, con las siguientes habilidades:.
El proceso que sigue un científico de datos para responder cuestiones que se le plantean se puede resumir en estos pasos:.
El doctor en estadística Nathan Yau, precisó lo siguiente: el científico de datos es un estadístico que debería aprender interfaces de programación de aplicaciones (API), bases de datos y extracción de datos; es un diseñador que deberá aprender a programar; y es un computólogo que deberá saber analizar y encontrar datos con significado.[29].
En la tesis doctoral de Benjamin Fry explicó que el proceso para comprender mejor a los datos comenzaba con una serie de números y el objetivo de responder preguntas sobre los datos, en cada fase del proceso que él propone (adquirir, analizar, filtrar, extraer, representar, refinar e interactuar), se requiere de diferentes enfoques especializados que aporten a una mejor comprensión de los datos. Entre los enfoques que menciona Fry están: ingenieros en sistemas, matemáticos, estadísticos, diseñadores gráficos, especialistas en visualización de la información y especialistas en interacciones hombre-máquina, mejor conocidos por sus siglas en inglés “HCI” (Human-Computer Interaction). Además, Fry afirmó que contar con diferentes enfoques especializados lejos de resolver el problema de entendimiento de datos, se convierte en parte del problema, ya que cada especialización conduce de manera aislada el problema y el camino hacia la solución se puede perder algo en cada transición del proceso.[30].
Drew Conway en su página web explica con la ayuda de un diagrama de Venn, las principales habilidades que le dan vida y forma a la ciencia de datos, así como sus relaciones de conjuntos.
A importância de um cientista de dados
A ciência de dados tornou-se recentemente muito importante em nossa vida como uma disciplina ou profissão emergente (cientista de dados), e tornou-se o foco de atenção de cada vez mais organizações em todo o mundo, como destacou o economista-chefe do Google, Hal Varian, "O trabalho mais sexy nos próximos 10 anos será ser estatístico", palavras sobre as quais Thomas H. Davenport refletiu") ao publicar seu artigo em 2012: Cientista de dados: o trabalho mais sexy do século 21
[31]
onde descreve o perfil que o cientista de dados deve ter como o híbrido de um hacker de dados, um analista, um comunicador e um consultor de confiança, uma combinação extremamente poderosa e rara. Davenport ressalta ainda que o cientista de dados não se sente confortável, como se diz coloquialmente, “com rédea curta”, ou seja, deve ter liberdade para experimentar e explorar possibilidades. Além disso, Davenport no mesmo artigo apresenta um decálogo sobre como encontrar o cientista de dados que a organização precisa (ver página 74 do artigo).
O relatório publicado pela “McKinsey” em 2011[32] estimou que, para o mundo de big data em que vivemos, espera-se que a procura de talentos especializados em análise de dados possa atingir 440.000 a 490.000 empregos até 2018.
Entre os desafios tecnológicos que enfrentamos destacamos:
[3] ↑ Danyluk, A.; Leidig, P. (2021), «Computing Competencies for Undergraduate Data Science Curricula», ACM Data Science Task Force Final Report .: https://dstf.acm.org/DSTF_Final_Report.pdf
[4] ↑ Hayashi, Chikio (1 de enero de 1998). «What is Data Science? Fundamental Concepts and a Heuristic Example». En Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa, eds. Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization (en inglés). Springer Japan. pp. 40-51. ISBN 9784431702085. doi:10.1007/978-4-431-65950-1_3.: https://www.springer.com/book/9784431702085
[9] ↑ Tukey, John W. (1962-03). «The Future of Data Analysis». The Annals of Mathematical Statistics (en inglés) 33 (1): 1-67. ISSN 0003-4851. doi:10.1214/aoms/1177704711. Consultado el 1 de octubre de 2018.: https://projecteuclid.org/euclid.aoms/1177704711
[10] ↑ Peter Naur (1974). Encyclopedia of Computer Science. Petrocelli Books. 91-44-07881-1.
[13] ↑ Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics. (en inglés). International Statistical Review / Revue Internationale de Statistique. p. 21–26.
[14] ↑ «Data Science Journal». Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols. abril de 2012.: http://www.jstage.jst.go.jp/browse/dsj/_vols
[16] ↑ National Science Board (2005). «US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century». www.nsf.gov (en inglés). National Science Foundation. Consultado el 3 de febrero de 2017.: http://www.nsf.gov/pubs/2005/nsb0540/
[26] ↑ «El uso de datos masivos y sus técnicas analíticas para el diseño e implementación de políticas públicas en Latinoamérica y el Caribe (2017)». Banco Interamericano de Desarrollo. Consultado el 29 de noviembre de 2018.: https://publications.iadb.org/handle/11319/8485
[30] ↑ Fry, Benjamin (abril de 2014). «Thesis proposal: Computational Information Design» (en inglés). Consultado el 24 de septiembre de 2015.: http://benfry.com/phd/dissertation-110323c.pdf
[31] ↑ Peter Drucker (2012). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review.
A ciência de dados tem sido considerada por muitos uma disciplina criada recentemente, mas na realidade este conceito foi utilizado pela primeira vez pelo cientista dinamarquês Peter Naur na década de 1960 como substituto da ciência da computação. Em 1974 publicou o livro Concise Survey of Computer Methods
[10]
onde o conceito de ciência de dados é amplamente utilizado, o que permitiu uma utilização mais livre no mundo acadêmico.
Em 1977, a Associação Internacional para Computação Estatística (IASC) é estabelecida como uma seção do Instituto Internacional de Estatística (ISI). “É missão do IASC relacionar a metodologia estatística tradicional, a moderna tecnologia informática e o conhecimento especializado do assunto, para converter dados em informação e conhecimento.”[11].
Em 1996, o termo 'Ciência de Dados' foi usado pela primeira vez em uma conferência chamada "Ciência de Dados, Classificação e Métodos Relacionados", que ocorreu em uma reunião de membros da Federação Internacional de Sociedades de Classificação (IFCS) com sede em Kobe, Japão.[11] Em 1997, C. F. Jeff Wu") deu uma palestra chamada "Estatística = Ciência de Dados?", onde descreveu o trabalho estatístico como uma trilogia composta de coleta de dados, análise e modelagem de dados e tomada de decisão, pedindo que as estatísticas fossem renomeadas como ciência de dados, e os estatísticos como cientistas de dados.[12].
Em 2001, William S. Cleveland introduziu a ciência de dados como uma disciplina independente, ampliando o campo da estatística para incluir avanços na computação com dados em seu artigo "Ciência de dados: um plano de ação para expandir as áreas técnicas do campo da estatística". Cleveland estabeleceu seis áreas técnicas que ele acreditava que constituiriam o campo da ciência de dados: investigações multidisciplinares, modelos e métodos para dados, computação com dados, pedagogia, avaliação de ferramentas e teoria.[13]
Em abril de 2002, o 'Conselho Internacional para a Ciência: Comitê de Dados para Ciência e Tecnologia' (CODATA) começou a publicar o Data Science Journal"),[14] focado em problemas como a descrição de sistemas de dados, sua publicação na Internet, suas aplicações e seus problemas jurídicos. Pouco depois, em janeiro de 2003, a Universidade de Columbia começou a publicar o The Journal of Data Science"),[15] que ofereceu uma plataforma para todos os profissionais de dados apresentarem suas perspectivas e trocarem ideias.
[16]
Foi em 2008 que Jeff Hammerbacher e DJ Patil o reutilizaram para definir seus próprios trabalhos realizados no Facebook e LinkedIn, respectivamente,[17].
Em 2009, os pesquisadores Yangyong Zhu e Yun Xiong do 'Centro de Pesquisa em Dataologia e Ciência de Dados', publicaram “Introdução à Dataologia e Ciência de Dados”, onde afirmam que “ao contrário das ciências naturais e das ciências sociais, a Datalogia e a Ciência de Dados tomam dados da Internet e seu objeto de estudo.”[11].
Em 2013, o 'IEEE Task Force on Data Science and Advanced Analytics' foi lançado,[18] enquanto a primeira conferência internacional 'IEEE International Conference on Data Science and Advanced Analytics' foi lançada em 2014.[19] Em 2015, o International Journal on Data Science and Analytics foi lançado pela Springer para publicar trabalhos originais em ciência de dados e análise de big data.[20].
Aplicativos
Marketing
Em setembro de 1994, a BusinessWeek publicou o artigo “Database Marketing”, afirmando que as empresas coletam uma grande quantidade de informações sobre os clientes, que são analisadas para prever a probabilidade de compra de um produto. Eles afirmam que esse conhecimento é usado para elaborar uma mensagem de marketing precisamente calibrada para o indivíduo buscar. Explicam também que, na década de 1980, o entusiasmo provocado pela difusão dos leitores de códigos de barras terminou numa desilusão generalizada, pois muitas empresas ficaram sobrecarregadas com a grande quantidade de dados para poderem fazer algo útil com a informação dos seus clientes. No entanto, muitas empresas acreditam que não há outra escolha senão desafiar a fronteira do marketing e dos bancos de dados para desenvolver ainda mais as tecnologias necessárias.[21].
Em 2014, a empresa sueca de streaming de música Spotify comprou a The Echo Nest, uma empresa especializada em ciência de dados musicais. Este agora se encarrega de armazenar e analisar as informações de seus 170 milhões de usuários.[22] Com a ajuda da referida empresa, em 2015 o Spotify lançou um serviço de música personalizado chamado Discover Weekly que recomenda semanalmente aos seus usuários uma seleção de músicas que possam interessá-los através de algoritmos e análise dos dados da música ouvida e do histórico de pesquisa da semana anterior. O serviço teve uma boa recepção geral[23] e atualmente aparece como um forte argumento de venda em comparação com a concorrência da empresa.[24].
A Netflix, empresa norte-americana de conteúdo multimídia de streaming, oferece aos seus mais de 120 milhões de usuários uma plataforma capaz de analisar, por meio de algoritmos, os hábitos de consumo dos usuários para diferenciar o conteúdo que procuram e determinar quais novos conteúdos podem interessá-los. Todd Yellin"), vice-presidente de produtos da Netflix, explicou que alguns dos dados armazenados podem se estender desde a hora do dia em que seus usuários se conectam, quanto tempo passam na plataforma, sua lista de conteúdos visualizados recentemente (até mesmo analisar a ordem específica destes). Toda a informação que é armazenada é usada especificamente para ser analisada, aprender com o usuário e poder dar-lhe recomendações precisas.[25].
Governança
Na América Latina, o Banco Interamericano de Desenvolvimento (BID) desenvolveu estudos exploratórios nos quais a ciência de dados é analisada na implementação e desenho de políticas públicas na região, tomando casos em países como Argentina e Brasil, apresentando recomendações para sua implementação e manutenção.
Estes abrangem temas como mobilidade urbana sustentável, cidades inteligentes, segurança, propriedade de dados e privacidade. Entre as sugestões apresentadas na pesquisa está a de alcançar “inteligência de valor público, que “tem potencial para ser um componente estratégico para a tomada de decisões e para o desenho, implementação e avaliação de políticas públicas”. Outra delas é a capacidade de alcançar a partir deste campo uma melhoria na responsabilização dos governos perante os cidadãos e promover progressos em termos de curadoria de dados nas instituições públicas.
Ciência de dados e Big data
Textualmente, Big Data (ou big data) refere-se a enormes volumes de dados que não podem ser processados de forma eficaz com as aplicações tradicionais que são aplicadas atualmente.[27] De acordo com o guia Amazon Web Service, Big Data é considerado uma coleção considerável de dados que tem dificuldades de serem armazenados em bancos de dados tradicionais, e também de serem processados em servidores padrão e de serem analisados com aplicações comuns.
O termo geralmente está relacionado à ciência de dados, pois essa costuma ser sua fonte de informações para análise; A ciência de dados analisa grandes conjuntos de dados confusos e incompletos para chegar a descobertas que orientam decisões sobre operações e produtos.
Cientista de Dados
Contenido
Las personas que se dedican a la ciencia de datos se les conoce como científico de datos, de acuerdo con el proyecto Master in Data Science define al científico de datos como una mezcla de estadísticos, informáticos, matemáticos y pensadores creativos, con las siguientes habilidades:.
El proceso que sigue un científico de datos para responder cuestiones que se le plantean se puede resumir en estos pasos:.
El doctor en estadística Nathan Yau, precisó lo siguiente: el científico de datos es un estadístico que debería aprender interfaces de programación de aplicaciones (API), bases de datos y extracción de datos; es un diseñador que deberá aprender a programar; y es un computólogo que deberá saber analizar y encontrar datos con significado.[29].
En la tesis doctoral de Benjamin Fry explicó que el proceso para comprender mejor a los datos comenzaba con una serie de números y el objetivo de responder preguntas sobre los datos, en cada fase del proceso que él propone (adquirir, analizar, filtrar, extraer, representar, refinar e interactuar), se requiere de diferentes enfoques especializados que aporten a una mejor comprensión de los datos. Entre los enfoques que menciona Fry están: ingenieros en sistemas, matemáticos, estadísticos, diseñadores gráficos, especialistas en visualización de la información y especialistas en interacciones hombre-máquina, mejor conocidos por sus siglas en inglés “HCI” (Human-Computer Interaction). Además, Fry afirmó que contar con diferentes enfoques especializados lejos de resolver el problema de entendimiento de datos, se convierte en parte del problema, ya que cada especialización conduce de manera aislada el problema y el camino hacia la solución se puede perder algo en cada transición del proceso.[30].
Drew Conway en su página web explica con la ayuda de un diagrama de Venn, las principales habilidades que le dan vida y forma a la ciencia de datos, así como sus relaciones de conjuntos.
A importância de um cientista de dados
A ciência de dados tornou-se recentemente muito importante em nossa vida como uma disciplina ou profissão emergente (cientista de dados), e tornou-se o foco de atenção de cada vez mais organizações em todo o mundo, como destacou o economista-chefe do Google, Hal Varian, "O trabalho mais sexy nos próximos 10 anos será ser estatístico", palavras sobre as quais Thomas H. Davenport refletiu") ao publicar seu artigo em 2012: Cientista de dados: o trabalho mais sexy do século 21
[31]
onde descreve o perfil que o cientista de dados deve ter como o híbrido de um hacker de dados, um analista, um comunicador e um consultor de confiança, uma combinação extremamente poderosa e rara. Davenport ressalta ainda que o cientista de dados não se sente confortável, como se diz coloquialmente, “com rédea curta”, ou seja, deve ter liberdade para experimentar e explorar possibilidades. Além disso, Davenport no mesmo artigo apresenta um decálogo sobre como encontrar o cientista de dados que a organização precisa (ver página 74 do artigo).
O relatório publicado pela “McKinsey” em 2011[32] estimou que, para o mundo de big data em que vivemos, espera-se que a procura de talentos especializados em análise de dados possa atingir 440.000 a 490.000 empregos até 2018.
Entre os desafios tecnológicos que enfrentamos destacamos:
[3] ↑ Danyluk, A.; Leidig, P. (2021), «Computing Competencies for Undergraduate Data Science Curricula», ACM Data Science Task Force Final Report .: https://dstf.acm.org/DSTF_Final_Report.pdf
[4] ↑ Hayashi, Chikio (1 de enero de 1998). «What is Data Science? Fundamental Concepts and a Heuristic Example». En Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa, eds. Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization (en inglés). Springer Japan. pp. 40-51. ISBN 9784431702085. doi:10.1007/978-4-431-65950-1_3.: https://www.springer.com/book/9784431702085
[9] ↑ Tukey, John W. (1962-03). «The Future of Data Analysis». The Annals of Mathematical Statistics (en inglés) 33 (1): 1-67. ISSN 0003-4851. doi:10.1214/aoms/1177704711. Consultado el 1 de octubre de 2018.: https://projecteuclid.org/euclid.aoms/1177704711
[10] ↑ Peter Naur (1974). Encyclopedia of Computer Science. Petrocelli Books. 91-44-07881-1.
[13] ↑ Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics. (en inglés). International Statistical Review / Revue Internationale de Statistique. p. 21–26.
[14] ↑ «Data Science Journal». Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols. abril de 2012.: http://www.jstage.jst.go.jp/browse/dsj/_vols
[16] ↑ National Science Board (2005). «US NSF - NSB-05-40, Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century». www.nsf.gov (en inglés). National Science Foundation. Consultado el 3 de febrero de 2017.: http://www.nsf.gov/pubs/2005/nsb0540/
[26] ↑ «El uso de datos masivos y sus técnicas analíticas para el diseño e implementación de políticas públicas en Latinoamérica y el Caribe (2017)». Banco Interamericano de Desarrollo. Consultado el 29 de noviembre de 2018.: https://publications.iadb.org/handle/11319/8485
[30] ↑ Fry, Benjamin (abril de 2014). «Thesis proposal: Computational Information Design» (en inglés). Consultado el 24 de septiembre de 2015.: http://benfry.com/phd/dissertation-110323c.pdf
[31] ↑ Peter Drucker (2012). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review.