Análisis de Big Data en Proyectos
Introducción
La Ciencia de Datos es un campo de conocimiento interdisciplinario que utiliza matemáticas, estadística, computación científica, método científico, procesos ingenieriles y algoritmos para obtener (recolectar o extraer), tratar, analizar y presentar informes a partir de datos ruidosos, estructurados y no estructurados.[1] La ciencia de datos es multifacética y puede describirse como una ciencia, un paradigma de investigación, un método de investigación, una disciplina, un flujo de trabajo o una profesión.[2].
La ciencia de datos integra el conocimiento del dominio de la aplicación subyacente (por ejemplo, economía aplicada, investigación de mercados, finanzas, investigación de operaciones, medicina, tecnologías de la información, ciencias naturales)[3] con la estadística, el análisis de datos, la informática, las matemáticas y sus métodos relacionados para comprender y analizar fenómenos "reales" con datos.[4] Utiliza técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas, las estadísticas, las ciencias de la computación, las ciencias de la información "Ciencias de la información (tecnología)") y el conocimiento del dominio.[5] Sin embargo, la ciencia de datos es diferente de la informática, la estadística y la ciencia de la información. El ganador del premio Turing, Jim Gray, imaginó la ciencia de datos como un "cuarto paradigma" de la ciencia (empírico, teórico, computacional y ahora basado en datos) y afirmó que "todo sobre la ciencia está cambiando debido al impacto de la tecnología de la información" y la avalancha de datos.[6][7].
Un científico de datos es el profesional que mediante la escritura y aplicación de código de programación y conocimientos en estadística trabaja en la recolección de datos, la limpieza de datos, la exploración de datos, la modelación de datos, visualización de datos, la implementación de soluciones de aprendizaje automático y en la interpretación de resultados.[8] Los científicos de datos provienen de diferentes profesiones o backgrounds: matemáticos, ingenieros, economistas, actuarios, físicos, químicos, y en algunas ocasiones de campos que pudieran parecer muy distantes como la medicina.
Historia
En 1962, John W. Tukey precedió al término “Ciencia de Datos” en su artículo “The Future of Data Analysis” al explicar una evolución de la estadística matemática. En este, definió por primera vez el análisis de datos como: “Procedimientos para analizar datos, técnicas para interpretar los resultados de dichos procedimientos, formas de planificar la recopilación de datos para hacer su análisis más fácil, más preciso o acertado, y toda la maquinaria y los resultados de las estadísticas matemáticas que se aplican al análisis de datos.”[9] En 1977 publicó , argumentando que era necesario poner más énfasis en el uso de datos para sugerir hipótesis que probar en modelos estadísticos.