Algo de historia

Uno de los primeros artículos científicos acerca de la ciencia de datos fue escrito por John W. Tukey en la Universidad de Princeton y los laboratorios Bell, presentado a revisión de pares en 1961. Se titulaba The future of data analysis (Tukey: 1962). Tukey estaba en un momento en el que ya se habían creado los primeros ordenadores, algunos más pequeños que un simple edificio, pero los retos de cálculo y las nuevas oleadas de datos marcarían una reforma (una que dio luz al BigData espacial entre otros). Uno de sus principales aportes fue hablar de la necesidad de herramientas y actitudes positivas ante el procesamiento de grandes volúmenes de información. También habló de declarar la adopción del análisis de datos como una ciencia experimental y cerrar la posibilidad de verlo como un sistema lógico deductivo, cosa que hoy nos parecería obvia pero que en su momento era una revolución, pues no existían los computadores personales, por tanto, no existían los laboratorios para análisis de datos. La última frase de su artículo es intensa:

Who is for the challenge?

Luego en 1974, el libro Concise Survey of Computer Methods del galardonado con el Turing-award (el llamado premio Nobel en ciencias de la computación) Peter Naur, menciona por primera vez el concepto de “data science” , abriendo el camino de investigación para todos los hoy llamados científicos de datos. A lo largo de los años se fueron acumulando libros, artículos y reportes técnicos con cada vez más novedosas formas de tratar los datos, que han ido separándose de la estadística y dándole campo a teóricos de la computación. En este mar de bibliografía se destacan algunas definiciones que crean paradigma en este tema:

Ciencia de datos es el vínculo entre las metodologías tradicionales de estadística, tecnología de computo moderna y el conocimiento de expertos específico para convertir datos en información y conocimiento.

Esta definición es importante también por quién la crea. Viene en gran medida de la declaración de misión de la Asociación Internacional de Computación Estadística (Saunders: 2013).

El científico de datos

El concepto Data Scientists ha venido evolucionando no solo en la investigación académica. Tiene fuertes orígenes empresariales pues desde el siglo pasado existe el cargo de analista de datos. Un analista de datos o de inteligencia de negocios, realiza tareas como consultas complejas a bases de datos, series de agrupaciones y/o agregaciones y su foco es estadística descriptiva básica junto con su representación gráfica. Los científicos de datos en teoría pueden realizar estas mismas actividades y además realizar procesos de predicción y clasificación mediante Data Mining y Machine learning. A éstas habilidades algunos autores suman la capacidad de trabajar con grandes volúmenes de datos y usar conocimiento contextual para realizar análisis experto (Saunders: 2013).

Éstos grandes volúmenes y sus fuentes de datos son el corazón del concepto BigData: datos estructurados o no-estructurados cuyo tamaño puede ser dinámico y que son susceptibles de ser analizados, almacenados por diferentes técnicas y en diferentes velocidades. Cuando nos referimos a velocidades hablamos no solo de capacidad de computo sino de las redes de entrega de contenido conocidas como CDN (Content Delivery Network). Ejemplos nos sobran, pero la literatura se centra principalmente en problemas cuantitativos.

Una de las mejores investigaciones acerca de definiciones de científico de datos fue realizada por investigadores de la universidad de Wollongong en Australia (Chatfield:2014) quienes hacen un recorrido por las bases de datos de literatura científica y muestran el crecimiento anual de la investigación relacionada y reúnen un listado interesante de definiciones entre académicas y de la industria. Todas convergen en un personaje que da respuestas a preguntas de negocio o investigación con una suma de habilidades estadísticas, computacionales y de dominio específico.

Uno de los detalles más interesantes del artículo de la universidad de Wollongong es que enumera en la octava posición la estadística, debajo de muchas otras habilidades que debe tener un científico de datos. En las dos primeras posiciones acerca de las principales habilidades está el conocimiento del negocio seguido de ciencias de la computación. Hay que aclarar que los investigadores, aunque hacen un esfuerzo enorme de recolección de trabajos anteriores, son de la “Faculty of Engineering and Information Sciences”. ¿Qué opinarán los estadísticos?

Un artículo imperdible que queremos recomendar en la definición de científicos de datos es “The Sexiest Job of the 21st Century (Harvard Business Review Magazine: 2021), será una lectura de unos 5min!

¿Qué estudia un científico de datos?

En nuestra opinión, cualquier científico puede ser en la práctica un científico de datos. Pero sólo algunos perfiles específicos se centran en las técnicas y tecnologías de predicción o clasificación. Suelen ocuparse de estos temas (sin limitarse a) estadísticos, bibliotecólogos, ingenieros de sistemas, ingenieros industriales o afines. Opinamos que cualquier científico puede convertirse en un Data Scientists porque en la mayoría de las áreas de investigación se deben realizar tratamientos de datos y generación de conocimiento a partir de éstos.

En muchos casos, expertos en su área se ocupan de procesamiento de datos sobre los que solamente ellos tienen dominio, por ejemplo, abogados, sociólogos, geólogos, etc. En investigación, la mejor combinación suele ser la de expertos en el dominio de los datos y estadísticos, matemáticos o ingenieros realizando el procesamiento computacional. Es un mito que un científico de datos deba ser un estadístico o ingeniero de sistemas exclusivamente, aunque es verdad que pueden llegar mucho más rápido a soluciones específicas en clasificación, análisis, predicción y almacenamiento.

Hay otros retos gigantes como científico de datos: la obtención de información. ¡La oferta de datasets es gigantesca! y cada vez más lugares ofrecen sus datasets en forma de API REST, por lo que hay que tener algunos conceptos importantes en tratamientos de datos y tecnologías específicas para poder ser efectivos en un mundo BigData. JSON, API REST, SQL, Storage, Cloud Computing y otros conceptos hacen parte de la lista.

Además, la oferta de cursos virtuales ha crecido de manera brutal en ciencia de datos en los principales motores de MOOC's (impulsados principalmente por plataformas cloud).

Referencias:

  1. John W. Tukey, “The Future of Data Analysis“, The Annals of Mathematical Statistics, Vol. 33, No. 1. 1962, pp . 1-67 Published by : Institute of Mathematical Statistics, Stable URL: [http://www.jstor.org/stable/2237638] ↩︎

  2. Peter Naur., “Concise Survey of Computer Methods“, 397 p. Studentlitteratur, Lund, Sweden, ISBN 91-44-07881-1, 1974. ↩︎

  3. T. Saunders, “Data science and data scientists: What’s in a name,” Inf. Manag., vol. 11, pp. 1–3, 2013. ↩︎ ↩︎

  4. A. T. Chatfield, V. N. Shlemoon, W. Redublado, and F. Rahman, “Data scientists as game changers in big data environments,” 2014. [http://ro.uow.edu.au/eispapers/5646] ↩︎

  5. Data Scientist: “The Sexiest Job of the 21st Century“, Harvard Business Review Magazine: [http://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/1] ↩︎

Ilustración de fondo: Photo by mahdis mousavi from Unsplash / Unsplash license