¿Qué hacen los científicos de datos?

Posted by in Big Data

Los cientificos de datos son aquellos profesionales que dominan las ciencias matemáticas y la estadística, además de tener elevados conocimientos sobre programación, ciencias de la computación y analísica. También puedes leer más aquí.

Cómo puedes leer, todos los requisitos son bastante extensos y requiren de grandes conocimientos.

A cambio, se podran realizar:

  • Definir la cuestion o cuestiones a resolver
  • Determinar los datos necesarios
  • Determinar los datos disponibles (una cosa es lo que necesito, y otra lo que tengo!), de forma que con dichos datos pueda resolver la cuestión planteada
  • Los datos reales que dispongo, y que pueden proceder de hojas de cálculo, bases de datos, de la web, …
  • Limpieza de dichos datos, puesto que no todos los datos que tenemos son los que necesitamos
  • Explicación del análisis de datos, y que incluye también la representación de resultados
  • Modelado y predicción, de forma que se pueda predecir futuros comportamientos con datos del presente, basados en los modelos y patrones encontrados
  • Interpretación de resultados, que requiere incluso la representación de los mismos
  • Desafíos de los resultados, porque la resolución de una cuestión supondrá la llegada de nuevas cuestiones relacionadas y que harán que el proceso vuelva a comenzar
  • Sintetizar y documentar sobre los resultados, porque si importante es cómo llegar a la resolución de un problema, es incluso más importante exponer los resultados obtenidos según el público al que va dirigido.
  • Distribuir los resultados tanto con la comunidad científica como a otros interesados, de forma que el código generado durante la investigación pueda ser reproducido por otros científicos, …

Queda claro que se pueden hacer muchas cosas, pero también que las dificultades hasta completar la resolución del problema son elevadas.

Datos

Lo que queda claro en todo esto es de la importancia de los datos, que pueden venir brutos (raw) o ya depurados / procesados. Normalmente, los datos brutos requieren de una preparación para su utilización, que supone seleccionar sólo aquellos que nos interesa y desechar aquellos que no aportan nada. La naturaleza del problema a resolver dictaminará sobre la utilidad o no de los datos. A veces, es necesario contruir datos nuevos a partir de los brutos, y serán los procesados los requeridos para la labor de investigación.

Todo esto proceso es más o menos comlicado dependiendo del tipo de dato, de la cantidad de dato, de las operaciones que haya que realizar con los datos brutos para conseguir los datos procesados, etc, etc, … y por supuesto, eliminar aquellos que puedan suponer incoherencias (por ejemplo, un dato de tipo carácter en lugar de un numérico, o la eliminación de datos nulos, ….). La casuística es variada, no hay patrón fijo.

Además, los datos pueden venir estructurados, o no estructurados. Lo más cómodo es la primera opción, pero lo normal es lo segundo. Gracias a las herramientas para trabajar con #BigData, se han acelerado la conversión de información desectructurada a estructurada, además de incrementar el volúmen de datos a procesar, algo dificil de imaginar hace unos cuantos años.

Este es el …. largo … camino a seguir!