Revisión del curso Mining Massive Datasets

mining massive datasets
Etiquetas:

Este curso ha sido el primero de los que he realizado tras la vuelta de vacaciones, sobre minería de datos y tratamientos de los mismos. El ambiente del curso es genial, sobre todo porque estoy en un grupo de WhatsApp con gente de todo el mundo donde se hacen preguntas y respuestas muy interesantes, accesos a cursos, papers, blogs, sugerencias, ayudas entre compañeros, ….

mining massive datasets

Empezando con Mining Massive Datasets

La primera semana es bastante interesante, con dos temas muy interesantes: sistemas de ficheros distribuidos, y cómo calcular el PageRank, que es el algoritmo de Google para catalogar y ordenar la web. Personalmente, la primera parte de los videos me parece muy interesante, sobre todo si vas a trabajar con grandes volúmenes de datos. La segunda parte es bastante teórica y describe perfectamente la complejidad que lleva algo tan “aparentemente” sencillo, y donde el álgebra y las redes son fundamentales.

Para resolver las cuestiones no necesitas ningún lenguaje de programación específico, si bien puedes usar incluso Excel para resolverlos. Mucha gente que está apuntada al curso está usando R y Python con Pandas y Numpy.

Por otro lado, si te interesa el curso, aquí tienes el manual del mismo para que te lo descargues.

Segunda semana del curso, y abandono

La verdad es que al ver el contenido de la segunda semana, me dí cuenta perfectamente de que la material de este curso no es de iniciación, sino bastante avanzado, pues en realidad se trata de aplicar algoritmos que NO son sencillos de comprender, ni de representar si no tienes actualizada tu base matemática, fundamentalmente álgebra. Así que, dado que no iba a necesitar aplicar ninguno de los algoritmos en mis proyectos actuales, decidí abandonar el curso.

A nivel general, el curso me parece que es bastante interesante si tienes que trabajar con #BigData, y tienes a tu disposición miles y miles de datos, pero ojo, luego la resolución de ejercicios no requiere de muchos datos, pues es más teórico que práctico (aunque necesitas de la práctica para resolver los ejercicios propuestos!).

Lo bueno es que el curso está centrado en explicar cómo implementar algoritmos para ejecución de distintas tareas, y que si trabajar en esos campos, el material es espectacular.

He visto algunos videos de las siguientes semanas, donde la complejidad de los algoritmos subía y subía, anunciado incluso por los propios participantes del curso, que comentaban que sus horas dedicadas al curso han sido bastantes más de las previstas. Siento no haber continuado el curso, pero repito, que ya sólo hacer los ejercicios de la primera semana me resultaron de bastante complejidad, y por supuesto, muy concretos (porque el PageRank solo lo usas si trabajas con temas de Google, ya sea SEM, SEO, …)

Supongo que si alguna vez cambio de trabajo y necesito aplicar algoritmos, al menos, soy consciente de que existen cursos muy buenos.

Mientras tanto, voy a esperar otros cursos más acordes a lo que estoy trabajando, y por supuesto, refrescar álgebra!!!

Buen día y happy coding!

PD: Una nueva edición del curso comienza a finales de enero de 2016!