Curso Programando con Python para ciencia de datos

Posted by in Python

En la anterior entrada os comenté de dos cursos para programar Python haciendo uso de datos, y os comenté el primer curso de introducción, tanto a Python como a la ciencia de datos con las 3 librerías fundamentales de Python para ello. Tanto los conocimientos de Python cómo los de ciencia de datos, son a nivel de principiante y básicos (aunque no por ello deba de no saberse, al contrario), son la base para el segundo de los cursos de Python y ciencia de datos.

Programando con Python para ciencia de datos

El curso de Python y ciencia de datos require la puesta en marcha del entorno para el curso, donde te animan a que instales Anaconda (ya hecho!) por lo que ya se comentó aquí: tienes muchos paquetes pre instalados y te ahorra mucho tiempo. El repositorio del curso lo tienes en GitHub.

Aunque en este blog hemos hablado de varios IDEs para programar en Python como PyScripter o PyCharm, para el curso recomiendan Spyder, que es un IDE que viene además en Anaconda.

El módulo primero es teórico, y describe qué es data science, qué es machine learning, y varios conceptos más relacionados cómo regresiones, clustering, map-reduce, reinforcement learning, …., pero todo muy teórico. Se trata de poner al alumno en situación de lo que le espera en el resto del curso.

El segundo módulo aun es bastante teórico, y está centrado en el conocimiento de los tipos de datos, que son: continuos, o discretos (y los discretos pueden ser ordenados o desordenados). El profe anima a usar el sentido común a la hora re resolver los problemas, y que por supuesto, la forma de conseguir patrones es más viable cuantos más datos existan. Es importante no excluir características que puedan parecer poco significativas, porque lo mismo la combinación de varios factores poco significativos puede generar resultados muy interesantes. NumPy y Pandas hacen ya presencia en este módulo, y se explica lo que son las Series y los DataFrame, dos objetos básicos de pandas. Además, en una de las partes se hace especial incapié en los índices de Pandas, tan importantes para la optimización de los procesos a ejecutar, minimizando esfuerzos y tiempo.

spyder-ide

spyder-ide

Tómate tu tiempo en realizar el módulo 2, porque el éxito de este curso reside en conocer Pandas, cómo trabaja, cómo son los índices, cuál es su sintáxis, …. y realmente es muy importante conocer distintos metodos, que van desde averiguar si en los datos hay huecos (datos no disponibles), y cómo proceder con ellos, cómo transformar categorías a índices, cómo trabajar con valores de texto, cónocer los valores únicos de una columna, …. Materia suficiente para pasar unas cuantas horas entretenido.

Happy coding

 

Google+ Comments - Comentarios Google+