Los mejores cheatsheets para data science

Al trabajar en cualquier área de desarrollo es muy cómodo tener cerca las funciones más útiles de la librería con la que estés trabajando. Aquí tienes un recopilatorio de los cheatsheets de las diferentes librerías que se utilizan en Data Science, para que las tengas a mano.

Los diferentes cheatsheets están agrupados por área de trabajo a las que pertenece la librería: Basics, Databases, Data Manipulation, Data Visualization, Analysis, Machine Learning, Deep Learning y NLP.

Basics

Para comenzar con Data Science necesitamos conocer al menos 2 librerías básicas para el trabajo con datos: Python y NumPy. Son dos librerías que se utilizan durante todo el proceso. La tercera librería, Scipy, es una herramienta matemática para cálculos más complejos que NumPy. 

Python basics

Nivel: Beginner - Intermediate
Área: Basic
Descripción: Python es la librería base sobre la que se desarrolla la metodología de Data Science. La forma de enfocar y estructurar el proyecto viene heredada de la forma de trabajar con Python.
Cheatsheet: https://storage.googleapis.com/molten/lava/2018/09/a4c3337b-python-cheat-sheet-basics-dataquest.jpg
Fuente: DataQuest

NumPy basics

Nivel: Beginner - Intermediate
Área: Basic
Descripción: NumPy es la librería matemática de Python por excelencia (su nombre deriva de Numerical Python). Permite un trabajo más eficiente con vectores y matrices.
Cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf
Fuente: DataCamp

SciPy

Nivel: Advanced
Área: Basics
Descripción: SciPy es una librería desarrollada sobre NumPy y está enfocada en cálculos numéricos más complejos, más relacionados con computación científica. 
Cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_SciPy_Cheat_Sheet_Linear_Algebra.pdf
Fuente: DataCamp

Database

Los datos pueden estar almacenados en sets o en ocasiones, en bases de datos relacionales o no relacionales, que se importan al espacio en el que se desarrolla el trabajo.


SQL

Nivel: Beginner - Intermediate
Área: bases de datos relacionales
Descripción: las bases de datos relacionales conforman una estructura de tablas que están separadas para almacenar de forma más eficiente los datos y que se relacionan a través de claves. SQL es el mejor lenguaje para realizar todas las consultas a estas tablas, por su versatilidad.
Cheatsheet: https://www.sqltutorial.org/sql-cheat-sheet/
Fuente: sqltutorial

MongoDB

Nivel: Beginner - Intermediate
Área: bases de datos no relacionales
Descripción: el uso de bases de datos no relacionales es cada vez mayor, sobre todo con el incremento de compañías y aplicaciones de Big Data ya que permite superar las barreras de la estructura de datos que suponen las bases de datos relacionales. MongoDB es líder en bases de datos distribuidas.
Cheatsheet: https://blog.codecentric.de/files/2012/12/MongoDB-CheatSheet-v1_0.pdf
Fuente: codecentric

Data Manipulation

Antes de comenzar el análisis de datos, es necesario organizar la información que contiene el set de forma que sea más fácil realizar las operaciones necesarias en la línea del análisis. A este proceso se le conoce como Data Manipulation.

Pandas

Nivel: Beginner - Intermediate
Área: Data Manipulation
Descripción: pandas es la librería por excelencia para el tratamiento de datos en formato DataFrame, es decir, permite conocer los registros, operar con los datos, agregarlos y organizarlos de forma que nos faciliten el análisis. Este cheat sheet te muestra los pasos esenciales con la librería.
Cheatsheet: http://datacamp-community-prod.s3.amazonaws.com/dbed353d-2757-4617-8206-8767ab379ab3
Fuente: DataCamp

Data Wrangling

Nivel: Beginner - Intermediate
Área: Data Manipulation
Descripción: previo al análisis es necesario limpiar el DataFrame y organizar los datos ya que en algunas ocasiones encontramos registros duplicados, nulos o no válidos. A todo el procedimiento para limpiar el DataFrame de forma que sea usable para nuestro análisis, se le conoce como Data Cleaning o Data Wrangling.
Cheatsheet: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
Fuente: pandas

Data Visualization

La visualización de datos es la representación gráfica de los datos y  especialmente importante para realizar un análisis o para mostrar los resultados del mismo, ayudando a entender las tendencias, outliers y patrones de los datos. 

Matplotlib

Nivel: Begginer 
Área: Data Visualization
Descripción: matplotlib es la primera librería que se desarrolló para visualización y exploración con Python. Tiene un amplio abanico de posibilidades para dibujar gráficos y personalizarlos, desde lo más fácil hasta lo más complejo.
Cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf
Fuente: DataCamp

Seaborn

Nivel: Intermediate
Área: Data Visualization
Descripción: Seaborn es una librería de un nivel más avanzado que matplotlib y que se desarrolló para facilitar el análisis estadístico de datos directamente sobre gráficos.
Cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Seaborn_Cheat_Sheet.pdf
Fuente: DataCamp

Folium

Nivel: Intermediate
Área: Data Visualization
Descripción: Dentro de la visualización, los mapas son un tipo de representación muy útil para reflejar posiciones geoespaciales y distancias. Folium es una librería que permite reflejar en un mapa los datos de un dataset de forma fácil, creando una representación como mapbox u OpenStreetMap y añadiendo sobre ella las capas de datos a visualizar como markers o heatmap.
Cheatsheet: https://andrewchallis.co.uk/wp-content/uploads/2017/12/Folium.pdf
Fuente: AndrewChallis

Machine Learning

Los algoritmos de Machine Learning permiten realizar predicciones en base a los datos de los que se disponen. Dependiendo del tipo de dato, el algoritmo es de regresión o de clasificación. Los procedimientos pueden ser supervisados o sin supervisar, en función de si el entrenamiento del modelo de aprendizaje se hace con datos etiquetados, o sin ellos, lo que se conoce “ground truth”. 

Scikit-Learn

Nivel: Advanced
Área: Machine Learning
Descripción: Scikit-Learn es una librería desarrollada sobre Scipy, diseñada para el modelado de datos: clusterización, feature manipulation, detección de outliers, selección de modelos y validación de los mismos. Destaca por su robustez y por la sencillez para integrarla con otras librerías de Python.  
Cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Scikit_Learn_Cheat_Sheet_Python.pdf
Fuente: DataCamp

Deep Learning

Dentro de Machine Learning hay un área específica conocido como Deep Learning en el que se hace uso de redes neuronales artificiales para la predicción

Keras

Nivel: Advanced
Área: Deep Leaning
Descripción: Keras es una librería para Python, que se ejecuta sobre CNTK, TensorFlow y Theano, que permite la generación y evaluación de modelos de redes neuronales.
Fuente: DataCamp
Cheatsheet: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf

Tensorflow

Nivel: Advanced
Área: Deep Learning
Descripción: Es una librería de deep learning de segunda generación  desarrollada por Google. Permite crear modelos haciendo uso de una API con un nivel de abstracción inferior o superior, definiendo operaciones matemáticas o redes neuronales, según se prefiera.
Fuente: Altoros
Cheatsheet: https://cdn-images-1.medium.com/max/2000/1*dtOZSuYDonyyBvEULpJALw.png

PyTorch

Nivel: Advanced
Área: Deep Learning
Descripción: PyTorch es la librería de deep learning desarrollada por Facebook. Es una de las más recientes y dispone de una interfaz para el trabajo con tensores, siendo más asequible que TensorFlow o Keras.
Fuente: PyTorch
Cheatsheet: https://pytorch.org/tutorials/beginner/ptcheat.html

Natural Language Processing

Dentro de Data Science, el análisis del lenguaje cobra cada vez más importancia y se han desarrollado algoritmos de análisis que permiten el análisis de texto.

NLTK

Nivel: Beginner - Intermediate
Área: NLP
Descripción: NLTK es una de las primeras librerías que se desarrollaron para análisis de lenguaje natural y permite operaciones como tokenización, stemming (análisis de lexema), contador de caracteres o palabras, para comprender el texto que se analiza.
Fuente: Cheatography
Cheatsheet: https://cheatography.com/murenei/cheat-sheets/natural-language-processing-with-python-and-nltk/

spaCy

Nivel: Advanced
Área: NLP
Descripción: spaCy es una librería de procesamiento de lenguaje que permite el análisis de textos a diferentes niveles: NER (name entity recognition), parser (análisis sintáctico) o similarity, desde un modelo entrenado en un idioma. Además, también permite crear modelos desde cero y entrenarlos con tus propios ejemplos para detectar las entidades que definas.
Fuente: DataCamp
Cheatsheet: http://datacamp-community-prod.s3.amazonaws.com/29aa28bf-570a-4965-8f54-d6a541ae4e06

En estas cheat sheets tienes recogidas las funciones y métodos más útiles de cada librería, para facilitarte el día a día desarrollando. Happy Coding!

Únete a Ironhack¿Listo para unirte?

¡Sigue los pasos de miles de personas que decidieron reorientar su carrera o emprender y comenzaron su trayectoria profesional con los bootcamps de Ironhack!

Ver detalles del cursoExplora nuestros campus

Artículos de blog sobre Data analytics

Ver más artículos en nuestro blog
¿Quieres recibir todo esto directamente en tu correo? ¡Suscríbete ahora!
Por favor, escribe tu nombre
Por favor escribe tu apellido
El correo electrónico no es válido. Por favor, inténtalo de nuevo