Volver a todos los artículos

10 de agosto de 2021

Introducción a Pandas: cómo manipular datos en Python

Ironhack - Changing The Future of Tech Education

Data Analytics

Todos los cursos

La organización de datos es esencial cuando se trata del análisis de datos, y este proceso se denomina manipulación de datos. Es un paso fundamental en el análisis de datos. Pandas es la mejor biblioteca de Python para: 

  • representar información usando un gráfico

  • combinar múltiples conjuntos de datos

  • crear una tabla dinámica

  • cambiar un archivo de Excel a un archivo CSV

La biblioteca Pandas se escribió específicamente para los lenguajes de programación Python y, además de crear gráficos, permite organizar datos y realizar otras funciones. Estos incluyen la combinación de conjuntos de datos, la lectura de registros, la agrupación de datos y la organización de la información de la manera que mejor respalde el análisis requerido. Es una biblioteca sencilla, accesible y versátil que es adecuada tanto para desarrolladores nuevos como experimentados.

Biblioteca Pandas

"Pandas" son las siglas de Python Data Analysis Library. Hay muchas formas de trabajar con datos en Python. Para manipular tus datos, hay que seguir algunos pasos simples de codificación y seleccionar la sintaxis relevante en el código general. Para empezar, sin embargo, es necesario instalar Pandas para poder aprovecharlo. Está disponible en todos los sistemas, Windows, Mac OS y Linux, pero hay que tener en cuenta que podemos necesitar otras bibliotecas adicionales según las tareas que a realizar. Para trazar, por ejemplo, se requerirá Matplotlib.

Representar datos usando pandas

Si queremos representar información numérica en un gráfico de líneas, gráfico de barras, gráfico circular o diagrama de dispersión, por ejemplo, simplemente debemos seguir estos pasos utilizando el código de la biblioteca Python Pandas:

  • Preparar los datos: esto se puede hacer metiendolos en una tabla simple o en una hoja de Excel

  • Crear un DataFrame ejecutando un código en Python

  • Trazar el DataFrame usando la sintaxis relevante: en este paso podemos especificar el tipo de gráfico usando el código kind = 'xxx' (por ejemplo, kind = "line" crearía un gráfico de líneas). La sintaxis de Matplotlib será necesaria en este paso

  • Ejecutar el código y observar cómo los datos cobran vida en un cuadro o gráfico

Pandas, datos y Matplotlib

Los códigos completos de Python se pueden encontrar on line y en la biblioteca Matolib, pero para cambiar el tipo de gráfico que estamos creando, debemos usar el código "tipo" relevante. Kind = "bar" crearía un gráfico de barras, mientras que kind = "scatter" crearía un diagrama de dispersión.

Fusionar datos con Python

Otro tipo de manipulación de datos que podemos realizar con Pandas es la combinación de conjuntos de datos. Supongamos que tenemos 2 conjuntos de datos que queremos combinar. Podemos seguir estos pasos para unirlos o fusionarlos:

  • Preparar los datos: si tenemos dos conjuntos de datos, entonces tendemos dos tablas separadas para comenzar

  • Crear dos DataFrames usando el código Python

  • Fusionar los Pandas DataFrames usando un código de unión

  • Ejecutar el código para ver los resultados

Crea dos DataFrames utilizando el código Python

Hay varios códigos para combinar datos en Pandas DataFrames, dependiendo de dónde está cogiendo la información y cómo queramos combinarla. Por ejemplo, podemos usar la función de combinación - merge () - para combinar datos en una columna común, mientras que el código .join () nos permitirá combinar datos en una columna específica.

Crear una tabla dinámica

Otra forma muy popular de manipulación de datos es la creación de una tabla dinámica. Las tablas dinámicas se pueden generar con Microsoft Excel u hojas de cálculo, aunque también es posible crearlas fácilmente con Python. Las tablas dinámicas se utilizan para reorganizar, ordenar o resumir datos y nos permiten crear una descripción general de la información de la forma que queramos.

Dependiendo de para qué necesitemos usar una tabla dinámica, podemos seleccionar el código Pandas más apropiado para el trabajo a realizar. Es posible que tengamos que manipular datos para determinar la cantidad total de correos electrónicos enviados a una empresa por un equipo en el transcurso de un mes, por ejemplo, o encontrar la mediana de ventas para el primer trimestre en una ubicación determinada. Empieza de nuevo, preparando los datos en una tabla simple y capturándolos en Python ejecutando un código DataFrame. Dependiendo de nuestro objetivo, podemos usar la sintaxis de Python relevante en el código para producir la tabla dinámica.

Tabla dinámica para graficar

Para ir un paso más allá con Pandas, los datos y los resultados de una tabla dinámica se pueden representar en un gráfico o tabla, como se describe anteriormente. Para esto, solo necesitaríamos agregar algunos componentes adicionales al código de la tabla dinámica.

Calcular estadísticas a partir de un archivo CSV

El análisis estático es otra área en la que se utilizan regularmente Pandas, manipulación de datos y Python. Si creamos un archivo con Python, es posible usar la biblioteca de Pandas para calcular estadísticas; esto puede ser para encontrar el salario medio en toda una empresa, por ejemplo, o para medir la desviación estándar de los salarios entre diferentes equipos. Primero, debemos copiar el conjunto de datos en un archivo CSV e importarlo a Python usando una plantilla de código. A continuación, hay que ejecutar un código para calcular las estadísticas. Una vez que ejecutado el código relevante, generará un resumen de los resultados deseados.

Curso de análisis de datos

Estas son solo algunas de las opciones cuando se trata de manipular datos con Python. La biblioteca de Pandas nos brinda una gran cantidad de control y flexibilidad sobre los datos y nos permite representarlos de manera muy específica. Una vez que comprendamos los conceptos básicos de la manipulación de datos con Python, es fácil aprovechar ese conocimiento y usar la biblioteca para muchas tareas analíticas y representativas diferentes. Comienza con Python y los fundamentos del análisis de datos con el Bootcamp de Análisis de Datos.

Si deseas adquirir habilidades en Pandas, Data Analytics y Python, junto con Git y SQL, un curso online es buen punto de inicio. Pandas, datos y el lenguaje de codificación Python van de la mano, y cualquiera que trabaje en desarrollo web, datos o análisis estadístico estará super preparado con este conjunto de conocimientos. Saber de datos también es muy útil para carreras en ventas, desarrollo empresarial y marketing digital; nos permite trabajar de manera flexible con números y también refuerza las capacidades de generación de informes.

Artículos Relacionados

¿Listo para unirse?

Más de 10.000 personas que han cambiado de profesión y emprendedores han iniciado su carrera en la industria tecnológica con los bootcamps de Ironhack. Comienza tu nuevo viaje profesional y únete a la revolución tecnológica.