Post

Resumen del curso Kaggle-Pandas

Se resume el contenido del mini curso de Pandas de los cursos abiertos de Kaggle.

Resumen del curso Kaggle-Pandas

Pandas

Resuelve breves desafíos prácticos para perfeccionar tus habilidades de manipulación de datos.

Lección 1. Crear, Leer y Escribir

Importar pandas

1
import pandas as pd

Pandas tiene dos objetos centrales: DataFrame y Series.

DataFrame

Un DataFrame es una tabla. Contiene una matriz de entradas individuales, cada una con un valor específico y correspondiente a una fila y columna. Las entradas de un DataFrame no tienen que ser necesariamente números enteros.

1
pd.DataFrame({'Bob': ['Me gustó.', 'Fue horrible.'], 'Sue': ['Bastante bueno.', 'Insípido.']})

Los DataFrames se declaran en formato de diccionario de Python. Las claves son los nombres de las columnas y los valores son listas con los elementos a incluir.

Normalmente, al declarar un DataFrame, se asignan etiquetas a las columnas, pero a las filas se les asignan enteros 0, 1, 2… Si es necesario, se pueden especificar manualmente las etiquetas de las filas. La lista de etiquetas de filas en un DataFrame se llama Índice y se puede especificar usando el parámetro index.

1
2
3
pd.DataFrame({'Bob': ['Me gustó.', 'Fue horrible.'], 
              'Sue': ['Bastante bueno.', 'Insípido.']},
             index=['Producto A', 'Producto B'])

Series

Una Series es una secuencia de valores de datos.

1
pd.Series([1, 2, 3, 4, 5])

Una Series es esencialmente como una sola columna de un DataFrame. Por lo tanto, también se puede especificar un índice. La diferencia es que tiene un “nombre” (name) en lugar de un “nombre de columna”.

1
pd.Series([30, 35, 40], index=['Ventas 2015', 'Ventas 2016', 'Ventas 2017'], name='Producto A')

Las Series y los DataFrames están estrechamente relacionados. Puede ser útil pensar en un DataFrame simplemente como un conjunto de Series.

Leer archivos de datos

En muchos casos, en lugar de crear datos directamente, se importan datos existentes. Los datos pueden estar almacenados en varios formatos, siendo el más básico el archivo CSV. El contenido de un archivo CSV suele ser así:

1
2
3
4
Producto A,Producto B,Producto C,
30,21,9,
35,34,1,
41,11,11

Es decir, un archivo CSV es una tabla donde cada valor está separado por comas (de ahí el nombre “Comma-Separated Values”, CSV).

Para cargar datos en formato CSV en un DataFrame, se usa la función pd.read_csv().

Se puede verificar el tamaño de un DataFrame usando el atributo shape.

Se pueden ver las primeras cinco filas de un DataFrame usando el comando head().

La función pd.read_csv() tiene más de 30 parámetros. Por ejemplo, si el archivo CSV que se quiere cargar incluye su propio índice, se puede especificar el valor del parámetro index_col para usar esa columna como índice en lugar de que pandas asigne automáticamente uno.

Escribir datos

Se puede exportar un DataFrame a un archivo CSV usando el método to_csv(). Se usa así:

1
(nombre del DataFrame).to_csv("(ruta del archivo CSV)")

Lección 2. Indexación, Selección y Asignación

Seleccionar valores específicos para usar de un DataFrame o Series de pandas es un paso en casi todas las operaciones que involucran datos.

This post is licensed under CC BY-NC 4.0 by the author.