Cómo leer y limpiar datos de un CSV con pandas en Python

João Barros 16 de May de 2023 2 min de lectura

Trabajar con datos casi siempre empieza con un archivo CSV. La biblioteca pandas de Python es la forma más rápida de leerlo, inspeccionarlo y limpiarlo antes de cualquier análisis.

Requisitos previos

Python 3.9 o superior instalado.
La biblioteca pandas: pip install pandas.
Un archivo CSV de ejemplo (por ejemplo vendas.csv).

Paso 1: Leer el CSV

Importa pandas y carga el archivo en un DataFrame:

import pandas as pd

df = pd.read_csv("vendas.csv")
print(df.head())

El método head() muestra las primeras cinco filas para confirmar que los datos se leyeron correctamente.

Paso 2: Inspeccionar los datos

Antes de limpiar, entiende lo que tienes:

print(df.info())
print(df.isnull().sum())

info() muestra los tipos de columna e isnull().sum() cuenta los valores faltantes por columna.

Paso 3: Limpiar valores faltantes y duplicados

df = df.drop_duplicates()
df["preco"] = df["preco"].fillna(0)
df = df.dropna(subset=["cliente"])

Eliminamos filas repetidas, rellenamos precios faltantes con 0 y descartamos filas sin cliente.

Paso 4: Corregir los tipos de datos

df["data"] = pd.to_datetime(df["data"], format="%d/%m/%Y")
df["preco"] = df["preco"].astype(float)

Verificar el resultado

Ejecuta de nuevo df.info() e df.isnull().sum(). Las columnas esenciales no deberían tener valores faltantes y las fechas deben aparecer como datetime.

Conclusión

Con media docena de líneas de pandas conviertes un CSV en bruto en un conjunto de datos fiable, listo para el análisis. ¿Qué otra transformación sueles necesitar en tus archivos antes de analizarlos?