Cómo leer y limpiar datos de un CSV con pandas en Python
Trabajar con datos casi siempre empieza con un archivo CSV. La biblioteca pandas de Python es la forma más rápida de leerlo, inspeccionarlo y limpiarlo antes de cualquier análisis.
Requisitos previos
- Python 3.9 o superior instalado.
- La biblioteca pandas:
pip install pandas. - Un archivo CSV de ejemplo (por ejemplo
vendas.csv).
Paso 1: Leer el CSV
Importa pandas y carga el archivo en un DataFrame:

import pandas as pd
df = pd.read_csv("vendas.csv")
print(df.head())
El método head() muestra las primeras cinco filas para confirmar que los datos se leyeron correctamente.
Paso 2: Inspeccionar los datos
Antes de limpiar, entiende lo que tienes:
print(df.info())
print(df.isnull().sum())
info() muestra los tipos de columna e isnull().sum() cuenta los valores faltantes por columna.
Paso 3: Limpiar valores faltantes y duplicados
df = df.drop_duplicates()
df["preco"] = df["preco"].fillna(0)
df = df.dropna(subset=["cliente"])
Eliminamos filas repetidas, rellenamos precios faltantes con 0 y descartamos filas sin cliente.
Paso 4: Corregir los tipos de datos
df["data"] = pd.to_datetime(df["data"], format="%d/%m/%Y")
df["preco"] = df["preco"].astype(float)
Verificar el resultado
Ejecuta de nuevo df.info() e df.isnull().sum(). Las columnas esenciales no deberían tener valores faltantes y las fechas deben aparecer como datetime.
Conclusión
Con media docena de líneas de pandas conviertes un CSV en bruto en un conjunto de datos fiable, listo para el análisis. ¿Qué otra transformación sueles necesitar en tus archivos antes de analizarlos?