Como ler e limpar dados de um CSV com pandas em Python
Trabalhar com dados começa quase sempre por um ficheiro CSV. A biblioteca pandas do Python é a forma mais rápida de o ler, inspecionar e limpar antes de qualquer análise.
Pré-requisitos
- Python 3.9 ou superior instalado.
- A biblioteca pandas:
pip install pandas. - Um ficheiro CSV de exemplo (por exemplo
vendas.csv).
Passo 1: Ler o CSV
Importa o pandas e carrega o ficheiro para um DataFrame:

import pandas as pd
df = pd.read_csv("vendas.csv")
print(df.head())
O método head() mostra as primeiras cinco linhas para confirmares que os dados foram lidos corretamente.
Passo 2: Inspecionar os dados
Antes de limpar, percebe o que tens em mãos:
print(df.info())
print(df.isnull().sum())
O info() mostra os tipos de coluna e o isnull().sum() conta os valores em falta por coluna.
Passo 3: Limpar valores em falta e duplicados
df = df.drop_duplicates()
df["preco"] = df["preco"].fillna(0)
df = df.dropna(subset=["cliente"])
Removemos linhas repetidas, preenchemos preços em falta com 0 e descartamos linhas sem cliente.
Passo 4: Corrigir os tipos de dados
df["data"] = pd.to_datetime(df["data"], format="%d/%m/%Y")
df["preco"] = df["preco"].astype(float)
Verificar o resultado
Corre outra vez df.info() e df.isnull().sum(). Não deves ter valores em falta nas colunas essenciais e as datas devem aparecer como datetime.
Conclusão
Com meia dúzia de linhas de pandas transformas um CSV bruto num conjunto de dados fiável, pronto para análise. Que outra transformação costumas precisar de fazer aos teus ficheiros antes de os analisar?