Como ler e limpar dados de um CSV com pandas em Python

João Barros 16 de May de 2023 2 min de leitura

Trabalhar com dados começa quase sempre por um ficheiro CSV. A biblioteca pandas do Python é a forma mais rápida de o ler, inspecionar e limpar antes de qualquer análise.

Pré-requisitos

Python 3.9 ou superior instalado.
A biblioteca pandas: pip install pandas.
Um ficheiro CSV de exemplo (por exemplo vendas.csv).

Passo 1: Ler o CSV

Importa o pandas e carrega o ficheiro para um DataFrame:

import pandas as pd

df = pd.read_csv("vendas.csv")
print(df.head())

O método head() mostra as primeiras cinco linhas para confirmares que os dados foram lidos corretamente.

Passo 2: Inspecionar os dados

Antes de limpar, percebe o que tens em mãos:

print(df.info())
print(df.isnull().sum())

O info() mostra os tipos de coluna e o isnull().sum() conta os valores em falta por coluna.

Passo 3: Limpar valores em falta e duplicados

df = df.drop_duplicates()
df["preco"] = df["preco"].fillna(0)
df = df.dropna(subset=["cliente"])

Removemos linhas repetidas, preenchemos preços em falta com 0 e descartamos linhas sem cliente.

Passo 4: Corrigir os tipos de dados

df["data"] = pd.to_datetime(df["data"], format="%d/%m/%Y")
df["preco"] = df["preco"].astype(float)

Verificar o resultado

Corre outra vez df.info() e df.isnull().sum(). Não deves ter valores em falta nas colunas essenciais e as datas devem aparecer como datetime.

Conclusão

Com meia dúzia de linhas de pandas transformas um CSV bruto num conjunto de dados fiável, pronto para análise. Que outra transformação costumas precisar de fazer aos teus ficheiros antes de os analisar?