Primeiros passos em PySpark: ler e transformar dados
João Barros
13 de February de 2024
1 min de leitura
O Apache Spark processa grandes volumes de dados em paralelo, e o PySpark é a sua interface em Python. Este tutorial mostra os primeiros passos: criar uma sessão, ler dados e fazer transformações simples.
Pré-requisitos
- Python 3.9+ e o PySpark instalado (
pip install pyspark) ou um ambiente como Databricks. - Noções básicas de Python.
- Um ficheiro de dados (CSV ou Parquet).
Passo 1: Criar a SparkSession
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("primeiros-passos").getOrCreate()
Passo 2: Ler os dados
df = spark.read.option("header", True).csv("vendas.csv")
df.show(5)
O show() apresenta as primeiras linhas para confirmares a leitura.

Passo 3: Transformar com a API de DataFrame
from pyspark.sql.functions import col
vendas = (df
.filter(col("valor") > 0)
.groupBy("categoria")
.sum("valor"))
vendas.show()
Passo 4: Guardar o resultado
vendas.write.mode("overwrite").parquet("saida/vendas_por_categoria")
Verificar o resultado
Lê o ficheiro guardado com spark.read.parquet(...) e confirma que a agregação por categoria está correta.
Conclusão
Com uma SparkSession, uma leitura e algumas transformações já processas dados à escala com PySpark. Que conjunto de dados grande gostarias de processar a seguir?