Primeiros passos em PySpark: ler e transformar dados

João Barros 13 de February de 2024 1 min de leitura

O Apache Spark processa grandes volumes de dados em paralelo, e o PySpark é a sua interface em Python. Este tutorial mostra os primeiros passos: criar uma sessão, ler dados e fazer transformações simples.

Pré-requisitos

Python 3.9+ e o PySpark instalado (pip install pyspark) ou um ambiente como Databricks.
Noções básicas de Python.
Um ficheiro de dados (CSV ou Parquet).

Passo 1: Criar a SparkSession

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("primeiros-passos").getOrCreate()

Passo 2: Ler os dados

df = spark.read.option("header", True).csv("vendas.csv")
df.show(5)

O show() apresenta as primeiras linhas para confirmares a leitura.

Passo 3: Transformar com a API de DataFrame

from pyspark.sql.functions import col

vendas = (df
    .filter(col("valor") > 0)
    .groupBy("categoria")
    .sum("valor"))
vendas.show()

Passo 4: Guardar o resultado

vendas.write.mode("overwrite").parquet("saida/vendas_por_categoria")

Verificar o resultado

Lê o ficheiro guardado com spark.read.parquet(...) e confirma que a agregação por categoria está correta.

Conclusão

Com uma SparkSession, uma leitura e algumas transformações já processas dados à escala com PySpark. Que conjunto de dados grande gostarias de processar a seguir?