Primeros pasos en PySpark: leer y transformar datos
João Barros
13 de February de 2024
1 min de lectura
Apache Spark procesa grandes volúmenes de datos en paralelo, y PySpark es su interfaz en Python. Este tutorial muestra los primeros pasos: crear una sesión, leer datos y hacer transformaciones simples.
Requisitos previos
- Python 3.9+ y PySpark instalado (
pip install pyspark) o un entorno como Databricks. - Nociones básicas de Python.
- Un archivo de datos (CSV o Parquet).
Paso 1: Crear la SparkSession
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("primeiros-passos").getOrCreate()
Paso 2: Leer los datos
df = spark.read.option("header", True).csv("vendas.csv")
df.show(5)
show() muestra las primeras filas para confirmar la lectura.

Paso 3: Transformar con la API de DataFrame
from pyspark.sql.functions import col
vendas = (df
.filter(col("valor") > 0)
.groupBy("categoria")
.sum("valor"))
vendas.show()
Paso 4: Guardar el resultado
vendas.write.mode("overwrite").parquet("saida/vendas_por_categoria")
Verificar el resultado
Lee el archivo guardado con spark.read.parquet(...) y confirma que la agregación por categoría es correcta.
Conclusión
Con una SparkSession, una lectura y algunas transformaciones ya procesas datos a escala con PySpark. ¿Qué conjunto de datos grande te gustaría procesar a continuación?