Primeros pasos en PySpark: leer y transformar datos

João Barros 13 de February de 2024 1 min de lectura

Apache Spark procesa grandes volúmenes de datos en paralelo, y PySpark es su interfaz en Python. Este tutorial muestra los primeros pasos: crear una sesión, leer datos y hacer transformaciones simples.

Requisitos previos

Python 3.9+ y PySpark instalado (pip install pyspark) o un entorno como Databricks.
Nociones básicas de Python.
Un archivo de datos (CSV o Parquet).

Paso 1: Crear la SparkSession

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("primeiros-passos").getOrCreate()

Paso 2: Leer los datos

df = spark.read.option("header", True).csv("vendas.csv")
df.show(5)

show() muestra las primeras filas para confirmar la lectura.

Paso 3: Transformar con la API de DataFrame

from pyspark.sql.functions import col

vendas = (df
    .filter(col("valor") > 0)
    .groupBy("categoria")
    .sum("valor"))
vendas.show()

Paso 4: Guardar el resultado

vendas.write.mode("overwrite").parquet("saida/vendas_por_categoria")

Verificar el resultado

Lee el archivo guardado con spark.read.parquet(...) y confirma que la agregación por categoría es correcta.

Conclusión

Con una SparkSession, una lectura y algunas transformaciones ya procesas datos a escala con PySpark. ¿Qué conjunto de datos grande te gustaría procesar a continuación?

← Volver a Apache Spark Agendar consultoría gratuita →