Utilizando spark structured streaming para procesamiento batch PyConES 2025

Utilizando spark structured streaming para procesamiento batch
.ical
19/10/2025 15:20–16:00, Track 04 - E05, A01
Idioma: Español

En muchas plataformas de datos, es habitual tener batch y en streaming para el procesamiento, lo cual plantea desafíos importantes en cuanto a consistencia, mantenimiento y reutilización de código. Spark Structured Streaming es una solución robusta y versátil que permite utilizar la misma API para abordar los dos escenarios de forma coherente.

A lo largo de esta sesión, exploraremos las principales características de Structured Streaming y cómo utilizarlo para construir pipelines de datos en PySpark. Veremos cómo su enfoque basado en micro-batches y checkpoints permite implementar flujos de datos tanto en real time como en batch, manteniendo un diseño unificado.
Aunque Structured Streaming es una funcionalidad open source de Spark, en esta charla lo vamos a implementar sobre la plataforma Databricks, aprovechando su integración con herramientas como Auto Loader o limpieza de la landing zone. Veremos cómo estas capacidades facilitan el desarrollo de pipelines consistentes, escalables y reutilizables, independientemente de la frecuencia o el volumen de los datos.

Temática: Ciencia de Datos e Ingeniería de Datos (análisis, visualización, pipelines, data engineering, notebooks...) Temáticas adicionales: — Nivel de la propuesta: Intermedia (es necesario entender las bases relacionadas para entrar en detalle)

Antonio Aliaga Cortés

I'm a Data Architect/Data Engineer with Databricks champion recognition. I have been focusing on building cloud data platforms across different sectors, I specialize in Azure and Databricks, ensuring best practices, security, and data governance principles to deliver robust and reliable data + IA solutions.

Pablo Cabeza

Pablo is a senior data engineer at Mondra, specializing in data architecture, ETL processes, and big data technologies. With a strong background in computer science and extensive experience in data engineering, he has successfully led numerous projects that have optimized data workflows and enhanced analytics capabilities. Pablo is passionate about leveraging data to drive business insights and innovation. He is committed to continuous learning and staying abreast of emerging trends in data engineering and analytics.

Utilizando spark structured streaming para procesamiento batch .ical 19/10/2025 15:20–16:00, Track 04 - E05, A01 Idioma: Español

Utilizando spark structured streaming para procesamiento batch
.ical
19/10/2025 15:20–16:00, Track 04 - E05, A01
Idioma: Español