Utilizando spark structured streaming para procesamiento batch
19/10/2025 , Track 03 - E04, A02
Idioma: Español

En muchas plataformas de datos, es habitual tener batch y en streaming para el procesamiento, lo cual plantea desafíos importantes en cuanto a consistencia, mantenimiento y reutilización de código. Spark Structured Streaming es una solución robusta y versátil que permite utilizar la misma API para abordar los dos escenarios de forma coherente.

A lo largo de esta sesión, exploraremos las principales características de Structured Streaming y cómo utilizarlo para construir pipelines de datos en PySpark. Veremos cómo su enfoque basado en micro-batches y checkpoints permite implementar flujos de datos tanto en real time como en batch, manteniendo un diseño unificado.
Aunque Structured Streaming es una funcionalidad open source de Spark, en esta charla lo vamos a implementar sobre la plataforma Databricks, aprovechando su integración con herramientas como Auto Loader o limpieza de la landing zone. Veremos cómo estas capacidades facilitan el desarrollo de pipelines consistentes, escalables y reutilizables, independientemente de la frecuencia o el volumen de los datos.


Temática:

Data Science and Data Engineering (analytics, visualization, pipelines, data engineering, notebooks...)

Temáticas adicionales: No response Nivel de la propuesta:

Intermediate (it is necessary to understand the related bases to go into detail)

I'm a Data Architect/Data Engineer with Databricks champion recognition. I have been focusing on building cloud data platforms across different sectors, I specialize in Azure and Databricks, ensuring best practices, security, and data governance principles to deliver robust and reliable data + IA solutions.

Pablo is a senior data engineer at Mondra, specializing in data architecture, ETL processes, and big data technologies. With a strong background in computer science and extensive experience in data engineering, he has successfully led numerous projects that have optimized data workflows and enhanced analytics capabilities. Pablo is passionate about leveraging data to drive business insights and innovation. He is committed to continuous learning and staying abreast of emerging trends in data engineering and analytics.