Antonio Aliaga Cortés

I'm a Data Architect/Data Engineer with Databricks champion recognition. I have been focusing on building cloud data platforms across different sectors, I specialize in Azure and Databricks, ensuring best practices, security, and data governance principles to deliver robust and reliable data + IA solutions.


Session

10-19
15:20
40min
Utilizando spark structured streaming para procesamiento batch
Antonio Aliaga Cortés, Pablo Cabeza

En muchas plataformas de datos, es habitual tener batch y en streaming para el procesamiento, lo cual plantea desafíos importantes en cuanto a consistencia, mantenimiento y reutilización de código. Spark Structured Streaming es una solución robusta y versátil que permite utilizar la misma API para abordar los dos escenarios de forma coherente.

A lo largo de esta sesión, exploraremos las principales características de Structured Streaming y cómo utilizarlo para construir pipelines de datos en PySpark. Veremos cómo su enfoque basado en micro-batches y checkpoints permite implementar flujos de datos tanto en real time como en batch, manteniendo un diseño unificado.
Aunque Structured Streaming es una funcionalidad open source de Spark, en esta charla lo vamos a implementar sobre la plataforma Databricks, aprovechando su integración con herramientas como Auto Loader o limpieza de la landing zone. Veremos cómo estas capacidades facilitan el desarrollo de pipelines consistentes, escalables y reutilizables, independientemente de la frecuencia o el volumen de los datos.

Data Science and Data Engineering
Track 03 - B04, C02