Se han guardado sus preferencias de configuración regional. Nos gusta pensar que tenemos un excelente soporte para el español en Pretalx, pero si encuentra problemas o errores, ¡contáctenos!

Superando el reto del billón de filas con Python
04/10, 16:00–17:30 (Europe/Madrid), Saraiba
Idioma: Español

En el mundo del análisis de datos nos encontramos a menudo con la necesidad de analizar una cantidad masiva de datos con unos recursos muy limitados y en estos casos es importante tener claro qué estrategias y librerías se adaptan mejor a nuestras necesidades.

En este tutorial práctico vamos a cargar un fichero con mil millones de filas, inspirándonos en el reto de procesar un billón (en inglés) de filas: https://github.com/gunnarmorling/1brc, y veremos cómo podemos procesarlo y trabajar con él mediante Python.

En concreto, para superar este reto trabajaremos con librerías como numpy, pandas, Polars, PyArrow, DuckDB, Dask o Modin y utilizaremos formatos de ficheros tales como CSV, Apache Parquet o Feather y veremos las ventajas y desventajas de cada opción.

Para poder aprender y disfrutar de este tutorial recomendamos tener al menos 1 año de experiencia en Python, pero no es necesario tener experiencia en procesamiento de grandes cantidades de datos. Y no te preocupes si tienes un portátil con pocos recursos porque podrás adaptar fácilmente el tutorial a tu configuración y completar todos los ejercicios que te plantearemos sin problema.

Enlace a las instrucciones y material: https://github.com/PyDataMallorca/PyConES2024_Superando_el_1brc_con_Python (Importante: no vamos a dedicar tiempo a la instalación durante el taller así que, por favor, ven con todo instalado previamente)


Temática

Ingeniería de Datos

Nivel de la propuesta

Intermedia (es necesario entender las bases relacionadas para entrar en detalle)

Temáticas adicionales

Software packages, SW Ingeniería & Arquitectura

Ver también : Enlace a las instrucciones y material

Ingenierio en Informática con más 20 años de experiencia. Me encanta programar, la estadística y los datos. Actualmente, trabajo como Ingeniero de Datos en Tinybird.

Biografía.

Graduado en economía con 7 años de experiencia en el mundo de los datos. Me apasiona aprender de forma autónoma, la informática y el mundo de los datos. He trabajado en múltiples áreas gracias a tener un perfil muy transversal, actualmente trabajo como ingeniero de datos en una empresa de movilidad.