04/10/2024 –, Saraiba
Idioma: Español
En el mundo del análisis de datos nos encontramos a menudo con la necesidad de analizar una cantidad masiva de datos con unos recursos muy limitados y en estos casos es importante tener claro qué estrategias y librerías se adaptan mejor a nuestras necesidades.
En este tutorial práctico vamos a cargar un fichero con mil millones de filas, inspirándonos en el reto de procesar un billón (en inglés) de filas: https://github.com/gunnarmorling/1brc, y veremos cómo podemos procesarlo y trabajar con él mediante Python.
En concreto, para superar este reto trabajaremos con librerías como numpy, pandas, Polars, PyArrow, DuckDB, Dask o Modin y utilizaremos formatos de ficheros tales como CSV, Apache Parquet o Feather y veremos las ventajas y desventajas de cada opción.
Para poder aprender y disfrutar de este tutorial recomendamos tener al menos 1 año de experiencia en Python, pero no es necesario tener experiencia en procesamiento de grandes cantidades de datos. Y no te preocupes si tienes un portátil con pocos recursos porque podrás adaptar fácilmente el tutorial a tu configuración y completar todos los ejercicios que te plantearemos sin problema.
Enlace a las instrucciones y material: https://github.com/PyDataMallorca/PyConES2024_Superando_el_1brc_con_Python (Importante: no vamos a dedicar tiempo a la instalación durante el taller así que, por favor, ven con todo instalado previamente)
Ingeniería de Datos
Nivel de la propuesta:Intermedia (es necesario entender las bases relacionadas para entrar en detalle)
Temáticas adicionales:Software packages, SW Ingeniería & Arquitectura
Ingenierio en Informática con más 20 años de experiencia. Me encanta programar, la estadística y los datos. Actualmente, trabajo como Ingeniero de Datos en Tinybird.
Biografía.
Graduado en economía con 7 años de experiencia en el mundo de los datos. Me apasiona aprender de forma autónoma, la informática y el mundo de los datos. He trabajado en múltiples áreas gracias a tener un perfil muy transversal, actualmente trabajo como ingeniero de datos en una empresa de movilidad.