Superando el reto del billón de filas con Python
04/10/2024 , Saraiba
Idioma: Español

En el mundo del análisis de datos nos encontramos a menudo con la necesidad de analizar una cantidad masiva de datos con unos recursos muy limitados y en estos casos es importante tener claro qué estrategias y librerías se adaptan mejor a nuestras necesidades.

En este tutorial práctico vamos a cargar un fichero con mil millones de filas, inspirándonos en el reto de procesar un billón (en inglés) de filas: https://github.com/gunnarmorling/1brc, y veremos cómo podemos procesarlo y trabajar con él mediante Python.

En concreto, para superar este reto trabajaremos con librerías como numpy, pandas, Polars, PyArrow, DuckDB, Dask o Modin y utilizaremos formatos de ficheros tales como CSV, Apache Parquet o Feather y veremos las ventajas y desventajas de cada opción.

Para poder aprender y disfrutar de este tutorial recomendamos tener al menos 1 año de experiencia en Python, pero no es necesario tener experiencia en procesamiento de grandes cantidades de datos. Y no te preocupes si tienes un portátil con pocos recursos porque podrás adaptar fácilmente el tutorial a tu configuración y completar todos los ejercicios que te plantearemos sin problema.

Enlace a las instrucciones y material: https://github.com/PyDataMallorca/PyConES2024_Superando_el_1brc_con_Python (Importante: no vamos a dedicar tiempo a la instalación durante el taller así que, por favor, ven con todo instalado previamente)


Temática:

Ingeniería de Datos

Nivel de la propuesta:

Intermedia (es necesario entender las bases relacionadas para entrar en detalle)

Temáticas adicionales:

Software packages, SW Ingeniería & Arquitectura

Ver también : Enlace a las instrucciones y material

Ingenierio en Informática con más 20 años de experiencia. Me encanta programar, la estadística y los datos. Actualmente, trabajo como Ingeniero de Datos en Tinybird.

Biografía.

Graduado en economía con 7 años de experiencia en el mundo de los datos. Me apasiona aprender de forma autónoma, la informática y el mundo de los datos. He trabajado en múltiples áreas gracias a tener un perfil muy transversal, actualmente trabajo como ingeniero de datos en una empresa de movilidad.