Gabriel Martín Blázquez PyConES 2024

Gabriel Martín Blázquez
.ical

Mi nombre es Gabriel, y actualmente trabajo como ML Engineer en Argilla. Me encanta programar, y con frecuencia navego sin rumbo en GitHub buscando proyectos interesantes de los que aprender, y contribuir en algunos casos. Ahora mismo trabajo en Argilla, donde estamos desarrollando una plataforma para la anotación de datos utilizados para entrenar modelos y por supuesto, LLMs.

Personal website –

https://gabrielmb.com

Twitter –

https://x.com/gabrielmbmb_

LinkedIn –

www.linkedin.com/in/gabrielmbmb

Any other link (e.g. GitHub) –

https://github.com/gabrielmbmb

Session

10-05

15:00

35min

¿Quién necesita datos teniendo distilabel?

Gabriel Martín Blázquez

¿Quieres hacer fine-tuning de un modelo o LLM para un caso de uso específico pero no tienes datos? Entonces distilabel es tu solución, la biblioteca que hemos estado utilizando en Argilla estos últimos meses y con la cual hemos generado varios datasets que han sido tendencia en el Hugging Face Hub.

distilabel es una biblioteca para la generación de datos de texto (por el momento solo texto) de manera sintética utilizando LLMs creada por Argilla. Los datasets generados con distilabel permiten hacer fine-tuning de otros modelos (model distillation) o incluso de la propia LLM que se utilizó para generar los datos (self-learning).

La biblioteca permite desarrollar una pipeline compuesta por varios pasos jerarquizados mediante un Directed Acyclic Graph (DAG). Cada paso puede realizar una transformación o filtrado en los batches de datos que reciben, para después devolverlo. La pipeline es ejecutada de manera paralela y con un sistema basado en batches: los datos de entrada de la pipeline se dividen en batches que van fluyendo a través de los pasos.

Además, la biblioteca cuenta con pasos especiales denominados tareas, que definen la lógica para realizar generación de datos o anotación de datos utilizando una LLM (integramos casi todos los "engines": OpenAI API, vLLM, Hugging Face Inference Endpoints, Hugging Face Transformers, etc).

En esta charla explicaré por que desarrollamos distilabel, como fue su desarrollo y hablaré de su interesante arquitectura en Python, que trata de maximizar y paralelizar la ejecución de la pipeline para que esta sea lo más rápida posible. Además, pondré varios ejemplos de como utilizar distilabel para generar datos para vuestros casos de uso.

GitHub: https://github.com/argilla-io/distilabel

Machine learning, stats

Saraiba

Gabriel Martín Blázquez .ical

Session

Gabriel Martín Blázquez
.ical