04/10/2024 –, Poalla
Idioma: Español
La idea de este taller es presentar técnicas de nivel medio/avanzado para detección de patrones y minería de datos y muestra en qué contextos y aplicaciones reales (industria, ciberseguridad, ...) son útiles, qué permiten hacer o qué limitaciones tienen. Con esto, se pretende mostrar que no siempre se necesita conocer los detalles un algoritmo para saber usarlo, interpretar qué entradas necesita y qué resultados o patrones permite detectar para extraer información relevante de un conjunto de datos.
Cuando uno empieza a trabajar en analítica y minería de datos, existen muchas buzzwords (redes neuronales, FFT, autoencoders, t-SNE...), que pueden resultar abrumadoras y muchas veces existe una barrera invisible a la hora de utilizar nuevas técnicas que podrían aportar mucho valor a la hora de obtener insights.
La detección de patrones significativos y anomalías constituye una de las labores más relevantes en el análisis de datos. A veces, un simple análisis exploratorio preliminar no aporta la información relevante que pueden contener los datos. En estos casos suele ser necesario recurrir a técnicas más adaptadas al problema.
El taller estará dividido en dos partes, una centrada en datos tabulares y otra orientada a análisis de series temporales. En ella exploraremos diferentes opciones para el reconocimiento de patrones repetitivos, técnicas para la detección de anomalías o para la generación de datos. El punto común es la captura de patrones y el estudio de las relaciones presentes en los datos. Las librerías que se van a utilizar incluyen: keras (tensorflow), stumpy, sklearn, tslearn, umap y numpy; siendo el principal objetivo que los asistentes se lleven nuevas herramientas con las que poder atacar problemas de ciencia de datos.
Requerimientos previos de la charla:
Conocimiento bajo-intermedio de python (librerías como Pandas, NumPy, Scikit-Learn)
Conocimiento bajo de Jupyter-notebook
Conocimientos básicos de análisis de datos.
Ordenador portátil.
El enlace al repositorio con el readme para la instalación es el siguiente:
https://github.com/Gradiant/PyConEs2024-PatternBusters/tree/main
Básica (no hacen falta conocimientos previos)
Temática:Machine learning, stats
Temáticas adicionales:Ingeniería de Datos, Deep Learning
Pablo García Santaclara finalizó el Grado en Ingeniería de Tecnologías de Telecomunicación por la Universidad de Vigo, mención en telemática, en Junio de 2021 y los estudios del Máster en Ingeniería de Telecomunicación, especialidad en telemática en Julio de 2023, impartido también por la misma universidad. Simultáneamente al Máster, empezó a trabajar en Gradiant como parte del área de Sistemas Inteligentes en la línea de tecnologías ML&O (Machine Learning & Optimización) participando activamente en proyectos de convocatorias nacionales y europeas relacionados con la industria 4.0 y el diseño e implementación de sistemas avanzados para el control de calidad, mantenimiento predictivo y optimización de procesos de fabricación, entre otros. Actualmente desarrolla sus estudios de doctorado en la Universidade de Vigo con mención Industrial en el área de lifelong learning con aplicaciones industriales. Su actividad principal en Gradiant se centra en la investigación de algoritmos de machine learning e inteligencia artificial relacionados con la detección de anomalías y el mantenimiento predictivo, modelos Deep Learning de clasificación y regresión multivariante, aprendizaje federado (Federated Learning), edge computing, Incremental y Lifelong Learning.
Camilo Piñón Blanco es Graduado en Ingeniería de Tecnologías de Telecomunicación (2021) y Máster en Ingeniería de Telecomunicación (2023) por la Universidad de Vigo, con especialización en Ingeniería Telemática. Actualmente desarrolla su actividad como Ingeniero-Investigador en dentro de la línea de Privacy & Security Analytics de GRADIANT (Galician R&D Center in Advanced Telecommunications), donde se enfoca en el desarrollo de soluciones para detección de ciberataques y análisis de comportamiento de usuarios y entidades mediante técnicas de Machine Learning. Además, ha trabajado como investigador en atlanTTic, abordando proyectos relacionados con el procesamiento de lenguaje natural y análisis de datos textuales. Sus principales áreas de interés incluyen la ciencia de datos aplicada y el aprendizaje automático para analítica de ciberseguridad.