05/12/2025 –, Main Stream Idioma: Portuguese
Esta palestra é destinada para ser uma introdução ao PySpark, a API Python para executar o Apache Spark, com foco na aplicação em engenharia de dados. Serão apresentados os principais conceitos, como processamento distribuído, criação de DataFrames e operações de transformação. O objetivo é mostrar e simplificar o PySpark para iniciantes na área de Engenharia de Dados.
O PySpark é hoje uma das ferramentas mais utilizadas em engenharia de dados para lidar com grandes volumes de dados de maneira escalável e eficiente.
Os participantes aprenderão os seguintes tópicos:
- A diferença entre processamento local e distribuído;
- Criação e manipulação de DataFrames no PySpark;
- Exemplos de transformações comuns no dia a dia da engenharia de dados.
A apresentação é voltada para iniciantes que desejam uma oportunidade na área de Engenharia de Dados. Ao final, os participantes terão uma visão clara de como o PySpark é utilizado no dia a dia de uma pessoa Engenheira de Dados.
Na área de tecnologia desde 2019, quando entrei na graduação sem saber de nada. Entrei na área de dados e me desenvolvi como Engenheira de Dados. Sou apaixonada pela área de ensino e meu sonho é conseguir compartilhar meu conhecimento com iniciantes da area.
