PyLadiesCon 2025

Introdução ao PySpark para Engenharia de Dados
05/12/2025 , Main Stream
Idioma: Portuguese

Esta palestra é destinada para ser uma introdução ao PySpark, a API Python para executar o Apache Spark, com foco na aplicação em engenharia de dados. Serão apresentados os principais conceitos, como processamento distribuído, criação de DataFrames e operações de transformação. O objetivo é mostrar e simplificar o PySpark para iniciantes na área de Engenharia de Dados.


O PySpark é hoje uma das ferramentas mais utilizadas em engenharia de dados para lidar com grandes volumes de dados de maneira escalável e eficiente.

Os participantes aprenderão os seguintes tópicos:
- A diferença entre processamento local e distribuído;
- Criação e manipulação de DataFrames no PySpark;
- Exemplos de transformações comuns no dia a dia da engenharia de dados.

A apresentação é voltada para iniciantes que desejam uma oportunidade na área de Engenharia de Dados. Ao final, os participantes terão uma visão clara de como o PySpark é utilizado no dia a dia de uma pessoa Engenheira de Dados.

Na área de tecnologia desde 2019, quando entrei na graduação sem saber de nada. Entrei na área de dados e me desenvolvi como Engenheira de Dados. Sou apaixonada pela área de ensino e meu sonho é conseguir compartilhar meu conhecimento com iniciantes da area.