23/09/2023 –, Laboratório 1
A abertura de dados pelo poder público se mostra cada vez mais necessária quando a sociedade civil está empenhada em analisar estes dados. A partir do acesso e processamento destas informações é possível criar mecanismos de acompanhamento e fiscalização do poder público. Isto associado com técnicas das visualizações de dados ajudam a tornar esse tipo de informação mais acessível para a sociedade em geral. Esse tutorial tem a finalidade de mostrar como utilizar a linguagem Python para coletar, processar e visualizar dados disponibilizados pelos governos.
O tutorial será dividido em 3 partes. A primeira será focada em mostrar alguns conceitos teóricos de análise e visualização de dados, focado em apresentar para o público-alvo alguns conceitos que ajudem a entender o que será feito a partir do dados. A segunda parte será focada em mostrar fontes de dados abertos e como podemos coletá-las e processá-las, utilizando a linguagem Python. Na terceira e última etapa, serão mostrados como podemos utilizar a linguagem Python para construir e melhorar as visualizações dos dados coletados.
A princípio, os dados devem ser focados em algumas áreas de interesse da sociedade: saúde, educação, meio-ambiente, eleições. Normalmente, o material terá as análises dessas áreas, mas por conta do tempo, serão escolhidas um ou duas para trabalhar no evento. Costumo decidir isso mais próximo para contextualizar o tutorial com o público-alvo e com o momento atual em que estamos vivendo. Por exemplo, ano passado o foco foi nas eleições por conta do processo eleitoral que estávamos passando.
Em termos de bibliotecas, serão utilizadas algumas API para coletar os dados, que pode ser feito a partir de requests ou por meio de biblioteca próprias, como da base dos dados. Para processamento dos dados, a proposta é fazer uso do Pandas e seus recursos. Para visualização, a proposta é usar a Plotly.
O cronograma proposto é o seguinte:
0m - 1m: Agradecimento
1m - 2m: Sobre mim
2m - 30m: Explanação teórica sobre análise, processamento e visualização de dados
30m - 1h: Explorando e coletando dados de bases abertas
1h - 1h30m: Processando os dados coletados
1h30m - 2h15m: Construindo visualizações
2h-15m - 2h:30m: Espaço aberto para dúvidas