PySpark para Processamento de Linguagem Natural (NLP)
30/10/2023 , Ucs 403

Neste tutorial iremos explorar técnicas para processar grandes volumes de texto em NLP com Apache Spark. Iremos utilizar a biblioteca Spark NLP que é o estado da arte da área em Python.


O processamento de linguagem natural (NLP) é um ramo da inteligência artificial que se concentra na interação entre humanos e computadores usando linguagem natural. Com o lançamento do ChatGPT, o ramo de NLP tem se destacado no mercado e é promissor. Espera-se que ele continue a desempenhar um papel importante no desenvolvimento de aplicações baseadas em processamento de linguagem natural.

Para processar grandes volumes de dados de textos, o Apache Spark tem sido utilizado por ser um mecanismo de análise unificado para processamento de dados em grande escala com módulos integrados para SQL, streaming, machine learning e processamento de gráficos.

Neste tutorial iremos explorar técnicas para processar grandes volumes de texto em NLP com Apache Spark. Iremos utilizar a biblioteca Spark NLP (https://github.com/JohnSnowLabs/spark-nlp) que é o estado da arte para processamento de linguagem natural com Python.

Doutor em Ciência da Computação, Head de Dados na Jusbrasil, com mais de 15 anos de experiência na área de Big Data e NLP no desenvolvimento de soluções para grandes volumes de dados em Python.