Trabalho de conclusão para o curso de especialização em Ciência de Dados da Facens com uso de Processamento de Linguagem Natural para análise de discurso de ódio em redes sociais.
O trabalho pode ser acessado no neste Google Colab. Nossa apresentação pode ser encontrada aqui.
Nossa intensão inicial era trabalhar com NPL e para isso pensamos em usar dados de redes sociais. Durante as primeiras conversas com nosso orientador chegamos ao tema da análise de discurso de ódio. Nesse momento investigamos a possibilidade de conseguir com desenvolvedoras de jogos logs anonimizados de chats de seus jogos, uma vez que o mundo gamer vem se mostrado um grande celeiro de discurso de ódio, como evidenciado em casos como o gamer gate. Essa tentativa foi frustrada, e podemos dizer que felizmente, pois as empresas vêm tendo bastante cuidados com os dados de seus clientes, e a legislações como a Lei Geral de Proteção de Dados (LGPD) e a General Data Protection Regulation (GDPR)
Pesquisando Corpus sobre Discurso de Ódio encontramos a iniciativa do Centro de Estudos Web (CEWEB/NIC) de desenvolver uma Inteligência Artificial que ajude na prevenção da disseminação desse tipo de comportamento online. Eles trabalham com um Corpus em português brasileiro que foi publicado por Fortuna, P., Rocha Da Silva, J., Soler-Company, J., Wanner, L., & Nunes, S. (2019). "A Hierarchically-Labeled Portuguese Hate Speech Dataset", com dados tirados do Twitter e que se encontra no Github.
Outro site muito interessante que encontramos foi um agregador de datasets sobre hate speach em várias linguas diferentes o hatespeachdata. Nesse site encontramos tanto o arquivo citado acima como o artigo Offensive Comments in the Brazilian Web: A Dataset and Baseline Results que também pode ser encontrado no Github e trata de comentários no site G1.
Data | Objetivo | Feito |
---|---|---|
29/08/20 | Discutir sobre o dataset utilizado e abordagens recomendadas | [x] |
24/10/20 | Apresentar código para tratar e preparar dados para o uso em experimentos de aprendizado de máquina. Discutir problemas encontrados e decidir próximos passos | [x] |
30/01/21 | Revisar experimentos, apontar problemas e planejar correções ou melhorias | [x] |
11/04/21 | Entrega do material para banca | [] |
24/04/21 | Evento de Apresentação final dos TCCs | [] |