Tag cloud (ou word cloud) das palavras mais ditas pelos candidatos à presidência no primeiro debate na Band
Foram feitos dois conjuntos de imagens: um com o texto sem alterações e outro com lemmatization, que coloca verbos no infinitivo e substantivos no singular
Ciro Gomes Felipe d'Ávila Jair Bolsonaro Lula Simone Tebet Soraya Ciro Gomes Felipe d'Ávila Jair Bolsonaro Lula Simone Tebet SorayaCom a lemmatização, a palavra mais dita por alguns candidatos mudou. A de Bolsonaro passou a ser "mulher"; a de Soraya, "todo"
Como, neste site, toda a fala registrada por cada candidato começa com seu nome em negrito, selecionaram-se apenas os parágrafos que começavam com seus nomes, com o apoio do módulo Beautiful Soup 4. Depois, os parágrafos lidos foram salvos em arquivos .txt.
Esta etapa pertence ao arquivo scraper.py
O programa gera csv.py
e gera csv lemmatizado.py
lêem os arquivos .txt, contam a frequência das palavras utilizadas em cada arquivo e salva-as em arquivos csv, na forma palavra, quantidade
. Há pastas indicando quais foram lematizados ou não.
Esta estapa é feita por gerador de imagens.py
. São lidas as palavras e quantidades dos arquivos .csv e, a partir deles, através do módulo wordcloud, obtiveram-se as imagens.