Skip to content

Latest commit

 

History

History
92 lines (72 loc) · 3.24 KB

README.md

File metadata and controls

92 lines (72 loc) · 3.24 KB

Tag cloud (ou word cloud) das palavras mais ditas pelos candidatos à presidência no primeiro debate na Band

Foram feitos dois conjuntos de imagens: um com o texto sem alterações e outro com lemmatization, que coloca verbos no infinitivo e substantivos no singular

Texto sem alterações

Ciro Gomes

Felipe d'Ávila

Jair Bolsonaro

Lula

Simone Tebet

Soraya

Texto lemmatizado

Ciro Gomes

Felipe d'Ávila

Jair Bolsonaro

Lula

Simone Tebet

Soraya

Com a lemmatização, a palavra mais dita por alguns candidatos mudou. A de Bolsonaro passou a ser "mulher"; a de Soraya, "todo"

Primeira etapa - web scraping de uma página com a transcrição

Como, neste site, toda a fala registrada por cada candidato começa com seu nome em negrito, selecionaram-se apenas os parágrafos que começavam com seus nomes, com o apoio do módulo Beautiful Soup 4. Depois, os parágrafos lidos foram salvos em arquivos .txt.

Esta etapa pertence ao arquivo scraper.py

Segunda etapa - frequência absoluta de cada palavra por candidato

O programa gera csv.py e gera csv lemmatizado.py lêem os arquivos .txt, contam a frequência das palavras utilizadas em cada arquivo e salva-as em arquivos csv, na forma palavra, quantidade. Há pastas indicando quais foram lematizados ou não.

Terceira etapa - leitura dos arquivos .csv e WordCloud

Esta estapa é feita por gerador de imagens.py. São lidas as palavras e quantidades dos arquivos .csv e, a partir deles, através do módulo wordcloud, obtiveram-se as imagens.