Skip to content

Latest commit

 

History

History
14 lines (9 loc) · 1.21 KB

README.md

File metadata and controls

14 lines (9 loc) · 1.21 KB

Extraindo e analisando notícias da Infonet

Com o objetivo de coletar dados de notícias publicadas na Infonet, um grande portal de notícias do estado de Sergipe, foi construído o Infonet Scraping.ipynb. O Jupyter Notebook que se encontra nesse repositório conta com técnicas de Web Scraping para a extração e armazenamento de dados das notícias, tais como título, texto e autoria.

Para além da extração dos dados, foi implementado um campo específico dentro do Notebook para a análise de voz verbal nas manchetes. Esse campo possibilita a inserção de qual tipo de voz verbal os verbos da manchete apresentam, ativa ou passiva.

Teste e validação

Visando o teste e validação da ferramenta, foram coletadas e analisadas 200 notícias, divididas em duas buscas no site da infonet. No campo de pesquisa do site, foram feitas as seguintes buscas:

  • "Homem é"
  • "Mulher é"

Com os links resultantes da pesquisa, foi realizado o scraping e armazenamento dos dados coletados. Após a extração, foram realizadas as análises das manchetes para identificação da voz verbal. Os resultados dos testes encontram-se nas pastas dados e análises.