Extraindo e analisando notícias da Infonet

Com o objetivo de coletar dados de notícias publicadas na Infonet, um grande portal de notícias do estado de Sergipe, foi construído o Infonet Scraping.ipynb. O Jupyter Notebook que se encontra nesse repositório conta com técnicas de Web Scraping para a extração e armazenamento de dados das notícias, tais como título, texto e autoria.

Para além da extração dos dados, foi implementado um campo específico dentro do Notebook para a análise de voz verbal nas manchetes. Esse campo possibilita a inserção de qual tipo de voz verbal os verbos da manchete apresentam, ativa ou passiva.

Teste e validação

Visando o teste e validação da ferramenta, foram coletadas e analisadas 200 notícias, divididas em duas buscas no site da infonet. No campo de pesquisa do site, foram feitas as seguintes buscas:

"Homem é"
"Mulher é"

Com os links resultantes da pesquisa, foi realizado o scraping e armazenamento dos dados coletados. Após a extração, foram realizadas as análises das manchetes para identificação da voz verbal. Os resultados dos testes encontram-se nas pastas dados e análises.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Extraindo e analisando notícias da Infonet

Teste e validação

Files

README.md

Latest commit

History

README.md

File metadata and controls

Extraindo e analisando notícias da Infonet

Teste e validação