Skip to content

Latest commit

 

History

History
30 lines (22 loc) · 1.15 KB

File metadata and controls

30 lines (22 loc) · 1.15 KB

Datasets de noticias en español

Este repositorio contiene una colección extensa de noticias en formato JSON, en idioma español. Estos archivos pueden ser utilizados para entrenar modelos de Machine Learning.

bulk1.zip

Cada archivo sigue el siguiente formato: { "Id":"" "Author":"", "Title":"Titulo", "Content":"", "PublishedDate":1575705600, "Keywords":[""] }

all_articles_token.csv

Csv con noticias sobre feminicidios y noticias regulares, el contenido de la noticia esta pre-procesado por un lematizador y se han eliminado las stopwords.

balanced_articles.csv

Csv con noticias sobre feminicidios y noticias regulares, el contenido de la noticia esta pre-procesado por un lematizador y se han eliminado las stopwords. El # de noticias por cada grupo es exactamente la misma cantidad: 486 articulos sobre fmeinicidios y no sobre feminicidios.

news.db

Base de datos de SQLITE, puedes cargarla con https://sqliteonline.com/ y mirar el contenido, te dejo SQL:

image

femicide_clean_data.csv

Noticias sobre feminicidos extraidos del mapa de feminicidios de Maria Salguero