Skip to content

Library of hate speech detected in digital news media in Spain, the result of the "Hatemedia" project (project PID2020-114584GB-I00), financed by MCIN/ AEI /10.13039/501100011033

License

Notifications You must be signed in to change notification settings

esaidh266/Hate-Speech-Library-in-Spanish

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 

Repository files navigation

Hate-Speech-Library-in-Spanish

Library of hate speech detected in digital news media in Spain, the result of the "Hatemedia" project (project PID2020-114584GB-I00), financed by MCIN/ AEI /10.13039/501100011033.

The database shows 7,210 more repeated simple and compound lemmas, and from the semantic point of view tend to be hated in digital news media in Spain. The preparation of this final document required the following phases:

  1. LABELING OF EXPRESSIONS AND EXTRACTION OF LEMMAS. In the first phase, a total of 1,100,742 messages associated with digital news media in Spain were collected during January, of which a total of 776,356 messages were excluded because they were duplicated or repeated, leaving a total of 324,395 messages in which 4.06% of these were associated with expressions that tended to hate. Stop-words were removed from the total number of messages identified. Anomalous data (that did not belong to a known language or were diminutive) were identified and manually reviewed to identify simple and compound slogans that tended towards hatred.
  2. IDENTIFICATION OF DUPLICATES: In the first phase, two lists were made, the first of simple lemmas and the second of compound lemmas. The first step was to filter these two lists to identify repeated lemmas, obtaining these two libraries where each lemma appears only once.
  3. DDBB INTEGRATION: Next, in the third phase, we proceeded to join both libraries to build a final library that integrated all the lemmas, both simple and compound. Finally, final filtering was done to ensure the lemmas were not repeated.

The dataset that has been used to build this library:

  • Said-Hung, Elias; Montero-Diaz, julio; Blanco, Xiomara; Ruiz-Iniesta, Almudena; Pérez Palau, Daniel; De Gregorio Vicente, Oscar; et al. (2024). Dataset usado para entrenamientos de modelos de algoritmos de clasificación de odio, por tipos e intensidades (Dataset used to train hate classification algorithm models by types and intensities). figshare. Dataset. https://doi.org/10.6084/m9.figshare.26085700.v1

Authors:

  • Elias Said-Hung, Max Römer Pieretti, Julio Montero-Díaz, Alberto De Lucas, Javier Martínez Torres.

Supported by:

  • POSSIBLE S.L.

For more information:

How to cite:

  • Said-Hung, E., Römer Pieretti, M., Montero-Diaz, . julio ., De Lucas Vicente, A., & Torres, J. M. (2023). Hate Speech Library in Spanish / Librería de odio en Español (Version 2). figshare. https://doi.org/10.6084/m9.figshare.22383643.v2

Librería de expresiones de odio detectado en medios informativos digitales en España, resultado del proyecto "Hatemedia" (proyecto PID2020-114584GB-I00), financiado por MCIN/ AEI /10.13039/501100011033.

Las base de dato muestra 7.210 lemas simples y compuestos más repetidos y que desde el punto de vista semántico tienden al odio en medios informativos digitales en España. La elaboración de este documento final, requirió las siguientes fases:

  1. ETIQUETADO DE EXPRESIONES Y EXTRACCIÓN DE LEMAS. En la primera fase, se recolectaron durante el mes de enero un total de 1.100.742 mensajes asociados a medios informativos digitales en España, de los cuales se excluyeron un total de 776.356 mensajes por estar duplicados o repetidos; quedando un total de 324.395 mensajes en el que un 4,06% de estos estaban asociados con expresiones que tendían al odio. Del total de mensajes identificados se eliminaron stop-words, se identificaron datos anómalos (que no pertenecían a un idioma conocido o eran diminutivos de éste) y se revisaron manualmente para identificar tanto los lemas simples como compuestos que tendían al odio.
  2. IDENTIFICACIÓN DE DUPLICADOS: En la primera fase se realizaron dos listados, el primero de lemas simples y el segundo de lemas compuestos. El primer paso fue filtrar estas dos listas para identificar lemas repetidos, obteniendo estas dos bibliotecas donde cada lema aparece una sola vez.
  3. INTEGRACIÓN BBDD: A continuación, en la tercera fase, se procedió a unir ambas bibliotecas para construir una biblioteca final que integrara todos los lemas, tanto simples como compuestos. Finalmente, se realizó un filtrado final para asegurar que no se repitan los lemas.

El dataset que se ha utilizado para la construcción de esta librería:

  • Said-Hung, E., Montero-Diaz, . julio ., Blanco, X., Ruiz-Iniesta, A., Pérez Palau, D., De Gregorio Vicente, O., & José Cubillas, J. (2024). Dataset usado para entrenamientos de modelos de algoritmos de clasificación de odio, por tipos e intensidades (Dataset used to train hate classification algorithm models by types and intensities) (Version 1). figshare. https://doi.org/10.6084/m9.figshare.26085700.v1

Autores:

  • Elias Said-Hung, Max Römer Pieretti, Julio Montero-Díaz, Alberto De Lucas, Javier Martínez Torres.

Apoyado por:

  • POSIBLE S.L.

Para más información:

Cómo citar:

  • Said-Hung, E., Römer Pieretti, M., Montero-Diaz, . julio ., De Lucas Vicente, A., & Torres, J. M. (2023). Hate Speech Library in Spanish / Librería de odio en Español (Version 2). figshare. https://doi.org/10.6084/m9.figshare.22383643.v2

About

Library of hate speech detected in digital news media in Spain, the result of the "Hatemedia" project (project PID2020-114584GB-I00), financed by MCIN/ AEI /10.13039/501100011033

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages