Spanish hate-speech detection in football
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/137094
Título: | Spanish hate-speech detection in football |
---|---|
Título alternativo: | Detección de odio en futbol en español |
Autor/es: | Montesinos-Cánovas, Esteban | García-Sánchez, Francisco | García-Díaz, José Antonio | Alcaraz Mármol, Gema | Valencia García, Rafael |
Palabras clave: | Hate speech detection | Large Language Models | Linguistic features | Interpretability | Discurso de odio | Modelos del lenguaje | Características lingüísticas | Interpretabilidad |
Fecha de publicación: | sep-2023 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | Procesamiento del Lenguaje Natural. 2023, 71: 15-27. https://doi.org/10.26342/2023-71-1 |
Resumen: | In the last few years, Natural Language Processing (NLP) tools have been successfully applied to a number of different tasks, including author profiling, negation detection or hate speech detection, to name but a few. For the identification of hate speech from text, pre-trained language models can be leveraged to build high-performing classifiers using a transfer learning approach. In this work, we train and evaluate state-of-the-art pre-trained classifiers based on Transformers. The explored models are fine-tuned using a hate speech corpus in Spanish that has been compiled as part of this research. The corpus contains a total of 7,483 football-related tweets that have been manually annotated under four categories: aggressive, racist, misogynist, and safe. A multi-label approach is used, allowing the same tweet to be labeled with more than one class. The best results, with a macro F1-score of 88.713%, have been obtained by a combination of the models using Knowledge Integration. | En los últimos años, el Procesamiento del Lenguaje Natural (PLN) se ha aplicado con éxito a diversas tareas, como la elaboración de perfiles de autor, la detección de negaciones o la detección de discursos de odio. Para la identificación de odio a partir de texto, es posible explotar modelos del lenguaje preentrenados que permitan construir clasificadores de alto rendimiento utilizando un enfoque de aprendizaje por transferencia (en inglés, transfer learning). En este trabajo, se presentan los resultados de entrenar y evaluar clasificadores preentrenados de última generación basados en Transformers. Los modelos explorados se ajustan (en inglés, fine tune) utilizando un corpus en español sobre el discurso de odio en el futbol que se ha compilado como parte de esta investigación. El corpus contiene un total de 7.483 tuits relacionados con el futbol que han sido anotados manualmente bajo cuatro categorías: agresivo, racista, misógino y seguro. Se utilizó un enfoque multietiqueta, que permite etiquetar el mismo tuit con más de una clase. Los mejores resultados, con un macro F1-score del 88,713%, se han obtenido mediante una combinación de los modelos utilizando la estrategia de Knowledge Integration. |
Patrocinador/es: | This work is part of the research projects AIInFunds (PDC2021-121112-I00) and LT-SWM (TED2021-131167B-I00) funded by MCIN/AEI/10.13039/501100011033 and by the European Union NextGenerationEU/PRTR. This work is also part of the research project LaTe4PSP (PID2019-107652RB-I00/AEI/10.13039/501100011033) funded by MCIN/AEI/10.13039/501100011033. |
URI: | http://hdl.handle.net/10045/137094 |
ISSN: | 1135-5948 |
DOI: | 10.26342/2023-71-1 |
Idioma: | eng |
Tipo: | info:eu-repo/semantics/article |
Derechos: | © Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 |
Revisión científica: | si |
Versión del editor: | https://doi.org/10.26342/2023-71-1 |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 71 (2023) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_71_01.pdf | 1,22 MB | Adobe PDF | Abrir Vista previa | |
Este ítem está licenciado bajo Licencia Creative Commons