Optimizing Few-Shot Learning Through a Consistent Retrieval Extraction System for Hate Speech Detection

Ronghao Pan; José Antonio García Díaz; Rafael Valencia García

Ayuda

Optimizing Few-Shot Learning Through a Consistent Retrieval Extraction System for Hate Speech Detection

Autores: Ronghao Pan, José Antonio García Díaz, Rafael Valencia García
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 74, 2025, págs. 241-252
Idioma: inglés
Títulos paralelos:
- Optimización de Few-Shot Learning mediante un Sistema de Extracción Coherente para la Detección Del Discurso de Odio
Enlaces
- Texto completo
Resumen
- español
  El discurso de odio es un fenómeno presente en redes sociales que supone un grave riesgo para la cohesión social y la seguridad en Internet. Su detección es fundamental para mitigar estos efectos, pero los enfoques basados en ajustar grandes modelos del lenguaje son costosos y propensos al sobreajuste debido a los sesgos de los datos de entrenamiento. El in-context learning, que utiliza modelos preentrenados con instrucciones y ejemplos durante la inferencia, es una alternativa prometedora. Sin embargo, el in-context learning carece de estrategias claras para seleccionar qué ejemplos son relevantes. En este trabajo se propone un sistema de selección inteligente para seleccionar ejemplos basado en diversidad e incertidumbre, mejorando los resultados de elegir estos ejemplos al azar o un baseline de evaluar el modelo sin ejemplos. Nuestra propuesta se ha evaluado en cuatro corpus de discurso de odio en español y los resultados mejoran consistentemente, destacando los modelos Gemma-2-2b y Gemma-2-9b. En casos específicos, el conocimiento preentrenado de ciertos modelos beneficia al aprendizaje sin ejemplos, pero, en general, nuestra propuesta demuestra ser una solución eficaz y adaptable.
- English
  Hate speech is a growing phenomenon on social media, posing significant risks to social cohesion and online safety. Its detection is crucial to mitigate these effects, but fine-tuning-based approaches are costly and prone to overfitting due to biases in the training data. In-context learning, which uses pre-trained models with instructions and examples during inference, is emerging as a promising alternative, although it lacks clear strategies for selecting relevant examples. This work proposes an intelligent example selection system for Few-Shot Learning (FSL) based on diversity and uncertainty metrics, which optimizes recognition compared to Zero-Shot Learning (ZSL) and Random FSL methods. Our approach was evaluated on four Spanish hate speech datasets. This strategy consistently improves the results, with the Gemma-2-2b and Gemma-2-9b models excelling across different datasets. In specific cases, the pre-trained knowledge of certain models benefits ZSL, but overall our proposal proves to be an effective and adaptable solution.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: