Ayuda
Ir al contenido

Dialnet


Optimizing Few-Shot Learning Through a Consistent Retrieval Extraction System for Hate Speech Detection

  • Autores: Ronghao Pan, José Antonio García Díaz, Rafael Valencia García
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 74, 2025, págs. 241-252
  • Idioma: inglés
  • Títulos paralelos:
    • Optimización de Few-Shot Learning mediante un Sistema de Extracción Coherente para la Detección Del Discurso de Odio
  • Enlaces
  • Resumen
    • español

      El discurso de odio es un fenómeno presente en redes sociales que supone un grave riesgo para la cohesión social y la seguridad en Internet. Su detección es fundamental para mitigar estos efectos, pero los enfoques basados en ajustar grandes modelos del lenguaje son costosos y propensos al sobreajuste debido a los sesgos de los datos de entrenamiento. El in-context learning, que utiliza modelos preentrenados con instrucciones y ejemplos durante la inferencia, es una alternativa prometedora. Sin embargo, el in-context learning carece de estrategias claras para seleccionar qué ejemplos son relevantes. En este trabajo se propone un sistema de selección inteligente para seleccionar ejemplos basado en diversidad e incertidumbre, mejorando los resultados de elegir estos ejemplos al azar o un baseline de evaluar el modelo sin ejemplos. Nuestra propuesta se ha evaluado en cuatro corpus de discurso de odio en español y los resultados mejoran consistentemente, destacando los modelos Gemma-2-2b y Gemma-2-9b. En casos específicos, el conocimiento preentrenado de ciertos modelos beneficia al aprendizaje sin ejemplos, pero, en general, nuestra propuesta demuestra ser una solución eficaz y adaptable.

    • English

      Hate speech is a growing phenomenon on social media, posing significant risks to social cohesion and online safety. Its detection is crucial to mitigate these effects, but fine-tuning-based approaches are costly and prone to overfitting due to biases in the training data. In-context learning, which uses pre-trained models with instructions and examples during inference, is emerging as a promising alternative, although it lacks clear strategies for selecting relevant examples. This work proposes an intelligent example selection system for Few-Shot Learning (FSL) based on diversity and uncertainty metrics, which optimizes recognition compared to Zero-Shot Learning (ZSL) and Random FSL methods. Our approach was evaluated on four Spanish hate speech datasets. This strategy consistently improves the results, with the Gemma-2-2b and Gemma-2-9b models excelling across different datasets. In specific cases, the pre-trained knowledge of certain models benefits ZSL, but overall our proposal proves to be an effective and adaptable solution.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno