Ayuda
Ir al contenido

Dialnet


LLM for Untargeted Adversarial Attack Against Language Models in Spanish

  • Autores: Adrián Moreno Muñoz, Luis Alfonso Ureña López, Eugenio Martínez Cámara
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 75, 2025 (Ejemplar dedicado a: Procesamiento del Lenguaje Natural, Revista nº 75, septiembre de 2025), págs. 317-336
  • Idioma: inglés
  • Títulos paralelos:
    • Ataque de Adversario sin Objetivo Específico Basado en LLM Contra Modelos de Lenguaje en Español
  • Enlaces
  • Resumen
    • español

      Los modelos de lenguaje presentan vulnerabilidades de seguridad inherentes donde incluso modificaciones sutiles en las entradas pueden manipular sus salidas, estas debilidades representan una preocupación significativa. Esta investigación explora ataques adversarios sin objetivo específico contra modelos de lenguaje en español utilizando un enfoque de dos etapas: identificar palabras influyentes en el proceso de toma de decisiones y reemplazarlas con sinónimos apropiados. Las pruebas realizadas en diversos conjuntos de datos contra modelos preentrenados revelan que los modelos generativos, guiados por palabras relevantes seleccionadas mediante XAI, pueden alterar significativamente las predicciones de estos modelos de lenguaje.

    • English

      Language models face inherent security vulnerabilities where even subtle input modifications can manipulate their outputs, these weaknesses represent a significant concern. This research explores untargeted adversarial attacks against Spanish language models using a two-stage approach: identifying influential words in the decision-making process and replacing them with appropriate synonyms. The evaluation of the attack against pre-trained Spanish language models reveals that generative models, guided by XAI-selected salient words, can significantly alter their predictions.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno