Ayuda
Ir al contenido

Dialnet


Automatic and Manual Evaluation of a Spanish Suicide Information Chatbot

  • Autores: Pablo Ascorbe Fernández, María Soledad Campos Burgui, César Domínguez, Jónathan Heras Vicente, Magdalena Pérez, Ana Rosa Terroba Reinares
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 73, 2024, págs. 151-164
  • Idioma: inglés
  • Títulos paralelos:
    • Evaluación automática y manual de un chatbot para proporcionar información sobre suicidio en castellano
  • Enlaces
  • Resumen
    • español

      Los chatbots tienen un gran potencial en campos delicados como la salud mental, pero para asegurar su correcto funcionamiento es necesaria una evaluación cuidadosa, ya sea por métodos manuales o por métodos automáticos. En este trabajo se presenta una librería para evaluar automáticamente chatbots en castellano de Generación Mejorada por Recuperación (en ingles Retrieval Augmented Generation o RAG) utilizando grandes modelos de lenguaje (en inglés, LLMs). A continuación, se realiza una evaluación exhaustiva de varios modelos candidatos a ser utilizados en un sistema RAG para proporcionar información sobre la prevención del suicidio, utilizando una evaluación manual, una automática basada en métricas y una automática basada en LLMs. Todos los métodos coinciden al escoger el mejor modelo, pero presentan sutiles diferencias. Los métodos automáticos basados en métricas se correlacionan en precisión y exhaustividad con la evaluación humana, pero no en fidelidad; y algunos métodos automáticos basados en LLMs no detectan algunos errores, como respuestas no relacionadas con la pregunta; o pueden pasar por alto respuestas inseguras. Como conclusión, podemos decir que los métodos automáticos pueden reducir el esfuerzo de evaluación manual, no obstante, ´esta sigue siendo esencial, sobre todo en contextos sensibles como los relacionados con la salud mental.

    • English

      Chatbots have a great potential in sensitive fields like mental health; however, a careful evaluation, either by manual or automatic methods is a must to ensure the reliability of these systems. In this work, a library for automatically evaluating Spanish Retrieval Augmented Generation (RAG) chatbots using Large Language Models (LLMs) is presented. Then, a thorough analysis of several LLMs candidates to be used in a RAG system which provides suicide prevention information is conducted. Towards that aim, we use a manual evaluation, an automatic evaluation based on metrics, and an automatic evaluation based on LLMs. All evaluation methods agree on a preferred model, but they exhibit subtle differences. Automatic methods may overlook unsafe answers; the automatic methods based on metrics are correlated on precision and completeness with human evaluation but not on faithfulness; and some automatic methods based on LLMs do not detect some errors. As a general conclusion, even if automatic methods can reduce manual evaluation efforts, manual evaluation remains essential, particularly in sensitive contexts like those related to mental health.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno