Predicción de gestos no-verbales usando aprendizaje profundo

Enrique Fernández Rodicio; Christian Dondrup; Javier Sevilla Salcedo; Álvaro Castro González; María de los Ángeles Malfaz Vázquez

Ayuda

Predicción de gestos no-verbales usando aprendizaje profundo

Fernández Rodicio, Enrique ^[1] ; Dondrup, Christian ^[2] ; Sevilla Salcedo, Javier ^[1] ; Castro-González, Álvaro ^[1] ; Malfaz, Maria ^[1]
1. [1] Universidad Carlos III de Madrid
  
  Universidad Carlos III de Madrid
  
  Madrid, España
2. [2] Heriot-Watt University
  
  Heriot-Watt University
  
  Reino Unido
Localización: XLIV Jornadas de Automática: libro de actas: Universidad de Zaragoza, Escuela de Ingeniería y Arquitectura, 6, 7 y 8 de septiembre de 2023, Zaragoza / coord. por José Manuel Andújar Márquez, Ramón Costa Castelló, Alejandro R. Mosteo, Vanesa Loureiro-Vázquez, Elisabet Estévez Estévez, David Muñoz de la Peña Sequedo, Carlos Vilas Fernández, Luis Enrique Montano Gella, Pedro Jesús Cabrera Santana, Raúl Marín, Eduardo Rocón de Lima, Manuel Gil Ortega Linares, Óscar Reinoso García, Luis Payá Castelló, 2023, ISBN 9788497498609, págs. 587-592
Idioma: español
Títulos paralelos:
- Non-verbal gesture prediction using deep learning
Enlaces
- Texto completo
Resumen
- español
  En años recientes, la robótica está empezando a usarse fuera de aplicaciones industriales, y los robots empiezan ya a tomar parte en tareas que requieren interactuar con personas. Para que estas interacciones resulten naturales, es necesario que el robot sea capaz de ejecutar expresiones de forma autónoma. En situaciones donde el robot está hablando, los gestos no verbales que ejecute deben apoyar el mensaje comunicativo de la componente verbal, y ambas componentes deben estar sincronizadas apropiadamente. En este trabajo presentamos un sistema de predicción de gestos no verbales para robots sociales basado en uno de los avances más significativos en años recientes en el campo del aprendizaje profundo: el modelo transformer. Esta solución será comparada con un modelo previo que combina redes recurrentes con campos aleatorios condicionales para resolver la misma tarea. Los resultados de la comparación de ambos modelos indican que, al igual que en otras tareas de procesamiento del lenguaje natural, los transformers presentan una clara mejora a la hora de resolver la tarea de predecir gestos no verbales para robots sociales.
- English
  In recent years, robotics is starting to expand beyond industrial applications, and robots are starting to take part in tasks that require interacting with human beings. For this interactions to be natural for the users, it is necessary that the robots are capable of performing expressions autonomously. In situations where the robot is speaking, the non-verbal gestures performed by the robot must also support the communicative message expressed by the verbal component, and both components should be properly synchronized. In this work, we present a gesture prediction system for social robots based in one of the most significant advances in the area of deep learning: the transformer model. This solution will be compared with a previous system based on a combination of recurrent neural networks and conditional random fields. The results of the comparison conducted show that, as it is the case for other tasks in the field of natural language processing, transformers present a clear improvement for the task of predicting non-verbal expressions for social robots.