Mejora unimodal a nivel de características en el dataset multimodal CMU-MOSEI: Características no correlacionadas y convolucionadas

Daniel Mora Melanchthon

Ayuda

Mejora unimodal a nivel de características en el dataset multimodal CMU-MOSEI: Características no correlacionadas y convolucionadas

Autores: Daniel Mora Melanchthon
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 67, 2021, págs. 69-81
Idioma: español
Títulos paralelos:
- Unimodal Feature-level improvement on Multimodal CMU-MOSEI Dataset:: Uncorrelated and Convolved Feature Sets
Enlaces
- Texto completo
Resumen
- español
  Este estudio investiga dos caminos con el fin de mejorar las características unimodales que son utilizadas para el reconocimiento de emociones en el dataset multimodal CMU-MOSEI. El primer camino es la selección de características basado en la correlación de Spearman al interior de cada modalidad (textual, acústica, visual). El segundo camino es utilizando una Red Neuronal Convolucional (CNN) para extraer características unimodales que sean relevantes para el reconocimiento de emociones. Los experimentos comparan los distintos sets de características utilizando un Bosque Aleatorio (Random Forest). Los resultados muestran, primero, que el uso de características unimodales no correlacionadas no modifican el resultado del modelo, lo que permite reducir la cantidad de parámetros, tiempo de entrenamiento y almacenamiento computacional. Segundo, el uso de características generadas por el modelo de Redes Neuronales Convolucionadas utilizadas en un Bosque Aleatorio sí genera mejoras para la modalidad acústica, lo que sugiere que futuras mejoras puedan desarrollarse en esta línea.
- English
  This study investigates unimodal features –BERT embeddings (text), eGeMAPs (acoustic), and openFace set (visual)– used on the multimodal CMUMOSEI dataset for Emotion Recognition in order to seek unimodal feature-level improvements. Two approaches are investigated: feature selection by hierarchically clustering each set according to their Spearman correlation value, and the use of Convolutional Neural Network (CNN) models to act as emotion feature extractors. Experiments are performed with Random Forest (RF). Main results show, firstly, that the use of uncorrelated feature sets tend to not change model’s performance, allowing for trainable parameters, training time, and storage requirements reduction. Secondly, the direct use of CNN-embeddings with RF models yields improvements for acoustic modality, which suggests that major improvements could be sought through embedding acoustic features.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: