Resumen de Tackling the challenge of emotion annotation in text

Ayuda

Resumen de Tackling the challenge of emotion annotation in text

Lea Canales Zaragoza

1. Introducción Como parte esencial de las relaciones humanas, el análisis de las emociones ha sido un tema cautivador en disciplinas como: la neurociencia, la ciencia cognitiva, la psicología o las ciencias de la conducta. Este interés también ha atraído a investigadores del campo de Inteligencia artificial (del inglés AI, AI), ya que las emociones son cruciales para mejorar la experiencia de los usuarios en la Comunicación mediante ordenadores (del inglés CMC, CMC) y la Iteracción persona-ordenador (del inglés HCI, HCI) (Cowie2001), donde el lenguaje juega un rol importante.

El lenguaje es un medio de comunicación humano, tanto escrito como hablado, para expresar nuestras ideas, nuestros pensamientos y más importante, nuestras emociones. Basándonos en las funciones del lenguaje definidas por el modelo de (Jakobson1960), se puede observar la importancia de la relación entre lenguaje y emoción, ya que identifica la función emotiva como una de las seis funciones del lenguaje. Por lo tanto, el lenguaje es una poderosa herramienta para comunicar y transmitir nuestras emociones.

En el campo HCI, el análisis emocional ha sido evaluado usando diferentes Interfaces de usuario (del inglés UI, UI) como: las expresiones faciales, la voz y el texto (Kim2011. La importancia del texto como medio de comunicación con los ordenadores se ha incrementado notablemente con la aparición de la Web 2.0 o la Web social (del inglés Social Web). A diferencia de la Web 1.0 donde los usuarios eran agentes pasivos que se limitaban a leer o recibir información, la Web 2.0 les permite comunicarse y compartir información en Internet usando los ordenadores, teléfonos móviles o cualquier dispositivo con conexión a Internet. Hay muchas plataformas de redes sociales como: Facebook, Instragram o Youtube; Blogs como la plataforma Blogger o WordPress donde la gente publica sus experiencias en diferentes publicaciones; o servicios de microblogging como Twitter que son blogs donde los usuarios comparten pequeños fragmentos sobre sus ideas o pensamientos (frases, imágenes o videos) (kaplan2011).

Como muestran las estadísticas, el fenómeno de las plataformas sociales se ha extendido a través de todo el mundo y rápidamente, ha atraído millones de usuarios (Farzindar2015). Por ejemplo, el último ranking sobre el uso de redes sociales publicado por Statista, el portal de estadísticas más grande del mundo, publicado en enero de 2018, sitúa a Facebook como la red social con más usuarios (2.167 millones), en segundo lugar está YouTube con 1.500 millones usuarios e Instragram se sitúa en séptimo lugar con más de 800 millones de usuarios activos. Como consecuencia y debido al uso masivo de estas redes sociales por parte de los usuarios, ha habido un crecimiento exponencial de la información subjetiva en la Web 2.0.

De forma paralela al crecimiento de la información subjetiva, investigadores en Procesamiento del Lenguaje Natural (PLN) (del inglés NLP, NLP) han mostrado un creciente interés en desarrollar métodos para extraer automáticamente el conocimiento de estas nuevas fuentes. El PLN es un campo de investigación que se ocupa de la investigación de mecanismos eficaces computacionalmente para la comunicación entre personas y máquinas por medio de lenguajes naturales. Dada la importancia de las emociones en el lenguaje, dentro del PLN ha nacido una sub-disciplina cuyo objetivo es la identificación y extracción de la subjetividad y contenido emocional del texto, llamada Análisis de Sentimientos (AS) (del inglés SA, SA).

El objetivo principal del AS es la identificación de sentimientos, opiniones y emociones en el texto. La mayoría de los trabajos en esta disciplina se han centrado tradicionalmente en el reconocimiento de la polaridad del sentimiento (POSITIVO, NEGATIVO, NEUTRO). Estos trabajos se enmarcan dentro de la tarea de Minería de Opiniones (del inglés OP, OP). Sin embargo, el reconocimiento de tipos de emociones como categorías emocionales (IRA, ASCO, MIEDO, etc.) o dimensiones emocionales (placer, activación, dominancia) ha aumentado recientemente, ya que reconocer las emociones trasmitidas por un texto puede conducir a una mejor compresión del contenido del texto (Aman2007b. Este análisis es conocido como Reconocimiento de Emociones (RE) (del inglés ER, ER) y es donde se enmarca este trabajo de tesis.

Recientemente, ha habido un interés creciente en el RE en el texto por parte de la comunidad científica, debido principalmente a la aparición de los nuevos géneros de la Web 2.0 y su potencial para aportar beneficios sustanciales a diferentes sectores como la prevención del suicidio (Cherry2012, Desmet2013), identificación de casos de ciberacoso (Dadvar2013), o las aportaciones en la mejora de la motivación de los estudiantes (Montero2014).

1.1. Motivación La tarea de RE en texto escrito ha sido abarcada utilizando diferentes técnicas de PLN, incluyendo el uso de Aprendizaje automático (del inglés ML, ML), métodos basados en reglas o aproximaciones basadas en conocimiento. Sin embargo, la mayoría de ellas se han basado en algoritmos de aprendizaje automático, debido principalmente a su escalabilidad, capacidad de aprendizaje y su rápido desarrollo.

El Aprendizaje automático es una disciplina científica cuyo objetivo es desarrollar y estudiar algoritmos que permitan a los ordenadores aprender a partir de la experiencia. Esta experiencia son datos que los algoritmos utilizan para mejorar el rendimiento o para hacer predicciones precisas (Mohri2012). Este conjunto de datos, llamado datos de entrenamiento (del inglés training data) debe ser etiquetado cuando usamos aprendizaje automático supervisado, mientras que el aprendizaje no supervisado recibe datos no anotados. El escenario más común en el RE en texto es el uso de algoritmos de aprendizaje automático supervisados ya que estos algoritmos conducen a mejores resultados que el resto de alternativas.

Centrándonos en el RE en texto, los algoritmos de aprendizaje supervisado consisten en inferir una función a partir de un conjunto de datos anotados con la emoción correcta (datos de entrenamiento). Después del entrenamiento, el modelo es capaz de predecir la emoción de nuevos ejemplos. El éxito de las predicciones hechas por el modelo dependen directamente de la calidad y el tamaño de nuestros datos de entrenamiento. Por lo tanto, el conjunto de datos utilizado en el entrenamiento es crucial para la creación de un sistema de RE preciso que pueda generar resultados fiables.

Este requisito de calidad y tamaño del conjunto de entrenamiento es incluso más importante en la nueva disciplina de Aprendizaje profundo (del inglés DL, DL). Es una parte de la familia de algoritmos de Aprendizaje automático que utiliza un nivel jerárquico de redes neuronales para realizar el proceso de aprendizaje (Deng2014). Una de las características más relevantes de este tipo de algoritmos es que no necesitan un proceso de diseño de características. Sin embargo, esta propiedad implica que el conjunto de datos de entrenamiento de las arquitecturas de Aprendizaje profundo requieren mayores cantidades de datos que los algoritmos tradicionales de Aprendizaje automático.

Sin embargo, la creación de un conjunto de datos etiquetas para el RE en texto no es trivial, ya que la detección de emociones en texto puede ser difícil incluso para los seres humanos, porque los contextos personales de cada persona pueden influir en la interpretación de las emociones. Muchas de las investigaciones llevadas a cabo hasta el momento, han mostrado las dificultades relacionadas con esta tarea, como: la detección de un buen Acuerdo entre anotadores (del inglés IAA, IAA) o el tiempo necesario para su desarrollo. Como consecuencia, la obtención de datos con contenido emocional se ha convertido en una de las tareas más desafiantes de la sub-disciplina de RE en texto.

1.2. Definición del problema y objetivo Teniendo en cuenta las dificultades del RE en texto y con el fin de disminuir y contrarrestar el desafío de la anotación de emociones, esta investigación abarca el análisis de diferentes aproximaciones semiautomáticas con el objetivo de mejorar la anotación de emociones en texto escrito. Más específicamente, se han investigado dos técnicas que han demostrado su usabilidad y efectividad en otras tareas de PLN: bootstrapping basado en IL y un proceso de pre-anotación.

Estas técnicas han sido evaluadas con el objetivo de proporcionar un método capaz de anotar eficientemente grandes cantidades de texto en inglés en cualquier género textual y con sólidos estándares de fiabilidad. Estos requisitos incrementan la dificultad de la tarea debido a que se ha abarcado desde un punto de vista general, es decir, independientemente del género y del conjunto de etiquetas emocionales empleadas.

La tarea de anotación de emociones se lleva a cabo a nivel de frase porque en géneros como blogs o cuentos, un análisis más detallado es beneficioso, ya que a menudo hay una progresión de las emociones en el texto narrativo (Kim2011). Además, en redes sociales como Twitter o Facebook, las personas expresan sus opiniones y/o emociones a través de comentarios cortos. El conjunto de etiquetas empleado son las seis emociones básicas definidas por (Ekman1992): IRA, ASCO, MIEDO, ALEGRíA, TRISTEZA, y SORPRESA, porque este ha sido el conjunto de emociones más empleado en los enfoques computacionales y además, es el más aceptado por diferentes investigadores, como veremos en el próximo capítulo. Existen diferentes perspectivas desde las cuales se pueden analizar las emociones en el texto: escritor, lector, texto. La perspectiva del escritor se refiere a cómo se siente alguien mientras produce una afirmación, mientras que la perspectiva del lector es cómo se siente alguien después de leer un texto. Por último, en cuanto a la perspectiva del texto no se especifica a ninguna persona real en cuanto a la percepción de una emoción y se considera que la emoción es una propiedad intrínseca de una oración. Nuestros enfoques se han desarrollado teniendo en cuenta la perspectiva del texto porque nuestro objetivo es analizar la orientación emocional del texto en sí mismo, sin considerar el contexto emocional del escritor o lector.

2. Contribuciones Las aportaciones de la presente investigación son descritos de una manera breve en esta sección. En concreto estos aportes se pueden agrupar en dos grandes bloques:

- la aplicación de la técnica bootstrapping basada en IL en la tarea de anotación de emociones en texto, desarrollada en el Capítulo 4; y - el desarrollo de una nueva metodología de etiquetado de emociones semiautomática: EmoLabel, la cual es presentada en el Capítulo 5.

Los siguientes apartados resumen de manera breve las propuestas, desarrollos y resultados obtenidos para cada una de las aportaciones.

2.1. Intensional Learning para la anotación de emociones Nuestra primera aproximación para abarcar y mejorar la tarea de anotación de emociones en texto es una aproximación bootstrapping basada en IL, previamente propuesta por (Gliozzo2009), que consta de dos pasos principales:

- Paso 1 Categorización inicial basada en similitud. Este paso se aborda aplicando un criterio de similitud entre una semilla etiquetada inicialmente y cada oración no anotada. El resultado de este paso es una categorización inicial de los documentos no anotados.

- Paso 2 Entrenamiento de un clasificador supervisado con una o más iteraciones utilizando el conjunto de datos categorizado en el paso anterior. La salida del paso 1 se utiliza para entrenar un clasificador supervisado. En este paso se pueden utilizar diferentes algoritmos como Máquinas de vector de soporte (del inglés SVM, SVM) o Naive Bayes.

A diferencia de las aproximaciones tradicionales de bootstrapping basadas en ejemplos, conocidos como EL en la terminología de la teoría de la computabilidad, IL se basa en el método clásico de clasificación basado en reglas, donde el usuario especifica reglas de clasificación exactas que operan en el espacio de características. Esta propiedad es particularmente relevante para el RE en texto, ya que en EL, el hecho de que los ejemplos sean anotados manualmente por humanos implicada que el contexto personal de cada uno de ellos puede influir en la interpretación de las emociones. Sin embargo, en IL, la influencia de la comprensión personal de las emociones se reduce, ya que su participación se limita a la definición de las reglas.

Dada esta característica y teniendo en cuenta nuestro objetivo de desarrollar técnicas eficientes capaces de construir corpus con contenido emocional en diferentes géneros, el trabajo presentado en este Capítulo ha consistido en el diseño y evaluación de una propuesta de IL para la anotación de emociones en texto. Concretamente, nuestra propuesta consiste en:

- Paso 1 Categorización inicial basada en similitud. En nuestro enfoque, este paso está compuesto por dos sub-pasos no supervisados: - Paso 1.1: creación de la semilla etiquetada inicialmente. Para ello, en este paso se emplea un lexicón emocional y las frases son anotadas en función de las palabras emocionales que contengan.

- Paso 1.2: extensión de la semilla inicial obtenida en el Paso 1.1 utilizando una métrica de similitud semántica entre oraciones.

- Paso 2 Entrenamiento de un clasificador supervisado con una o más iteraciones utilizando el conjunto de datos categorizado en el paso anterior. Nuestro enfoque utiliza un clasificador supervisado SVM con una iteración.

El proceso recibe como datos de entrada una colección de oraciones no etiquetadas, un conjunto de categorías emocionales (por ejemplo, las emociones básicas de (Ekman1992), las de (Plutchik1962) o las emociones de (Izard1971) y el número de categorías emocionales que deseamos anotar (la emoción dominante o todas las detectadas en la frase). La adaptabilidad de la propuesta al conjunto de categorías de emociones, así como al número de categorías anotadas, es una de las aportaciones más novedosas de esta propuesta, ya que esta flexibilidad permite el uso de esta técnica en diferentes dominios y aplicaciones. Por ejemplo, las emociones como ABURRIMIENTO, ANSIEDAD e INTERéS se detectan típicamente en el dominio de la educación (Kim2011), mientras que las emociones como DIVERTIDO o INSPIRADO se analizan en el dominio de las noticias online\footnote{http://www.rappler.com/. Además, esta adaptabilidad puede ser útil en aquellas aplicaciones en las que la detección de la intensidad de las emociones es importante, como son los sistemas de recomendación.

Como hemos mencionado anteriormente, en el paso 1.1 (creación de la semilla) se emplea un lexicón emocional para etiquetar las frases en función de las palabras emocionales que contengan. El lexicón empleado en nuestra propuesta es EmoLex, un lexicón de dominio general anotado con las emociones de (Plutchik1980), entre las que se encuentran las de (Ekman1992), el conjunto con el que trabajamos en esta disertación. Con el objetivo de evaluar diferentes aproximaciones, se evalúan dos propuestas más en las que se utilizan versiones extendidas de EmoLex utilizando la base de datos léxica WN y un tesauro de Oxford. Por tanto, se presentan tres aproximaciones donde el proceso es el mismo pero emplean diferentes versiones de EmoLex:

- Original: se utiliza la versión original de EmoLex.

- Enriquecida WN: se emplea una versión del lexicón de EmoLex extendida automáticamente con sinónimos de WN.

- Enriquecida Oxford: la versión del lexicón empleada es una versión extendida de EmoLex con sinónimos de Oxford.

Una vez creadas las semillas, en el paso 1.2 se procede a la extensión de las mismas utilizando una métrica de similitud. Si bien hay diferentes enfoques para determinar la similitud semántica en el texto (Kenter2015), nuestro enfoque utiliza semántica distribucional, ya que nuestro objetivo es utilizar un modelo genérico que no requiera análisis léxico ni lingüístico y que no utilice fuentes externas de conocimiento semántico. Los Modelos de Semántica Distribucional (MSD) (del inglés, DSMs, DSMs) se basan en la suposición de que el significado de una palabra se puede inferir desde la forma en que se usa. Por lo tanto, estos modelos construyen dinámicamente representaciones semánticas (espacios vectoriales semánticos con muchas dimensiones) a través de un análisis estadístico de los contextos en los que ocurren las palabras. Concretamente, cada una de las semillas es extendida utilizando cuatro modelos que incorporan esta intuición: un modelo LSA y tres modelos W2V.

Una vez diseñadas y desarrolladas nuestras propuestas, estas fueron evaluadas con el objetivo de verificar la usabilidad de técnica IL en el etiquetado de las emociones en textos de diferentes géneros. Para ello, todas las aproximaciones presentadas en este Capítulo fueron evaluadas con dos corpus de emociones: Aman y Affective Text corpus. Aman (Aman2007a) es una colección de 4.000 frases de publicaciones realizadas en blogs recopiladas directamente de la Web y anotadas manualmente con las seis emociones básicas de (Ekman1992). Mientras que Affective Text (Strapparava2007), es un corpus con 1.250 titulares de noticias periodísticas que fueron extraídas de los principales periódicos como New York Time, CNN y BBC News, que están etiquetados manualmente con las emociones de Ekman.

Respecto a la metodología de evaluación, esta se divide en dos partes:

- Entrenamiento de un clasificador supervisado con el corpus anotado automáticamente resultante del paso 1 de IL, para evaluar su usabilidad.

- Cálculo del acuerdo (IAA) entre los corpus anotados automáticamente y las versiones gold standard de cada uno de ellos, con el objetivo de evaluar la calidad de las anotaciones automáticas.

Una vez realizada la experimentación, los resultados nos permiten inferir una serie de conclusiones de gran importancia:

- Se demuestra la viabilidad y usabilidad de la técnica bootstrapping basada en IL para el etiquetado automático de las emociones, ya que la evaluación de clasificación y acuerdo realizada en ambos corpus lograron resultados prometedores con altos beneficios en términos de coste y tiempo de desarrollo.

- En cuanto a los MSD, los resultados obtenidos no muestran diferencias significativas entre los modelos. Por lo que podemos concluir que el paso 1.2 (extensión de la semilla) es independiente del MSD empleado, lo que proporciona flexibilidad a nuestra propuesta.

- Respecto al lexicón empleado, los resultados han sido satisfactorios teniendo en cuenta que es un recurso de dominio general y se ha aplicado en dos géneros diferentes: titulares y publicaciones de blogs. Sin embargo, para mejorar los resultados, sería recomendable emplear lexicones adaptados al dominio.

- Las mejoras de los enfoques enriquecidos se han demostrado para varias emociones en Aman corpus, por lo que el proceso de extensión podría ser beneficioso según el género textual analizado. Por lo tanto, la usabilidad de estos enfoques se analizará en profundidad en trabajos futuros.

2.2. EmoLabel : metodología semi-automática para la anotación de emociones La pre-anotación es un procedimiento para etiquetar automáticamente un corpus utilizando un sistema automático, que posteriormente es revisado por un anotador humano. Los anotadores humanos usualmente corrigen errores u omisiones realizadas por el sistema automático, o hacen una elección entre las diferentes opciones dadas por el sistema automático (Skeppstedt2016). Esta técnica ha sido ampliamente utilizada en otras tareas de PLN como el Reconocimiento de entidades (del inglés NER, NER), el Etiquetado gramatical (del inglés POS, POS tagging), o la Desambiguación lingüística (del inglés WSD, WSD), proporcionando una ganancia en tiempo y coste en la tarea de anotación manual.

Dadas las dificultades asociadas al proceso de anotación de emociones en texto y los beneficios proporcionados por la pre-anotación en otras tareas de PLN, en el Capítulo 5 presentamos nuestra propuesta para abordar de forma eficiente el etiquetado de emociones: EmoLabel, una metodología semiautomática basada en un proceso de pre-anotación automática. El proceso consta de dos fases principales:

- Fase 1 Proceso de pre-anotación. Esta fase es llevada a cabo aplicando un proceso automático para anotar las oraciones no etiquetadas con un conjunto reducido de categorías emocionales.

- Fase 2 Refinamiento manual. El resultado de la Fase 1 es examinado por anotadores humanos que determinan cuáles son finalmente las emociones asociadas a cada oración. En nuestra propuesta, esta fase tiene como objetivo identificar cual es la emoción dominante en cada una de las oraciones.

Para la primera fase de EmoLabel, diseñamos dos procesos de pre-anotación automáticos: una aproximación no supervisada basada en MSD (DSMs) y un enfoque supervisado basado en Aprendizaje automático (ML). Ambos reciben como parámetros de entrada: una colección de oraciones no etiquetadas y un conjunto de categorías emocionales (por ejemplo, las emociones de (Ekman1992) o de (Plutchik1980). Esta adaptabilidad de EmoLabel, como ocurre con nuestra primera propuesta basada en IL, permite que los procesos propuestos se puedan emplear en diferentes dominios y/o aplicaciones.

2.2.1 Pre-anotación no supervisada Como mencionamos en la propuesta anterior, la intervención humana en una aproximación no supervisada es mínima y, por lo tanto, es una propuesta interesante para la anotación de emociones, ya que el contexto personal de cada anotador no influye en la interpretación emocional de las oraciones. Esa característica junto con los resultados obtenidos en nuestra primera propuesta, nos permite considerar relevante el desarrollo de una propuesta de pre-annotación no supervisada basada en MSD.

La gran ventaja del uso de estas representaciones que codifican la información semántica es que pueden generarse a partir de grandes corpus de texto no etiquetado y en un período de tiempo razonable. Por lo tanto, es una manera simple de filtrar el número de categorías de emociones que se pueden asociar a cada oración y, de esta manera, reducir la ambigüedad de la segunda fase de EmoLabel.

2.2.2. Pre-anotación supervisada En la tarea de RE en texto se han aplicado una amplia variedad de técnicas de PLN para abordarla. Sin embargo, la mayoría de ellas se han llevado a cabo utilizando aprendizaje automático supervisado dado que conduce a mejores resultados que las aproximaciones no supervisadas (Kim2011). Por ello, el número de sistemas de RE en texto escrito basados en estos enfoques es mayor. La precisión de estos sistemas varía entre un 60\% y 70% cuando intentan determinar la emoción dominante (Aman2007a, Ghazi2010, Wang2012) lo que indica que es una tarea no resuelta.

A pesar de ello, estos enfoques podrían emplearse en procesos de pre-anotación de emociones para reducir automáticamente el número de categorías emocionales. Este es el objetivo de los métodos presentados en este Capítulo, los cuales son evaluados en las tareas de pre-anotación.

Con este propósito en mente, se proponen tres aproximaciones:

- CountWordEmo: en esta propuesta, el conjunto de características está compuesto por un vector de 8 componentes donde las seis primeras representan cada una de las emociones de (Ekman1992) (IRA, ASCO, MIEDO, ALEGRíA, TRISTEZA, SORPRESA) y las otras dos componentes contienen los valores de polaridad y subjetividad de cada oración proporcionados por una herramienta de Análisis de Sentimientos (DeSmedt2012).

- EmoLexicon: en esta aproximación, el conjunto de características son derivadas del lexicón de emoción empleado. Por lo que, las características son los tokens en común entre el lexicón y el conjunto de datos elegido.

- 1-grams: en esta propuesta, se utilizan unigramas como características. Los modelos basados en unigramas se han aplicado ampliamente en la clasificación de textos y han mostrado buenos resultados en tareas de clasificación (Kennedy06).

Como algoritmo de aprendizaje, en todas las propuestas se ha utilizado un multi-clasificador de Máquinas de soporte vectorial (del inglés SVM, SVM) utilizando el entorno scikit-learn (Pedregosa2011).

2.2.3. Refinamiento manual Una vez que las oraciones no etiquetadas han sido anotadas con uno u otro proceso de pre-anotación, los anotadores humanos realizan una tarea de refinamiento con el objetivo de determinar cuáles son las emociones asociadas a cada oración. La cantidad de categorías emocionales finalmente etiquetadas dependerá de nuestros objetivos. En nuestra propuesta, esta fase tiene como objetivo la detección de la emoción dominante.

Para evaluar el impacto de la pre-anotación sobre la calidad del corpus resultante y el tiempo empleado en la tarea de anotación, se han diseñado tres configuraciones diferentes:

- Pre-ML: en esta configuración, el mejor modelo de pre-anotación supervisada se utilizada para seleccionar el conjunto de emociones pre-anotadas en cada oración.

- Pre-WE: en esta configuración, se utiliza el mejor modelo de pre-anotación no supervisada para seleccionar las emociones propuestas a los anotadores humanos.

- No-Pre: en esta configuración, no se emplea ningún proceso de pre-anotación. Por lo tanto, todas las categorías de emociones empleadas se muestran a anotadores humanos.

Cuando se emplean las configuraciones con pre-anotación (Pre-ML y Pre-ML), las emociones propuestas por el sistema se muestran en primer lugar a los anotadores humanos, pero también tienen la posibilidad de seleccionar otra emoción no pre-seleccionada automáticamente. Para ello, deben elegir la opción 'Other' y el resto de emociones se mostrarán.

Todas las tareas de anotación manual fueron llevadas a cabo por tres anotadores con un buen conocimiento del idioma inglés.

En un experimento previo, esta fase se diseñó utilizando tres conjuntos de datos diferentes ($D1$, $D2$, $D3$) para cada configuración (Pre-ML, Pre-WE, No-pre). Sin embargo, detectamos que la selección aleatoria de las oraciones que componen cada uno de los conjuntos de datos podían afectar negativa o positivamente a los resultados obtenidos en cada configuración. En consecuencia, decidimos aplicar la Validación cruzada (del inglés cross-validation) para que los resultados no se vieran afectados por el sesgo del azar y la curva de aprendizaje de los anotadores. Por lo tanto, cada anotador llevó a cabo tres tareas de anotación. De esta manera, cada conjunto de datos fue anotado con todas las configuraciones y por todos los anotadores. Por ejemplo, el anotador 1 realizó tres tareas donde $D1$ está pre-anotado con el enfoque supervisado (Pre-ML), $D2$ con el enfoque no supervisado (Pre-WE) y el $D3$ no está anotado previamente (No-pre).

La evaluación de EmoLabel requiere una evaluación intrínseca y extrínseca. La evaluación intrínseca implica la evaluación de los procesos de pre-anotación automáticos para determinar cuál de ellos se emplea en la segunda fase de EmoLabel. Todas las aproximaciones de pre-anotación fueron evaluadas con dos corpus de emociones: Aman y una versión reducida de EmoTweet-28 (EmoTweet-5). Como hemos mencionado anteriormente, Aman (Aman2007a) es una colección de 4.000 frases de publicaciones realizadas en blogs recopiladas directamente de la Web y anotadas manualmente con las seis emociones básicas de (Ekman1992). En cambio, la versión reducida de EmoTweet-28 (Liew2016), comprende casi 6.000 tweets etiquetados manualmente con cinco de las seis emociones básicas de Ekman: IRA, MIEDO, ALEGRíA, TRISTEZA y SORPRESA. En cuanto a la metodología de evaluación, el proceso de pre-anotación se evalúa midiendo precisión, cobertura y medida-F (del inglés, F-score) de las emociones propuestas por nuestro sistema contra las versiones gold standard de cada uno de los corpus. Como el proceso de pre-anotación etiqueta un subconjunto de categorías emocionales, si la emoción correcta (la contenida en gold standard) es una de las emociones pre-anotadas, la predicción se considera correcta.

En cuanto a la evaluación extrínseca, esta tiene como objetivo la evaluación del rendimiento de los anotadores en la segunda fase de la metodología. En esta fase, el corpus empleado es el de Aman. Por un lado se evalúa la calidad del corpus resultante calculando el acuerdo (IAA) entre cada anotador y el gold standard de Aman corpus. En particular, la métrica empleada es (fleiss1971) kappa. Por otro lado, también evaluamos el tiempo necesario por cada anotador para llevar a cabo cada tarea. Para ello, se utiliza el registro de tiempo proporcionado por la plataforma de anotación.

El estudio realizado permite verificar la adecuación y fiabilidad de nuestra metodología en la anotación de emociones en texto escrito y nos permite obtener las siguientes conclusiones principales:

- Se demuestran los beneficios de los procesos de pre-anotación en el etiquetado de emociones, ya que los resultados en tiempo de anotación muestran una ganancia de cerca de un 20% cuando se aplica el proceso de pre-anotación supervisado (Pre-ML) con respecto a no utilizar la pre-anotación (No-pre). Además, los experimentos realizados muestran que todas las tareas alcanzan un "acuerdo sustancial" y, por tanto, el proceso de pre-anotación no reduce el rendimiento del anotador (IAA).

- Con respecto a la evaluación intrínseca, las ganancias obtenidas por el método de pre-anotación supervisada en términos de tiempo con respecto al proceso de pre-anotación no supervisada permiten concluir que el uso de un proceso de pre-anotación preciso proporciona beneficios relevantes en la tarea de etiquetado de emociones. En consecuencia, los sistemas existentes de detección de emociones desarrollados hasta el momento podrían emplearse para pre-anotar nuevos datos.

- Las mejoras alcanzadas por el Anotador 3 (el anotador con peor rendimiento) en términos de tiempo y acuerdo demuestran la usabilidad de nuestra metodología cuando los anotadores no son buenos, ya que sus mejores resultados se han obtenido cuando se emplea un proceso de pre-anotación.

3. Conclusión y trabajo futuro Debido a la necesidad de desarrollar nuevas técnicas capaces de etiquetar eficientemente grandes cantidades de datos con emociones, en cualquier género textual y con sólidos estándares de fiabilidad, este trabajo se ha centrado en uno de los desafíos más importantes del RE en texto: el desarrollo de técnicas para la anotación de corpus con emociones. Nuestra principal motivación fue las dificultades asociadas con el desarrollo de este tipo de recursos demostradas por las investigaciones más relevantes llevadas a cabo hasta el momento. Es cierto que los problemas de creación de corpus relacionados con el tiempo y coste de su desarrollo son compartidos por otras tareas de PLN. Sin embargo, en RE textual, estos problemas son más desafiantes debido a que la detección de emoción en texto puede ser difícil incluso para los humanos, incrementando el tiempo y el coste de desarrollo, así como presentando problemas para obtener Acuerdo entre anotadores (IAA).

Con este contexto, esta tesis abordó la tarea de anotación de emociones en texto, proporcionando técnicas/metodologías automáticas y semiautomáticas con la intención de contribuir a abordarla eficientemente. Nos centramos en la anotación de emociones en texto escrito en Inglés para cualquier género textual, a nivel de oración y empleando un conjunto de categorías emocionales como etiquetas.

A continuación se exponen las principales conclusiones y contribuciones que aporta esta tesis que se pueden resumir en los siguientes puntos:

- Análisis del estado de la cuestión con especial énfasis en la creación de recursos lingüísticos para la tarea de RE en texto. Este análisis nos permitió verificar que los modelos de emoción basados en categorías (en particular, las emociones básicas propuestas por (Ekman1992) son las más populares entre los enfoques computacionales, ya que la mayoría de ellos emplea este conjunto de emociones debido a su simplicidad al abordar el análisis desde el punto de vista humano y computacional. Además, el análisis cronológico de estos recursos nos permite observar una tendencia en la aplicación de técnicas semiautomáticas para la anotación de emociones. Esto se debe a dos hechos principales: las desventajas de la anotación manual y el crecimiento exponencial de la cantidad de información subjetiva en la Web 2.0 (blogs, redes sociales, servicios de microblogging, etc.).

- Investigación en técnicas de anotación (Bootstrapping basado en IL y pre-anotación) para el etiquetado de emociones. Esta investigación estudia diferentes métodos eficientes en términos de tiempo y costes para construir recursos. Teniendo en cuenta los problemas de anotación de emoción a la hora de abordar la tarea de manera eficiente y con alta fiabilidad, exploramos técnicas de anotación alternativas empleadas en otras disciplinas de PLN con el fin de mejorar la tarea de anotación de emociones. Estos métodos han demostrado su usabilidad y aplicabilidad en otras tareas de PLN que nos permiten considerarlos adecuados para abordar esta tarea, obteniendo mejoras en su proceso de desarrollo.

- Propuesta y desarrollo de la técnica IL para anotación de emociones en texto. Se presenta una técnica de bootstrapping basada en IL, una técnica no supervisada que crea clasificadores a partir de datos no etiquetados. Esta es una de las características más atractivas para la anotación de emociones porque permite construir corpus emocionales donde se minimiza la influencia de anotadores humanos. Además, su simplicidad y flexibilidad para aplicarlo con otras categorías emocionales o géneros lo convierten en una técnica atractiva a considerar cuando el número de recursos etiquetados son escasos o demasiado costosos de desarrollar en grandes cantidades.

- Propuesta y desarrollo de procesos de pre-anotación para abarcar la tarea de anotación de emociones (EmoLabel). EmoLabel es una metodología semiautomática en la que se lleva a cabo un proceso de pre-anotación con el objetivo de ayudar a los anotadores humanos a decidir cuál es la emoción dominante en cada oración. Si bien es cierto que esta propuesta no es tan eficiente como la técnica IL en términos de tiempo y coste, ya que requiere la participación de anotadores humanos, consideramos importante explorar técnicas de emoción alternativas en las que participaran humanos. Al fin y al cabo, estamos tratando de detectar emociones humanas. Además, EmoLabel proporciona adaptabilidad y versatilidad, permitiendo usar diferentes conjuntos de categorías de emociones, así como determinar el número de categorías asociadas a cada oración.

- Evaluación de la técnica IL. Con el fin de verificar la idoneidad de IL para la anotación de emociones, se llevaron a cabo dos evaluaciones. Por un lado, se construyó un modelo de emoción a partir del corpus etiquetado automáticamente para evaluar la usabilidad de ese corpus. Por otro lado, la calidad de las anotaciones automáticas se evalúa a través de la medida de acuerdo entre el corpus desarrollado con nuestro enfoque (anotación automática) y el gold standard de los corpus Aman y Affective Text (anotación manual). Ambas evaluaciones nos permiten verificar la viabilidad del IL como una técnica para la anotación automática de emociones en texto, reduciendo el coste y el tiempo de desarrollo del mismo, ya que ambas evaluaciones obtuvieron resultados alentadores.

- Evaluación de EmoLabel. Con el objetivo de realizar una evaluación en profundidad de EmoLabel, se requiere una evaluación intrínseca y extrínseca. El objetivo de la evaluación intrínseca es evaluar cuál es el mejor proceso de pre-anotación que se empleará en la segunda fase de EmoLabel. Para lograrlo, la evaluación se lleva a cabo comparando las emociones propuestas por cada método con las anotadas en el gold standard de cada uno de los corpus empleados en la evaluación. La evaluación extrínseca tiene como objetivo la evaluación del trabajo de los anotadores humanos en la segunda fase de EmoLabel. Con este fin, se lleva a cabo una tarea de anotación manual con tres anotadores. De acuerdo con la evaluación extrínseca, los experimentos realizados muestran los beneficios de los procesos de pre-anotación en el etiquetado de emociones, ya que los resultados en el tiempo de anotación muestran una ganancia de cerca de un 20\% cuando se aplica el proceso de pre-anotación (Pre-ML) con respecto a sin pre-anotación (No-pre). Además, los experimentos realizados muestran que todas las tareas alcanzan un "acuerdo sustancial" y, por tanto, el proceso de pre-anotación no reduce el rendimiento del anotador, ni el acuerdo entre ellos (IAA).

3.1. Trabajo futuro Como trabajos futuros de esta tesis, podemos destacar las siguientes líneas de investigación a corto, medio y largo plazo:

- Mejorar la técnica IL. Dado que el núcleo de la técnica de bootstrapping basada en IL es la clasificación inicial no supervisada y con el objetivo de reducir las oraciones falsas anotadas en el proceso inicial, una mejora sería explorar métodos alternativos para la creación de las semillas. Por ejemplo, considerar fenómenos como la negación o modificadores del lenguaje, agregar análisis de los emoticonos para enriquecer el proceso, o generar mediante sistemas de Generación del Lenguaje Natural (GLN) (del inglés NLG, NLG) un conjunto de oraciones simple con contenido emocional (vocabulario emocional implícito) que posteriormente sería enriquecido con oraciones reales por similitud semántica. Además, dado los resultados obtenidos, consideramos interesante la aplicación de esta propuesta en otros géneros de la Web 2.0 como los mensajes de Twitter, publicaciones de Facebook, comentarios de noticias o foros donde hay un alto contenido emocional, ya que estos géneros permiten a las personas publicar mensajes para compartir información, opinión y emociones.

- Mejorar la metodología EmoLabel. La investigación futura en EmoLabel se centrará en aprovechar al máximo el gran potencial de la anotación previa para crear grandes cantidades de datos anotados con emociones que permitan aplicar algoritmos de Aprendizaje automático (del inglés ML, ML) y/o Aprendizaje profundo (del inglés DL, DL) con el objetivo de construir sistemas de reconocimiento de emociones precisos. Para lograrlo, desarrollaremos la segunda fase de EmoLabel con más datos extraídos de los nuevos géneros de la Web 2.0 en plataformas de crowdsourcing con más anotadores. Además, los resultados logrados por el enfoque supervisado en el proceso de pre-anotación son prometedores y abren la posibilidad de reutilizar los modelos emocionales existentes como IBM Tone Analyzer\footnote{https://tone-analyzer-demo.ng.bluemix.net/, cuyo sus valores-F están alrededor del 60-70\%, para pre-anotar nuevos datos.

- Explorar ambas propuestas en otros idiomas. Principalmente, el análisis automático de la emoción en el texto hasta ahora se ha centrado en el inglés debido a la falta de recursos emocionales en otros idiomas. Debido a ello y teniendo en cuenta los resultados logrados por nuestras propuestas (Bootstrapping basado en IL y EmoLabel), es de notable interés explorar más a fondo la aplicación de ellos en otros idiomas europeos como el español, el italiano o el holandés, así como otros idiomas asiáticos, como el bangla o el hindi para analizar cómo afectan las influencias culturales en la detección de emociones. Para ello, es importante que el desarrollo de estos recursos se lleve a cabo conjuntamente con personas nativas ya que la relación de una palabra con los conceptos emocionales puede depender de la ideología y, en general, de los aspectos culturales (Strapparava2016).

- Analizar otras alternativas para la anotación de emociones en texto. Si bien hemos evaluado dos técnicas efectivas de anotación, no descartamos y podría ser atractiva la evaluación de otras alternativas para la anotación de emociones como Aprendizaje activo (del inglés AL, AL) o la aplicación de principios de diseño de juegos en la tarea. En cuanto a la estrategia de AL, aplicaremos un método que utilice la estimación de confianza de los modelos de clasificación para determinar si una oración debe ser revisada por anotadores humanos o no. Esto nos permitirá reducir el número de oraciones utilizadas en la tarea de anotación manual. Para este fin, podemos usar PAL (Skeppstedt2016), una herramienta para pre-anotación y AL. Acerca de la aplicación de principios de diseño de juegos a la tarea de anotación, la idea es que los anotadores humanos participen en el etiquetado de emociones sin darse cuenta de que están anotando un texto, con el objetivo de no afectar a su interpretación emocional del texto. Para lograrlo, sería interesante crear una aplicación móvil que pregunte al usuario sobre el contenido emocional de sus textos de una manera no intrusiva.

- Estudiar cuáles son las categorías de emoción más apropiadas para el texto. Centrándose en los modelos de emociones categóricas, las emociones básicas de (Ekman1992) son el conjunto más popular empleado en los enfoques computacionales. Sin embargo, este modelo de emoción se derivó originalmente de expresiones faciales y fisiológicas y, por lo tanto, no se basa en teorías del lenguaje. Durante el desarrollo de esta tesis, encontramos dificultades para detectar emociones como ASCO, MIEDO o SORPRESA en el texto, como muchos otros investigadores. Por lo tanto, un análisis de cuáles son las emociones expresadas en el texto, como el estudio llevado a cabo por (Liew2015), junto con una definición de un conjunto más representativo de categorías para el análisis textual parece ser prometedor y sería una gran contribución a la comunidad investigadora.

- Estudiar los beneficios del análisis de emociones en otras disciplinas. La mejora de los métodos de anotación de emociones nos permitirá construir una gran cantidad de datos con contenido emocional que se utilizarán para mejorar el rendimiento de los algoritmos de Aprendizaje profundo (DL), donde se requieren grandes cantidades de datos de entrenamiento. Además, la creación de un sistema de reconocimiento de emociones preciso para evaluar y representar las emociones de las personas a partir de sus comentarios en la Web social, junto con la información geográfica y temporal disponible en estos géneros, nos permitirá crear perfiles emocionales de usuario que aportarán beneficios sustanciales a diferentes tareas como la prevención del suicidio, identificación de casos de ciberacoso, o la educación en línea (del inglés e-learning).

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: