Ayuda
Ir al contenido

Dialnet


Gaze estimation based on machine learning

  • Autores: Andoni Larumbe Bergera
  • Directores de la Tesis: Arantxa Villanueva Larre (dir. tes.)
  • Lectura: En la Universidad Pública de Navarra ( España ) en 2024
  • Idioma: inglés
  • Número de páginas: 209
  • Enlaces
  • Resumen
    • español

      Esta tesis, desarrollada en el marco del grupo GI4E, se centra en el desarrollo de un algoritmo de estimación de la mirada para sistemas de videooculografía (Video-oculography, VOG) que hacen uso de componentes genéricos. En primer lugar, se resaltan las limitaciones de la tecnología de seguimiento ocular existente, así como los métodos comúnmente utilizados para la estimación de la mirada en sistemas que emplean este tipo de componentes. La contribución central de la tesis es el desarrollo de un algoritmo de estimación de la mirada dividido en dos grandes bloques: un primer bloque para la detección de puntos de referencia faciales y un segundo bloque que, a partir de un vector de características generado usando esos puntos de referencia, estima el punto de la mirada (Point of Gaze, PoG, en inglés). Debido a los grandes avances en el campo del aprendizaje automático (machine learning), se ha decidido emplear este tipo de técnicas para ambos bloques. Se realiza una revisión de los métodos del estado del arte que hacen uso de técnicas de aprendizaje automático y deep learning para la detección de puntos de referencia faciales. También se exploran y resumen los algoritmos del estado del arte aplicados a la estimación de la mirada. Para el primer bloque de detección de puntos de referencia faciales, se implementan dos modelos, uno basado en métodos de regresión en cascada y un otro basado en redes neuronales. Ambos modelos son comparados sobre diversas bases de datos, analizando las virtudes y defectos de cada uno de ellos. Además, se realiza una comparación del método propuesto con el estado del arte en la que se demuestra la superioridad de nuestro método. En cuanto al segundo bloque, en primer lugar se presenta un método para la generación de un vector de características que incluya informaci ón relevante para poder realizar la estimación de la mirada. Además, se proponen varios modelos basados en redes neuronales y se investiga el uso de datos sintéticos para su entrenamiento. Por último, se plantea un método para adaptar y calibrar los modelos entrenados con usuarios sintéticos, a datos de sujetos reales. La tesis concluye con un resumen de sus contribuciones y principales hallazgos. La integración de técnicas de aprendizaje automático, algoritmos avanzados y datos sintéticos presenta perspectivas prometedoras para futuras investigaciones en este campo.

    • English

      This thesis, developed within the framework of the GI4E group, focuses on the development of a gaze estimation algorithm for off-the-shelf video-oculography (VOG) systems. The limitations of existing eye tracking technology and gaze estimation methods in off-the-shelf systems are highlighted. The main contribution of this thesis is the development of a gaze estimation algorithm divided into two main blocks: the first block for facial landmark detection and the second block for estimating the Point of Gaze (PoG) from a feature vector generated using these landmarks. Due to significant advances in the field of machine learning, it has been decided to employ this type of techniques for both blocks. A review of state-of-the-art methods using machine learning and deep learning for facial landmark detection is conducted, along with an exploration and summary of state-of-the-art algorithms applied to gaze estimation. For the facial landmark detection block, two models are implemented, a first one based on cascade regression methods and another based on neural networks. Both models are compared on various databases, analyzing the strengths and weaknesses of each. Additionally, a comparison between the proposed method and the state of the art is conducted, showcasing the superiority of our approach. Regarding the second block, a method for generating a feature vector that includes relevant information for gaze estimation is presented. Furthermore, several neural network-based models are proposed, and the use of synthetic data for training gaze estimation models is investigated. Finally, a method to adapt and calibrate the models trained with synthetic users to real data is proposed. The thesis concludes with a summary of its contributions and key findings. The integration of machine learning techniques, advanced algorithms, and synthetic data holds promising prospects for future research in this field.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno