Ayuda
Ir al contenido

Dialnet


Driver attention based on deep learning for a smart vehicle to driver (V2D) interaction

  • Autores: Javier Araluce Ruiz
  • Directores de la Tesis: Luis M. Bergasa Pascual (dir. tes.), Manuel Ocaña Miguel (codir. tes.)
  • Lectura: En la Universidad de Alcalá ( España ) en 2023
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: Arturo de la Escalera Hueso (presid.), Rafael Barea Navarro (secret.), Guillermo Gallego Bonet (voc.)
  • Programa de doctorado: Programa de Doctorado en Electrónica: Sistemas Electrónicos Avanzados. Sistemas Inteligentes por la Universidad de Alcalá
  • Materias:
  • Enlaces
  • Resumen
    • español

      La atención del conductor es un tópico interesante dentro del mundo de los vehículos inteligentes para la consecución de tareas que van desde la monitorización del conductor hasta la conducción autónoma. Esta tesis aborda este tópico basándose en algoritmos de aprendizaje profundo para conseguir una interacción inteligente entre el vehículo y el conductor.

      La monitorización del conductor requiere una estimación precisa de su mirada en un entorno 3D para conocer el estado de su atención. En esta tesis se aborda este problema usando una única cámara, para que pueda ser utilizada en aplicaciones reales, sin un alto coste y sin molestar al conductor. La herramienta desarrollada ha sido evaluada en una base de datos pública (DADA2000), obteniendo unos resultados similares a los obtenidos mediante un seguidor de ojos caro que no puede ser usado en un vehículo real. Además, ha sido usada en una aplicación que evalúa la atención del conductor en la transición de modo autónomo a manual de forma simulada, proponiendo el uso de una métrica novedosa para conocer el estado de la situación del conductor en base a su atención sobre los diferentes objetos de la escena.

      Por otro lado, se ha propuesto un algoritmo de estimación de atención del conductor, utilizando las últimas técnicas de aprendizaje profundo como son las conditional Generative Adversarial Networks (cGANs) y el Multi-Head Self-Attention. Esto permite enfatizar ciertas zonas de la escena al igual que lo haría un humano. El modelo ha sido entrenado y validado en dos bases de datos públicas (BDD-A y DADA2000) superando a otras propuestas del estado del arte y consiguiendo unos tiempos de inferencia que permiten su uso en aplicaciones reales.

      Por último, se ha desarrollado un modelo que aprovecha nuestro algoritmo de atención del conductor para comprender una escena de tráfico obteniendo la decisión tomada por el vehículo y su explicación, en base a las imágenes tomadas por una cámara situada en la parte frontal del vehículo. Ha sido entrenado en una base de datos pública (BDD-OIA) proponiendo un modelo que entiende la secuencia temporal de los eventos usando un Transformer Encoder, consiguiendo superar a otras propuestas del estado del arte. Además de su validación en la base de datos, ha sido implementado en una aplicación que interacciona con el conductor aconsejando sobre las decisiones a tomar y sus explicaciones ante diferentes casos de uso en un entorno simulado.

      Esta tesis explora y demuestra los beneficios de la atención del conductor para el mundo de los vehículos inteligentes, logrando una interacción vehículo conductor a través de las últimas técnicas de aprendizaje profundo.

    • English

      Driver attention is a hot topic in the world of intelligent vehicles to achieve tasks ranging from driver monitoring to autonomous driving. This thesis addresses this topic based on deep learning algorithms to achieve an intelligent interaction between the vehicle and the driver.

      Driver monitoring requires an accurate estimation of the driver’s gaze in a 3D environment in order to know the driver’s state of attention. This thesis manages this problem using a single camera that we can use in real applications without a high cost and without disturbing the driver. We evaluate the developed tool in a public dataset (DADA2000), achieving on-par results with an expensive, intrusive and difficult to install in a vehicle eye-tracker. Furthermore, we use it in an application that assesses the drivers’ attention in the transition from autonomous to manual mode in a simulated way, proposing a novel metric to know the state of the drivers’ situation based on their attention to different objects in the scene.

      On the other hand, we propose a driver attention estimation algorithm using the latest deep learning techniques such as conditional Generative Adversarial Network (cGAN) and Multi-Head Self-Attention. It emphasises certain regions of the scene just as a human would. The model has been trained and validated in two public datasets (BDD-A and DADA2000), outperforming other state-of-the-art proposals and achieving inference times that allow its use in real applications.

      Moreover, we develop a model that leverages our driver attention algorithm to understand a traffic scene by obtaining the decision taken by the vehicle and its explanation, based on the images taken by a camera located at the front of the car. We have trained it on a public database (BDD-OIA), proposing a model that understands the temporal sequence of events using a Transformer Encoder, managing to outperform other state-of-the-art proposals. Finally, to its validation in the dataset, we have implemented the model in an application that interacts with the driver advising about the decisions to take and their explanations for different use cases in a simulated environment.

      This thesis explores and demonstrates the benefits of driver attention for the world of intelligent vehicles by achieving vehicle-to-driver interaction through the latest deep learning techniques.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno