Ayuda
Ir al contenido

Dialnet


Semantic 3D scene understanding for autonomous vehicles using deep learning

  • Autores: Eduardo Romera Carmena
  • Directores de la Tesis: Luis M. Bergasa Pascual (dir. tes.)
  • Lectura: En la Universidad de Alcalá ( España ) en 2018
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: Arturo de la Escalera Hueso (presid.), Daniel Pizarro Pérez (secret.), Pablo Fernández Alcantarilla (voc.)
  • Programa de doctorado: Programa de Doctorado en Electrónica: Sistemas Electrónicos Avanzados. Sistemas Inteligentes por la Universidad de Alcalá
  • Materias:
  • Enlaces
    • Tesis en acceso abierto en: TESEO
  • Resumen
    • español

      Los vehículos autónomos son uno de los retos más importantes de nuestra era. Sin embargo, para tenerlos funcionando en nuestras calles, necesitan conducir al menos de forma tan segura y precisa como los humanos. Desarrollar buenas capacidades de percepción para entender el entorno de conducción es esencial para lograrlo. Esta tesis busca aprovechar los avances recientes en visión computacional y técnicas de aprendizaje profundo para proveer a un coche de un entendimiento completo de la escena de conducción a partir de imágenes. Desarrollada en el contexto de un proyecto para construir un coche eléctrico autónomo en el campus, la eficiencia, precisión y robustez se han tenido en mente para proveer una solución realista. Proponemos unificar las tareas de percepción con una red convolucional de fin-a-fin (``end-to-end'') que obtiene segmentación semántica (i.e. clasificación de clases pixel a pixel) en imágenes de gran tama\~no de forma tanto eficiente como precisa. Además de testear en datasets existentes, analizamos concienzudamente y mejoramos la robustez de nuestro método en imágenes del mundo real que no fueron vistas durante el entrenamiento, de forma que pueda funcionar correctamente en un entorno real. Adicionalmente, nuestra red convolucional propuesta, ERFNet, se ha usado exitosamente en otros trabajos colaborativos tales como la asistencia a los discapacitados visuales usando gafas inteligentes. Todo el código es open-source y el trabajo derivado de esta tesis ha sido publicado en diversas conferencias y revistas de reconocido prestigio.

    • English

      Autonomous vehicles are one of the most important challenges of our era. However, in order to have them working in the streets, they need to drive at least as safe and reliably as humans do. Developing good perception capabilities for understanding the driving environment is essential to achieve such thing. This thesis seeks to leverage recent advances in computer vision and deep learning techniques to provide a car complete understanding of the driving scene from images. Developed in the context of a project to build an electric autonomous car for the campus, efficiency, accuracy and robustness are kept in mind to provide a realistic solution. We propose to unify the perception tasks with an end-to-end deep learning network to perform semantic segmentation (i.e. pixel-wise classification of object classes) on large images both efficiently and accurately. Aside from testing on existing datasets, we thoroughly analyze and enhance the robustness of our method to real-world images that are not seen in the training process, so it can perform correctly in a real environment. Additionally, our proposed convolutional network, ERFNet, is successfully used in other collaborative works such as assistance for visually impaired using wearable smart glasses. All the code is open-sourced and the work derived from this thesis has been published in diverse conferences and journals of large impact


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno