Ayuda
Ir al contenido

Dialnet


Supervised learning and inference of semantic information from road scene images

  • Autores: José Javier Yebes Torres
  • Directores de la Tesis: Luis M. Bergasa Pascual (dir. tes.)
  • Lectura: En la Universidad de Alcalá ( España ) en 2014
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: Miguel Angel Sotelo Vázquez (presid.), Marta Marrón Romera (secret.), Pablo Fernández Alcantarilla (voc.), Luis Baumela Molina (voc.), Enrique Cabello Pardos (voc.)
  • Materias:
  • Enlaces
  • Resumen
    • español

      En la actualidad, la industria del automóvil utiliza cámaras y técnicas de visión para integrar funcionalidades avanzadas que asisten a las personas durante la conducción. Sin embargo, la investigación en vehículos autónomos supone un paso más allá de los sistemas ADAS y es un área de gran interés tanto en el sector académico como industrial. Son muchos los desafíos que surgen a raíz de las plataformas robóticas autónomas en escenarios urbanos, debido principalmente a su complejidad en cuanto a la estructura de la escena y a los participantes dinámicos (peatones, vehículos, vegetación, etc.). Por este motivo, proveer a dichas plataformas de las capacidades para el entendimiento de escenas es un objetivo esencial, ya que las cámaras captan las escenas 3D de forma muy similar a como es percibida por una persona. De hecho, la necesidad de realizar entendimiento de escenas 3D, ha provocado un creciente interés en el etiquetado conjunto de los objetos y la estructura de la escena. Concretamente, con el objetivo de inferir la geometría y otra información semántica relevante en entornos urbanos. En este aspecto, esta Tesis aborda dos desafíos: 1) la predicción de la geometría de intersecciones de carreteras y/o calles y, 2) la detección y la estimación de la orientación de coches, peatones y ciclistas. Para llevar a cabo dicho etiquetado automático, se extraen distintas características visuales de imágenes estéreo pertenecientes a la base de datos pública conocida como KITTI. En consecuencia, para inferir los objetos y las intersecciones en escenas de carretera, esta Tesis propone un aprendizaje supervisado de modelos discriminativos, haciendo uso de técnicas robustas de “aprendizaje máquina” para recolectar la información relevante de las características visuales. Para llevar a cabo la primera de las tareas, se emplean mapas 2D de ocupación, que se construyen a partir de las secuencias estéreo capturadas por un vehículo en movimiento en una ciudad de tamaño medio. En base a estas imágenes de vista de pájaro, se propone una parametrización para carreteras rectas y otra para intersecciones de 4 vías. A su vez, las dependencias entre las variables aleatorias discretas que definen dicha geometría se representan mediante Modelos Gráficos Probabilísticos. A continuación, el problema se formula como una predicción estructurada, utilizando Conditional Random Fields (CRF) para el entrenamiento y convex Belief Propagation (dcBP) y Branch and Bound (BB) para realizar inferencia. La validación de la metodología propuesta se realiza mediante un conjunto de pruebas a partir de imágenes reales e imágenes sintéticas con diferentes niveles de ruido aleatorio. Además se incluye un análisis de las dificultades observadas para el caso de escenas reales, ya que, estas imágenes recuperadas de las secuencias estéreo presentan unos mapas de ocupación dispersos y ruidosos. En relación a la detección y la estimación de la orientación de objetos en scenas de carretera, el objetivo de esta Tesis es competir en el desafío internacional conocido como KITTI evaluation benchmark, que anima a los investigadores a avanzar el estado del arte actual en métodos de reconocimiento visual, y en particular para el entendimiento de escenas 3D urbanas. Esta Tesis propone modificar el detector de objetos basado en partes y ampliamente conocido como DPM, con el propósito de aprender modelos mejorados a partir de datos 2.5D (color y disparidad). Por este motivo, se revisa el planteamiento del DPM, que está basado en descriptores HOG y “mixture models” que se entrenan mediante “latent SVM”. En base a ello, esta Tesis realiza una serie de modificaciones sobre el método DPM: I) Se extiende el proceso de entrenamiento del DPM para adaptarlo a las nuevas “3D-aware features” diseñadas. II) Se realiza un análisis detallado del aprendizaje paramétrico supervisado para distintas configuraciones. III) Se introducen dos planteamientos adicionales con el objetivo de mejorar la detección de objetos: “whitening” de las características visuales y análisis de consistencia entre las vistas estéreo. Adicionalmente, a) se analiza la base de datos de imágenes KITTI y detalles importantes en relación al protocolo de evaluación; b) un largo conjunto de experimentos de validación cruzada muestran el rendimiento de las contribuciones propuestas y se comparan contra una línea de base que usa DPM y, c) finalmente, los resultados de nuestra propuesta se publican en el ranking de la web de KITTI, siendo el primer planteamiento que se publica basado en datos estéreo, obteniendo una mayor precisión en la detección de coches (3%-6%) y consiguiendo el primer puesto para la detección de ciclistas.

    • English

      Nowadays, vision sensors are employed in automotive industry to integrate advanced functionalities that assist humans while driving. However, autonomous vehicles is a hot field of research both in academic and industrial sectors and entails a step beyond ADAS. Particularly, several challenges arise from autonomous navigation in urban scenarios due to their naturalistic complexity in terms of structure and dynamic participants (e.g. pedestrians, vehicles, vegetation, etc.). Hence, providing image understanding capabilities to autonomous robotics platforms is an essential target because cameras can capture the 3D scene as perceived by a human. In fact, given this need for 3D scene understanding, there is an increasing interest on joint objects and scene labeling in the form of geometry and semantic inference of the relevant entities contained in urban environments. In this regard, this Thesis tackles two challenges: 1) the prediction of road intersections geometry and, 2) the detection and orientation estimation of cars, pedestrians and cyclists. Different features extracted from stereo images of the KITTI public urban dataset are employed. This Thesis proposes a supervised learning of discriminative models that rely on strong machine learning techniques for data mining visual features. For the first task, we use 2D occupancy grid maps that are built from the stereo sequences captured by a moving vehicle in a mid-sized city. Based on these bird?s eye view images, we propose a smart parameterization of the layout of straight roads and 4 intersecting roads. The dependencies between the proposed discrete random variables that define the layouts are represented with Probabilistic Graphical Models. Then, the problem is formulated as a structured prediction, in which we employ Conditional Random Fields (CRF) for learning and convex Belief Propagation (dcBP) and Branch and Bound (BB) for inference. For the validation of the proposed methodology, a set of tests are carried out, which are based on real images and synthetic images with varying levels of random noise. In relation to the object detection and orientation estimation challenge in road scenes, this Thesis goal is to compete in the international challenge known as KITTI evaluation benchmark, which encourages researchers to push forward the current state of the art on visual recognition methods, particularized for 3D urban scene understanding. This Thesis proposes to modify the successful part-based object detector known as DPM in order to learn richer models from 2.5D data (color and disparity). Therefore, we revisit the DPM framework, which is based on HOG features and mixture models trained with a latent SVM formulation. Next, this Thesis performs a set of modifications on top of DPM: I) An extension to the DPM training pipeline that accounts for 3D-aware features. II) A detailed analysis of the supervised parameter learning. III) Two additional approaches: "feature whitening" and "stereo consistency check". Additionally, a) we analyze the KITTI dataset and several subtleties regarding to the evaluation protocol; b) a large set of cross-validated experiments show the performance of our contributions and, c) finally, our best performing approach is publicly ranked on the KITTI website, being the first one that reports results with stereo data, yielding an increased object detection precision (3%-6%) for the class 'car' and ranking first for the class cyclist.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno