Ayuda
Ir al contenido

Dialnet


Vision based localization: from humanoid robots to visually impaired people

  • Autores: Pablo Fernández Alcantarilla
  • Directores de la Tesis: Luis M. Bergasa Pascual (dir. tes.)
  • Lectura: En la Universidad de Alcalá ( España ) en 2011
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: Miguel Angel Sotelo Vázquez (presid.), Daniel Pizarro Pérez (secret.), Walterio W. Mayol Cuevas (voc.), Miguel Cazorla Quevedo (voc.), José María Martinez Montiel (voc.)
  • Materias:
  • Enlaces
  • Resumen
    • español

      En la actualidad, las aplicaciones 3D presentan un gran interés en diversos campos tales como la robótica, la visión artificial o la realidad aumentada. Mediante el uso de cámaras y técnicas de visión artificial, se pueden obtener modelos 3D precisos en grandes entornos tales como ciudades. Además, las cámaras son unos sensores no invasivos y de bajo coste en comparación con otros sensores tales como el láser y que ofrecen una gran información sobre el entorno. Una aplicación de gran interés es la localización visual en un mapa 3D. Los robots necesitan realizar tareas en el entorno de manera autónoma, y para la realización de estas tareas es necesario conocer en que posición se encuentran dentro un mapa de manera precisa. Del mismo modo, proporcionar información de posición y orientación puede ser de mucha utilidad para personas ciegas o con problemas de visión. La movilidad o capacidad de desplazarse de forma independiente y segura tanto en entornos conocidos, como en entornos desconocidos, puede llegar a ser un gran reto para las personas que presentan ceguera o algún tipo de deficiencia visual. Los sistemas comerciales de ayuda a la movilidad de personas invidentes, están basados en tecnología de posicionamiento por satélite GPS. Sin embargo, esta tecnología no es fiable en entornos urbanos para la comunidad de personas invidentes, ya que presenta errores de localización elevados del orden de varios metros y otros problemas asociados a la tecnología GPS como pérdida de la señal o escasa visibilidad de satélites. La tecnología GPS no funciona si no existe un número mínimo de satélites visibles. Por consiguiente, esta tecnología no puede ser utilizada en entornos de interiores. Por lo tanto, es necesario investigar nuevos métodos de localización más precisos y robustos. En esta tesis se desarrollan diversos algoritmos para obtener una localización visual precisa y en tiempo real a partir de un mapa 3D conocido. Para obtener una localización robusta es necesario calcular previamente un mapa 3D del entorno. Para calcular dicho mapa 3D, se utilizan técnicas conocidas como Simultaneous Localization and Mapping (SLAM) o Structure from Motion (SfM). En esta tesis se presenta un sistema de SLAM utilizando una cámara estéreo como único sensor que nos permite obtener reconstrucciones 3D precisas del entorno. El sistema de SLAM propuesto es capaz de detectar posibles objetos en movimiento en un rango cercano a la cámara de aproximadamente 5 metros, gracias a un módulo desarrollado de detección de objetos en movimiento. Los objetos en movimiento se detectan gracias a una representación densa conocida como scene flow que nos permite obtener información sobre la velocidad de los puntos 3D del entorno. Este módulo resulta muy eficaz en entornos muy dinámicos en los que suelen existir una gran cantidad de objetos dinámicos tales como peatones. A partir del módulo de detección de objetos en movimiento se evita incorporar puntos 3D erróneos al proceso de SLAM, obteniendo mejores resultados de reconstrucción 3D. Desde nuestro conocimiento, es la primera vez que se aplica la técnica de scene flow denso y detección de objetos en movimiento en el contexto de SLAM visual para entornos complejos y dinámicos, tales como los que se presentan en esta Tesis. Tanto en las técnicas de SLAM como en los algoritmos de localización visual, los puntos 3D del mapa se identifican mediante descriptores de apariencia. A partir de estos descriptores, se realiza la asociación de datos de un punto 3D con una característica 2D detectada en la imagen. En esta tesis se ha desarrollado una familia nueva de descriptores de apariencia llamada Gauge-Speeded Up Robust Features (G-SURF), los cuáles se basan en el uso de las coordenadas gauge. A partir de este tipo de representación, para cada píxel en la imagen se define un nuevo sistema de coordenadas basado en la estructura local alrededor del píxel de interés. Dicho sistema de coordenadas se define a partir del vector gradiente y la dirección perpendicular a este en el píxel de interés. Se ha realizado una evaluación experimental detallada en aplicaciones de matching, reconocimiento de categorías visuales y aplicaciones de reconstrucción 3D que demuestran la utilidad y mejores resultados de los descriptores G-SURF con respecto a otras propuestas en el estado del arte tales como los descriptores Scale Invariant Feature Transform (SIFT) o SURF. En las aplicaciones de localización visual, uno de los pasos que presentan una mayor carga computacional es la asociación de datos entre un mapa grande de puntos 3D y las características 2D detectadas en la imagen. Los métodos tradicionales normalmente basan esta asociación de datos únicamente en información de apariencia. Estos algoritmos pueden llevar una carga computacional elevada y en entornos con texturas repetitivas, dicha asociación de datos puede dar lugar a corresponencias erróneas. En esta tesis se ha desarrollado un algoritmo para la predicción de la visibilidad de puntos 3D utilizando técnicas de aprendizaje sobre una reconstrucción 3D previa. Gracias a estas técnicas de aprendizaje, se obtiene una mejor y más rápida asociación de datos gracias a la predicción de la visibilidad de los puntos 3D para una pose de cámara. Se han desarrollado y evaluado algoritmos de SLAM y localización visual utilizando información de una sola cámara y un mapa 3D previo para dos aplicaciones diferentes de gran interés: robots humanoides y personas con deficiencia visual. En el caso de los robots humanoides, se ha evaluado el algoritmo desarrollado de localización visual monocular con predicción de visibilidad en distintos escenarios y diversos tipos de secuencias tales como trayectorias rectangulares, circulares, con personas moviéndose en el entorno, cambios de iluminación, etc. Se ha realizado una comparativa del error del sistema de localización y mapeado con respecto a un sistema preciso de captura de movimiento, que demuestra que los errores son del orden de pocos centímetros. También se ha comparado el sistema de localización visual con el algoritmo Parallel Tracking and Mapping (PTAM), obteniendo mejores resultados con el sistema de localización visual propuesto en esta tesis. Respecto a la aplicación de localización de personas con deficiencia visual, se ha evaluado un sistema de localización visual monocular en secuencias de interiores de tipo oficina. También, se ha evaluado el sistema de visual SLAM con detección de objectos de movimiento en pruebas reales con usuarios invidentes considerando entornos interiores muy dinámicos tales como el interior de la estaci´on de trenes de Atocha (Madrid, España) y en la ciudad de Alcalá de Henares (Madrid, España). Los resultados obtenidos demuestran que los algoritmos desarrollados puede ser de gran interés para aplicaciones de localización de usuarios invidentes en grandes entornos.

    • English

      Nowadays, 3D applications have recently become a more and more popular topic in robotics, computer vision or augmented reality. By means of cameras and computer vision techniques, it is possible to obtain accurate 3D models of large-scale environments such as cities. In addition, cameras are low-cost, non-intrusive sensors compared to other sensors such as laser scanners. Furthermore, cameras also offer a rich information about the environment. One application of great interest is the vision-based localization in a prior 3D map. Robots need to perform tasks in the environment autonomously, and for this purpose, is very important to know precisely the location of the robot in the map. In the same way, providing accurate information about the location and spatial orientation of the user in a large-scale environment can be of benefit for those who suffer from visual impairment problems. A safe and autonomous navigation in unknown or known environments, can be a great challenge for those who are blind or are visually impaired. Most of the commercial solutions for visually impaired localization and navigation assistance are based on the satellite Global Positioning System (GPS). However, these solutions are not suitable enough for the visually impaired community in urban-environments. The errors are about of the order of several meters and there are also other problems such GPS signal loss or line-of-sight restrictions. In addition, GPS does not work if an insufficient number of satellites are directly visible. Therefore, GPS cannot be used for indoor environments. Thus, it is important to do further research on new more robust and accurate localization systems. In this thesis we propose several algorithms in order to obtain an accurate real-time vision-based localization from a prior 3D map. For that purpose, it is necessary to compute a 3D map of the environment beforehand. For computing that 3D map, we employ well-known techniques such as Simultaneous Localization and Mapping (SLAM) or Structure from Motion (SfM). In this thesis, we implement a visual SLAM system using a stereo camera as the only sensor that allows to obtain accurate 3D reconstructions of the environment. The proposed SLAM system is also capable to detect moving objects especially in a close range to the camera up to approximately 5 meters, thanks to a moving objects detection module. This is possible, thanks to a dense scene flow representation of the environment, that allows to obtain the 3D motion of the world points. This moving objects detection module seems to be very effective in highly crowded and dynamic environments, where there are a huge number of dynamic objects such as pedestrians. By means of the moving objects detection module we avoid adding erroneous 3D points into the SLAM process, yielding much better and consistent 3D reconstruction results. Up to the best of our knowledge, this is the first time that dense scene flow and derived detection of moving objects has been applied in the context of visual SLAM for challenging crowded and dynamic environments, such as the ones presented in this Thesis. In SLAM and vision-based localization approaches, 3D map points are usually described by means of appearance descriptors. By means of these appearance descriptors, the data association between 3D map elements and perceived 2D image features can be done. In this thesis we have investigated a novel family of appearance descriptors known as Gauge-Speeded Up Robust Features (G-SURF). Those descriptors are based on the use of gauge coordinates. By means of these coordinates every pixel in the image is fixed separately in its own local coordinate frame defined by the local structure itself and consisting of the gradient vector and its perpendicular direction. We have carried out an extensive experimental evaluation on different applications such as image matching, visual object categorization and 3D SfM applications that show the usefulness and improved results of G-SURF descriptors against other state-of-the-art descriptors such as the Scale Invariant Feature Transform (SIFT) or SURF. In vision-based localization applications, one of the most expensive computational steps is the data association between a large map of 3D points and perceived 2D features in the image. Traditional approaches often rely on purely appearence information for solving the data association step. These algorithms can have a high computational demand and for environments with highly repetitive textures, such as cities, this data association can lead to erroneous results due to the ambiguities introduced by visually similar features. In this thesis we have done an algorithm for predicting the visibility of 3D points by means of a memory based learning approach from a prior 3D reconstruction. Thanks to this learning approach, we can speed-up the data association step by means of the prediction of visible 3D points given a prior camera pose. We have implemented and evaluated visual SLAM and vision-based localization algorithms for two different applications of great interest: humanoid robots and visually impaired people. Regarding humanoid robots, a monocular vision-based localization algorithm with visibility prediction has been evaluated under different scenarios and different types of sequences such as square trajectories, circular, with moving objects, changes in lighting, etc. A comparison of the localization and mapping error has been done with respect to a precise motion capture system, yielding errors about the order of few cm. Furthermore, we also compared our vision-based localization system with respect to the Parallel Tracking and Mapping (PTAM) approach, obtaining much better results with our localization algorithm. With respect to the vision-based localization approach for the visually impaired, we have evaluated the vision-based localization system in indoor and cluttered office-like environments. In addition, we have evaluated the visual SLAM algorithm with moving objects detection considering test with real visually impaired users in very dynamic environments such as inside the Atocha railway station (Madrid, Spain) and in the city center of Alcalá de Henares (Madrid, Spain). The obtained results highlight the potential benefits of our approach for the localization of the visually impaired in large and cluttered environments.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno