Visual-inertial direct slam for piecewise-planar environments

Alejo Concha Belenguer

Ayuda

Visual-inertial direct slam for piecewise-planar environments

Autores: Alejo Concha Belenguer
Directores de la Tesis: Javier Civera Sancho (dir. tes.)
Lectura: En la Universidad de Zaragoza ( España ) en 2017
Idioma: español
Tribunal Calificador de la Tesis: Stefan Leutenegger (presid.), Juan Domingo Tardos Solano (secret.), Cesar Dario Cadena Lerma (voc.)
Programa de doctorado: Programa de Doctorado en Ingeniería de Sistemas e Informática por la Universidad de Zaragoza
Texto completo no disponible (Saber más ...)
Resumen
- El objetivo del SLAM --cuyo acrónimo se refiere a localización y mapeo simultáneos-- es la localización de un robot con respecto a un mapa que se construye simultáneamente mientras el sensor principal del robot está explorando el entorno.
  
  SLAM es una tecnología muy relevante que se puede usar en muchas aplicaciones donde la localización y el mapeo son necesarios. Por ejemplo, la realidad virtual (VR) o la realidad aumentada (AR) necesitan la localización de la cámara para que los objetos virtuales que se insertan en el mundo virtual/real sean coherentes con la realidad física.
  
  En navegación autónoma, es necesario mapear los objetos 3D y registrarlos con respecto a la translación y orientación del vehículo, que es estimado usando SLAM. SLAM es un problema muy complejo porque tiene que sincronizar diferentes bloques (como la localización de la cámara, el mapeo, el cierre de bucles o la relocalización) y en tiempo real. Además, para alcanzar una alta robustez y precisión es posible la fusión de diversos sensores (cámaras RGB, cámaras de profunfidad, IMU, Lidar, etc.).
  
  Si el principal sensor para hacer SLAM es una cámara monocular entonces el problema se denomina SLAM monocular.
  
  En esta tesis se han explorado principalmente dos áreas diferentes de investigación dentro del marco del SLAM monocular.
  
  En primer lugar, se ha estudiado el problema de mapeo 3D denso para zonas de baja y alta textura. En segundo lugar, se ha estudiado la fusión de sensores. Por un lado, hemos estudiado algoritmos para la fusión visual-inercial dentro del marco del SLAM directo. En un segundo estudio enmarcado en la fusión sensorial, y tambien dentro del marco del SLAM directo, hemos desarrollado un algoritmo para la fusión de cámaras monoculares y sensores de profundidad.
  
  El primer problema que se ha explorado en esta tesis es la reconstrucción 3D de entornos con baja textura. Los entornos de baja textura son un desafío en SLAM monocular ya que la triangulación de puntos en multiples vistas no consigue una precisión muy alta por la dificultad del emparejamiento. Asumimos que las zonas sin textura en la imagen se pueden modelar en la mayoría de casos como planos.
  
  Hemos estudiado un algoritmo para el emparejamiento de planos entre multiples vistas, inicialización y optimización de los parámetros del plano. Los planos se detectan usando superpíxeles (que son zonas en la imagen con color homogéneo) y son descritos usando el contorno del superpíxel. Para la inicialización y optimización del plano, el error de reproyección del contorno es minimizado. Para la inicialización se proponen dos algoritmos. El primero usa un algoritmo basado en técnicas de Montecarlo. El segundo, utiliza un mapa semi-denso y el contorno del superpíxel para la inicialización del plano. Una vez los superpíxeles 3D han sido inicializados, estos se refinan usando optimización no lineal. Ambos algoritmos funcionan en tiempo real en la CPU.
  
  En el segundo trabajo de nuestra tesis hemos usado las mencionadas reconstrucciones planares (que nombraremos precondiciones planares a partir de ahora) para mejorar la precisión de los métodos de mapeo denso. Los métodos variacionales son algoritmos estándar para mapeo denso que minimizan un funcional compuesto de dos términos, uno que tiene en cuenta las restricciones fotométricas y otro que asume suavidad en los píxeles vecinos que tienen un color similar. Estos métodos pueden fallar en zonas de la imagen con baja textura. Por esta razón, añadimos un término (o precondición) planar para la correcta estimación de estas zonas.
  
  Las precondiciones planares pueden venir de tres fuentes de información diferentes. La primera es la ya mencionada reconstrucción planar basada en superpíxeles. La segunda precondición consiste en asumir que la secuencia es grabada en una habitación con forma de octoedro, que es estimado y usado como restricción planar. La tercera precondición consiste en utilizar un algoritmo que es capaz de aprender patrones de profundidad planares a partir de información RGB. Las tres precondiciones planares se incorporan en la formulación variacional y se obtiene un algoritmo que mejora las prestaciones de los algoritmos de reconstrucción densa del estado del arte. Además, se evaluan diferentes funciones de coste robusta en los diferentes términos del funcional concluyendo que las funciones de coste que saturan para valores grandes del error son muy útiles para mejorar la precisión del algoritmo. La razón es que hay valores erróneos y estos tienen que ser descartados por el algoritmo. Estos valores erróneos se deben principalmente a oclusiones en el término fotométrico o a malas estimaciones de los planos en la precondición planar.
  
  Siguiendo estas ideas, se implementa un demostrador en tiempo real. Específicamente, se implementa un sistema de SLAM directo (semi-denso) que utiliza el mapa semi-denso para hacer reconstrucciones planares (como ya se ha comentado anteriormente). Obtenemos consistencia global en el mapa al incorporar al sistema algoritmos estándar de cierre de bucles y además se reutiliza el mapa cuando es posible en vez de crear nuevo mapa cuando la cámara esta visitando una zona ya visitada antes, y de esta forma por lo tanto evitamos la deriva en escala.
  
  Utilizando este sistema de SLAM directo, se presenta una solución para realizar localización directa semi-densa con sensores visuales e inerciales. Este método es una de las primeras aproximaciones para resolver este problema. La principal ventaja de esta configuración es la estimación de la escala real. Los resultados obtenidos son comparables a los del estado del arte. Además, una formulacion para mapeo probabilístico con sensores inerciales y visuales tambien se presenta en esta tesis, donde los puntos del mapa, la traslación y rotación de la cámara y las medidas inerciales son optimizadas. Además, un término adicional que tiene en cuenta la suavidad del mapa se incorpora a la formulación, este término es particularmente útil para evitar que la optimización llegue a una solución de mínimo local.
  
  Finalmente, se ha realizado un algoritmo de SLAM para cámaras RGB-D. La aproximación estándar para realizar localización RGB-D es la minimización conjunta del error denso fotométrico y geométrico.
  
  En esta tesis se evaluan diferentes configuraciones para la localización de la cámara, concluyendo que una combinación de la minimización del error de reproyección fotométrico semi-denso y el error geométrico denso da los mejores resultados en términos de precisión, robustez y eficiencia. Por otra parte, los sistemas de SLAM RGB-D normalmente no estiman la profundidad de los píxeles con profundidad desconocida por el sensor de profundidad. En esta tesis fusionamos el sensor de profundidad con la triangulación multivista RGB, dando lugar a un sistema que es capaz de estimar las profundidades no estimadas por el sensor RGB-D y por tanto ser útil en entornos donde el sensor de profundidad no funciona (en exteriores principalente). Esta propuesta es rigurosamente evaluada en el dataset publico de la TUM concluyendo que mejora las prestaciones de los demas sistemas SLAM de RGB-D del estado del arte y además funciona en tiempo real en la CPU.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: