The integration of cameras into a wide variety of devices, from mobile phones to robots, has boosted the development of efficient and reliable algorithms to exploit the visual data they provide. Whereas different tasks require specific solutions, two of them are among the most relevant in geometric computer vision, namely the localization of the camera and the 3D reconstruction of the scene. In fact, they are the cornerstone of more generic pipelines such as Visual Odometry (VO), Structure-from-Motion (SfM) and Simultaneous Localization and Mapping (SLAM), which encounter applicability in paramount fields such as self-driving cars, intelligent robots, augmented reality, or autonomous aerial systems. Despite the vast literature dealing with these two tasks, most of the proposed approaches come with a critical weakness: the found solution may not be the global optimal one, but a local minimum. This is so because the problem is stated through non-convex formulation that is usually solved with iterative algorithms, which are prone to get trapped in local minima. This issue becomes even more crucial because this non-optimality is unnoticed and may have an unpredictable effect on the performance and reliability of the whole pipeline. This thesis contributes a set of efficient algorithms that certify the optimality of the solution for these two relevant tasks under different assumptions of the camera motion and scene configuration.
First, we address the relative pose problem between two calibrated cameras and propose a series of certifiable algorithms that estimate and certify the solutions with different certification ratios and computational times. These results motivate the second set of contributions where fast certifiable algorithms are proposed for the relative pose when the axis of rotation is known for general and planar configurations. Our third contribution addresses the absolute pose for central and noncentral cameras and we provide a fast certifiable algorithm that certifies solutions even for random problem instances. Our last contribution tackles the triangulation problem for both two and N views for both planar and general configurations. For the minimal case with two views, we propose three different certifiable algorithms with different numbers of detected optimal solutions and computational times. For the nonminimal case with N views for both the general and planar scene, we propose a fast certifier empirically obtained in closed-form.
La incorporación de cámaras en prácticamente todos los dispositivos, desde teléfonos móviles hasta robots, ha motivado el desarrollo de algoritmos eficientes y fiables. La versatilidad de las cámaras se traduce en la misma variablidad de las aplicciones y sistemas que las utilizan, aunque hay dos tareas principales que suelen requrerirse en todos estos sistemas: localizar la cámara y reconstruir la escena que se ve en las imágenes. De hecho, estos dos problemas son la base en la que se construyen sistemas más complejos aunque genéricos, como visual odometry (VO), Simultaneous Localization and Mapping (SLAM) o Structure-from-Motion (SfM). A pesar de la amplia literartura disponible para estos dos problemas, la mayoría de los trabajos actuales sufren de un problema común: la nonconvexidad del problemas hace que haya, en general, varios mínimos locales. Los algoritmos iterativos que comúmente se usan para resolver estos problemas pueden devolver cualquiera de estos mínimos, no necesariamente la solución global. A priori, no hay manera de saber cómo de lejos los mínimos locales están del global y esta diferencia en calidad de la solución puede afectar a otros bloques que las usen e inluso al resultado final del sistema. En esta tesis proponemos un conjunto de algoritmos que son capaces de certificar soluciones óptimas para estas dos líneas de problemas, y en particular consideramos la especialización de estos bajo distintas suposiciones en cuanto a movimiento de la cámara y distribución de los puntos en el entorno.
Nuestra primera contribución se centra en el problema de la pose (rotación y traslación) relativa entre dos cámaras calibradas en la que proponemos una serie de algoritmos certificadores con distintos ratios de certificación y coste computacional. Basándonos en nuestras observaciones en estos trabajos, nuestra siguiente contribución es un algoritmo certificador iterativo para el problema de la pose, pero en este caso bajo la suposición de que el eje de gravedad es conocido, por ejemplo, por los datos de una Inertial Measurement Unit (IMU). Nuestra propuesta considera las configuraciones con un entorno general y aquellas en las que todos los puntos 3D pertenencen a un plano desconocido. Nuestra tercera contribución y la última en el tema de la pose considera el problema de la pose absoluta entre una cámara y un sistema de referencia. La propuesta se extiende a cámaras centrales y no-centrales, y es incluso capaz de certificar problemas con datos aleatorios. La última contribución de esta tesis aborda el problema de triangulación, contribuyendo a las configuraciones con dos vistas con puntos coplanares y N vistas (general) para puntos en configuración general y coplanares. Para el primer caso, proponemos tres algoritmos distintos que obtienen y/o certifican la solución a este problema, y cuyas principales diferencias radican en el número de soluciones óptimas detectadas y el coste computacional. Para el case no-minimo con N vistas/cámaras/imágenes, y dado el alto número de restricciones, nuestras propuestas optan por obtener y certificar de manera rápida la solución. Empíricamente observamos que el certificador trabaja con una formulación cerrada, reduciendo considerablemente el tiempo necesario para certificar soluciones.
© 2001-2026 Fundación Dialnet · Todos los derechos reservados