Ayuda
Ir al contenido

Dialnet


Resumen de Deep learning-based multi-target association for single and multi-camera tracking

Elena Luna García

  • El seguimiento de múltiples objetivos no vistos previamente en secuencias de vídeo es una etapa importante para la automatización de muchas tareas basadas en imágenes. Por ello, el seguimiento de objetivos basado en información visual es un área de investigación muy activa y atractiva en el campo de la visión artifcial. El interés suscitado está motivado por el desarrollo de ordenadores de gran potencia y de cámaras asequibles de alta calidad, así como por la creciente demanda de análisis de vídeo automatizado para numerosas aplicaciones, como la conducción autónoma, la vídeo vigilancia, el análisis del comportamiento y la realidad aumentada, entre otras. El paradigma de seguimiento por detección es el más utilizado. Consiste, en primer lugar, en detectar los objetivos y, en segundo lugar, asociarlos para formar trayectorias. La tarea de asociación se realiza a nivel temporal cuando sólo hay una cámara grabando la escena, sin embargo, si la escena es grabada por varias cámaras, esta debe hacerse también entre cámaras. En esta tesis, nos centramos principalmente en la tarea de asociación de múltiples objetivos tanto para el seguimiento de una, como de varias cámaras, sin embargo, el escenario multi-cámara es el que hemos explorado más a fondo. La asociación de datos entre cámaras es crucial para el rendimiento fnal del seguimiento multi-cámara y normalmente se realiza utilizando características visuales. Con la llegada del Deep Learning, la gran mayoría de las propuestas han dirigido últimamente sus esfuerzos hacia el aprendizaje, de mejores características de apariencia visual, en lugar de centrarse en la asociación en sí. Un enfoque típico consiste en entrenar una red neuronal convolucional para obtener las mejores características de apariencia posibles basadas en Deep Learning, que luego son utilizadas para realizar la asociación de forma codiciosa no supervisada. Esta tesis se divide en dos partes, las cuales exploran propuestas no supervisadas y supervisadas, respectivamente. En concreto, la primera parte de esta tesis propone dos algoritmos de seguimiento de múltiples objetivos utilizando enfoques de asociación no supervisados. En primer lugar, se propone un novedoso enfoque de seguimiento online de multiples objetivos en entornos mono-cámara, en el que se utiliza una única red neuronal convolucional para detectar y extraer conjuntamente los descriptores de características. La asociación temporal se realiza de manera no supervisada fotograma a fotograma, lo que permite la operación online. En segundo lugar, se presenta una propuesta de seguimiento online de múltiples objetivos multi-cámara. Aprovechando las características de apariencia aprendidas, junto con la información espacial 3D, se realiza una asociación no supervisada de agrupación jerárquica entre cámaras. A continuación, se realiza una asociación temporal no supervisada. Ambas asociaciones se realizan fotograma a fotograma, lo que da como resultado un algoritmo de seguimiento de baja latencia, online y sin post-procesado. La segunda parte de esta tesis explora cómo mejorar la asociación entre cámaras, con el fn de mejorar el rendimiento del seguimiento multi-cámara, considerando estrategias de asociación supervisadas. En primer lugar, se presenta un nuevo enfoque supervisado para la asociación de datos entre cámaras. La propuesta consiste en entrenar una arquitectura de red neuronal de grafos a través de una estrategia de paso de mensajes, en la que cada nodo del grafo representa la detección en una cámara. De esta manera se aprende conjuntamente tanto las características de cada detección como la métrica de similitud. En segundo lugar, se presenta una novedosa propuesta que utiliza redes neuronales de grafos para el seguimiento de múltiples objetivos en mútiples cámaras. En este caso, cada nodo representa una trayectoria completa de un objetivo en una sola cámara, y la red se entrena para, de forma supervisada, asociarlos para calcular trayectorias multi-cámara. También se presenta una nueva función de optimización calculada de forma dinámica para hacer frente al desbalanceo de clases


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus