La reaparición de las Redes Neuronales Profundas, esta vez en la era del big data, e implementadas sobre hardware de alto rendimiento que reduce el tiempo de computación, ha cambiado el paradigma del aprendizaje automático, especialmente en el campo de la visión artificial. Mientras que los sistemas tradicionales basados en aprendizaje máquina emplean múltiples etapas y características diseñadas a mano para facilitar el proceso de aprendizaje, las Redes Neuronales Convolucionales aprenden automáticamente las características que maximizan dicho proceso de extremo a extremo, es decir, desde las propias imágenes hasta la salida deseada. El propósito de esta tesis es mostrar cualitativamente la diferencia entre los sistemas multi-etapa que se basan en aprendizaje máquina tradicional y los sistemas de aprendizaje profundo de extremo a extremo, utilizando para ello diferentes aplicaciones como contexto.
En primer lugar, se ha desarrollado un sistema de reconocimiento de gestos dinámicos de manos, donde dos de los aspectos clave son descriptores de imagen y video, y el diseño del sistema completo formado por múltiples etapas. Estos descriptores han sido diseñados para lidiar con las dificultades de los sistemas basados en visión, como los cambios de iluminación, las variaciones intra-clase e inter-clase y transformaciones que pueden sufrir los gestos. Las diferentes etapas del sistema resuelven pasos intermedios que son necesarios para aplicar con éxito los descriptores anteriores. Dado que el sistema propuesto de reconocimiento de gestos ha sido pensado para una interfaz hombre-máquina, este comprende etapas de detección y seguimiento para localizar el objeto de interés, y una etapa de reconocimiento para categorizar el gesto realizado.
En segundo lugar, se han propuesto varios sistemas basados en aprendizaje profundo, o redes neuronales profundas, para hacer frente a las debilidades presentes en el aprendizaje tradicional. A diferencia del enfoque anterior, estos sistemas no involucran múltiples etapas, ni diseño de características. La arquitectura de estas redes depende de la tarea que se quiere resolver, de su complejidad y de la cantidad de datos disponibles. Siguiendo estas directrices, se han abordado aplicaciones más comunes como la detección de vehículos y el reconocimiento de gestos de la mano, y otras más novedosas en las que la visión puede jugar un papel importante, como las aplicaciones de robótica.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados