Ayuda
Ir al contenido

Dialnet


Resumen de Contribución a la segmentación en el espacio de colo HSI. Aplicación al reconocimiento gestual

Edward Rafael Blanco Marte

  • En esta tesis se presentan métodos que contribuyen a la segmentación en el espacio de color HSI para ser aplicados al reconocimiento gestual mediante visión computacional. Con las propuestas desarrolladas en esta tesis, se pretende ampliar y mejorar el proceso de extracción de características, presente en todo sistema de reconocimiento, para que la fase de clasificación sea mucho más robusta. En ese sentido, el objetivo fundamental, es el de proporcionar información precisa y robusta de la forma, posición y orientación de las manos y/o cara, de una persona generando gestos en una secuencia de imágenes en tiempo real, y que pueden estar afectadas por ruidos y cambios de iluminación.

    Una vez realizado el análisis correspondiente sobre el comportamiento del espacio HSI, determinando sus ventajas e inconvenientes, primeramente se propone una nueva alternativa de interpretación del espacio HSI a través del triestímulo YC1C2, por medio de unas nuevas ecuaciones de conversión entre ambos espacios. De igual manera, se determinan los problemas que surgen de la propiedad cíclica de la componente de Hue en los sistemas de clasificación en general, y en los utilizados en esta tesis en particular.

    La principal contribución de la tesis es una técnica que permite mejorar notablemente la segmentación de imágenes en color una vez proyectadas al plano HS, que se ha denominado "inyección de color". La idea que se propone es la de inyectar (sumar) un vector de color a la imagen captada en el espacio RGB, con el objetivo de maximizar la separación entre las clases objeto y fondo en el plano HS. En ese sentido, las no-linealidades del plano HS se aprovechan para obtener un aumento de la separación entre las clases, por medio de la inyección del vector de color en el espacio lineal RGB. Para la obtención del vector de color a inyectar se hace uso del plano C1C2. La técnica propuesta trata de obtener un vector de color óptimo (VCO) para así logar que en el plano HS las clases tengan máxima separación. La inyección de color está pensada para ser aplicada a secuencias de imágenes en aplicaciones de segmentación de objetos en imágenes de color y en tiempo real, permitiendo además, una disminución considerable de los efectos causados por las variaciones de intensidad luminosa.

    Una vez validados los beneficios proporcionados por la inyección de color como método de pre-procesamiento, en esta tesis se propone también, un método de segmentación activa (adaptativa) en tiempo real, capaz de compensar los efectos negativos causados por los cambios de iluminación. Para ello, se propone realizar el tracking de la Gaussiana del color del objeto (en nuestro caso el de la piel) por medio de un Filtro de Kalman. En este método de segmentación, se toma en consideración una propuesta de segmentación Gaussiana diseñada para segmentaciones de secuencias de imágenes y además, se proponen funciones de filtrado basadas en el truncado de la función de densidad de probabilidad (pdf). Estas funciones de filtrado son necesarias en el proceso de tracking.

    Para llevar a cabo el reconocimiento gestual, en esta tesis primeramente se propone un método de tracking espacial diseñado especialmente para realizar el tracking de las manos y/o cara. La propuesta consiste en eliminar la ambigüedad que se produce en las intersecciones de las manos, e intersecciones de las mismas con la cara, por medio del ajuste de una elipse en el plano imagen, y para cada objeto de interés. En este sentido, se utiliza un Filtro de Kalman para realizar la predicción del centro, ejes y orientación de cada elipse con el objetivo de proporcionar robustez al sistema de tracking.

    La extracción de características para el reconocimiento se lleva a cabo por medio de descriptores de formas basados en momentos invariantes. Con el objetivo de ofrecer características discriminantes de gran poder, se utiliza una fusión de tres propuestas presentadas por otros autores. El espacio de trabajo (vector de características), dado por el número de momentos invariantes, se reduce por medio de la técnica PCA (Análisis de Componentes Principales). Una vez seleccionadas las componentes principales, la clasificación se realiza por medio del mínimo error de recuperación. Este error viene dado por la diferencia entre el vector de momentos en el espacio original y el vector recuperado del espacio transformado dado por cada matriz de autovectores (los principales) de cada signo entrenado.

    Finalmente, en la tesis se han realizado numerosas pruebas experimentales, tanto simuladas, como reales con el objetivo de validar las propuestas realizadas. Se incluye la implementación práctica de las propuestas en tiempo real, para conformar un sistema de reconocimiento de signos de una mano, pensando en una potencial aplicación, por ejemplo, de ayuda a personas con diversidad funcional, y, más en concreto, en el reconocimiento de signos (por ejemplo, utilizando vocabularios dactilológicos) para la comunicación entre las comunidades sordo-muda y oyente. Los resultados experimentales obtenidos, altamente satisfactorios, ponen de manifiesto la validez, robustez y efectividad de las propuestas presentadas.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus