Esta tesis se centra en el estudio de vocabularios visuales para el reconocimiento de categorías de objetos en imágenes. El objetivo que perseguimos no es solo que estos vocabularios sean más compactos y discriminativos, sino que también permitan caracterizar la información semántica presente en las imágenes. Así, la tesis comienza describiendo una nueva propuesta que garantiza la obtención de vocabularios en los que las palabras visuales son representativas para cada una de las clases. La metodología diseñada se basa en la maximización de un nuevo criterio para medir la precisión de los clusters. Además, la tesis describe un algoritmo, basado en las técnicas conocidas como correlation clustering, que consigue reducir el tamaño del vocabulario, a la vez que lo hace m´as discriminativo. La tesis también aborda la utilización de algoritmos de clustering aggregation para de nuevo conseguir vocabularios visuales que sean semánticos y que mejoren la eficiencia de los sistemas de categorización de objetos. La nueva propuesta incorpora en el proceso de construcción del vocabulario tanto información local como de apariencia de los descriptores que han sido extraídos de las imágenes de entrenamiento. El problema de la cuantificación eficiente de vectores en espacios de altas dimensiones, para por ejemplo la obtención de palabras visuales, es otra de las líneas de trabajo de esta tesis. Se presenta una versión acelerada del algoritmo de clustering aglomerativo conocido como clustering de vecinos recíprocos más cercanos (RNN). El algoritmo propuesto utiliza el paradigma de la búsqueda por proyección para acelerar la construcción de las cadenas de vecinos más cercanos que se utilizan de forma intensiva en el algoritmo RNN. Finalmente, destacar que la tesis también se enfrenta al problema del diseño y construcción de una base de datos de imágenes para la evaluación y comparación de algoritmos de reconocimiento y detección de categorías de objetos. La nueva base de datos se denomina Image Collection of Annotated Real-world Objects (ICARO).
This thesis focuses on the study of visual vocabularies for category-level object recognition. Specifically, we state novel approaches for building visual codebooks. Our aim is not just to obtain more discriminative and more compact visual codebooks, but to bridge the gap between visual features and semantic concepts. A novel approach for obtaining class representative visual words is presented. It is based on a maximisation procedure, i. e. the Cluster Precision Maximisation (CPM), of a novel cluster precision criterion, and on an adaptive threshold refinement scheme for agglomerative clustering algorithms based on correlation clustering techniques. The objective is to increase the vocabulary compactness while at the same time improve the recognition rate and further increase the representativeness of the visual words. Moreover, we describe a novel clustering aggregation based approach for building efficient and semantic visual vocabularies. It consist of a novel framework for incorporating neighboring appearances of local descriptors into the vocabulary construction, and a rigorous approach for adding meaningful spatial coherency among the local features into the visual codebooks. We also propose an efficient high-dimensional data clustering algorithm, the Fast Reciprocal Nearest Neighbours (Fast-RNN). Our approach, which is a speeded up version of the standard RNN algorithm, is based on the projection search paradigm. Finally, we release a new database of images called Image Collection of Annotated Real-world Objects (ICARO), which is especially designed for evaluating category-level object recognition systems. An exhaustive comparison of ICARO with other well-known datasets used within the same context is carried out. We also propose a benchmark for both object classification and detection.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados