Ayuda
Ir al contenido

Dialnet


Resumen de Selection of relevant information to improve image classification using Bag of Visual Words

Eduardo Fidalgo Fernández

  • español

    En esta tesis hemos propuesto varias soluciones para mejorar la extracción de información de objetos de interés presentes en una imagen con la intención de mejorar su clasificación utilizando el método Bag of Words.

    Una de las características más usadas en este contexto es SIFT y es muy frecuente combinarlo con otras características que permiten mejorar la clasificación. Un ejemplo de ello es Edge-SIFT, que se obtiene extrayendo los descriptores SIFT de una imagen de bordes obtenida con el operador compass calculado con un radio determinado. En esta tesis evaluamos cómo afecta al cálculo de los descriptores Edge- SIFT la modificación del radio del operador compass, demostrando que el radio sugerido por la literatura no es el más adecuado en muchas situaciones a la hora de clasificar imágenes. También demostramos que si seleccionamos dicho radio para cada imagen la precisión aumenta. Finalmente proponemos un método para estimar el radio que deberíamos aplicar a un conjunto de imágenes. Este radio garantizará una tasa de acierto superior a la obtenida al utilizar el radio recomendado en la literatura.

    La segunda línea de investigación en esta tesis ha tratado sobre la eliminación – o filtrado – de información innecesaria usando diferentes estrategias basadas en máscaras obtenidas de un mapa de atención. Cuando los descriptores SIFT son extraídos densamente de toda la imagen, contienen información del fondo que dificulta la clasificación del objeto de interés. Por ello presentamos varias estrategias de filtrado basadas en mapas de atención y en los diferentes diccionarios que se pueden crear usando características de interés – las que están contenidas en el mapa de atención – y de fondo – el resto. La primera propuesta elimina puntos clave basándose en estos diccionarios de interés y fondo. Las otras dos estrategias filtran lo que hemos denominado regiones de atención, una de ellas basándose en la intersección de regiones del mapa de atención y la otra en una votación de puntos de interés usando los diccionarios de atención y fondo. En el capítulo correspondiente se podrá ver cómo todas ellas producen muy buenos resultados.

    Nuestra última línea de investigación lleva la propuesta anterior un paso más allá. En ella exploramos cómo se pueden usar y combinar más de un mapa de atención, y diferentes niveles de información contenidos dentro del mismo, para mejorar la clasificación de imágenes. Un mapa de atención se puede considerar como una superficie topográfica que muestra un nivel de atención visual. La cantidad de información que aparece a diferentes alturas de este nivel no tiene la misma importancia para la clasificación de imágenes. Hemos demostrado que la información que se extrae a diferentes alturas de un mapa de atención afecta a dicha clasificación, llamando a estos niveles “rebanadas de información”. Después de obtener la precisión global para cada una de ellas usando BoW en la clasificación de varios conjuntos de imágenes, hemos comprobado cómo la combinación de dichas rebanadas produce una mejor precisión que utilizando las características extraídas de cada rebanada por separado. Pero también hemos constatado que el aumento de rebanadas de información en el anterior proceso no implica mayor precisión y que si combinamos las rebanadas de diferentes mapas se obtienen valores intermedios a los que se obtendrían para esas rebanadas si se usan por separado.

    Pensamos que todas nuestras contribuciones para mejorar la selección de características aportarán a la comunidad investigadora alternativas para superar los problemas típicos que aparecen en el proceso inicial de la clasificación de imágenes.

    Esperamos también que las futuras líneas de trabajo alienten o sean motivo de investigaciones adicionales.

  • English

    In this thesis we have proposed several approaches to refine the extraction of features related with the objects of interest present in an image with the final objective of improving image classification when Bag of Visual Words (BoW) is used.

    One of the most common descriptors used in the BoW framework is SIFT which is very frequent to combine them with other features to improve image classification. It is the case of Edge-SIFT, which extracts SIFT descriptors from an edge image obtained with the compass operator. The resulting edges depend on the radius, which is one parameter of this operator. In this thesis, we evaluate how different radius values of the compass operator used for computing Edge-SIFT descriptors affect the image classification. We demonstrate that the radius recommended in the literature is not the most suitable for most of the situations and that choosing its value for each image increases even more the accuracy in the classification. And finally, we propose a method to estimate a value for the compass radius that yields better classification accuracy than the obtained using the one recommended by the literature.

    The second main research line in this thesis deals with how to remove - or how to filter - trifling information using different strategies based on masks obtained from a single saliency map. When dense SIFT descriptors are extracted from the whole image they contain information coming from the background that makes the correct classification of the objects of interest more difficult. We present several filtering strategies based on a single saliency map and the separate dictionaries that can be created using foreground or background features, i.e. features extracted from points inside or outside the saliency map, respectively. The presented strategies start removing only image key points based in these foreground vs. background dictionaries. They continue with filtering semantic attention regions using two different methods: one based on intersection of saliency maps regions and the other based on keypoint voting using again foreground and background dictionaries. As we will present in the corresponding chapter, all of them produced very successful results.

    Our last research line takes the previous one a step forward. It explores how more than one saliency map and several information levels for each of them can be used and combined to improve image classification. A saliency map can be considered as a topographic surface that represents the level of visual attention. The amount of information displayed at different “heights” of this surface does not have the same X relevance for image classification. We demonstrate how the information extracted from different “heights” from a saliency map affects the classification. We will refer to these levels of information as saliency information slices - SIS. After obtaining the global accuracy for each individual information slice using BoW to classify several image datasets, we demonstrated that their combination provides better results than when the features for each slice are used independently. When these SIS are combined, we also found out that increasing the number of slices does not lead us to an accuracy improvement and that combining slices from different saliency maps results in accuracies that are between the ones when they are not combined.

    We think that all our contributions will enhance feature selection provide to the research community several alternatives to outcome common problems in the initial stages of the image classification process when they are used standalone or combined with other strategies.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus