Feature selection based on information theory

Boyán I. Bonev

Ayuda

Feature selection based on information theory

Autores: Boyán I. Bonev
Directores de la Tesis: Francisco Escolano Ruiz (dir. tes.), Miguel Cazorla Quevedo (dir. tes.)
Lectura: En la Universitat d'Alacant / Universidad de Alicante ( España ) en 2010
Idioma: inglés
Tribunal Calificador de la Tesis: José Oncina Carratalá (presid.), Domingo Gallardo López (secret.), Antonio Peñalver Benavent (voc.), Antonio Bandera (voc.), Petia Radeva (voc.)
Materias:
- Matemáticas
  - Ciencia de los ordenadores
    - Informática
Texto completo no disponible (Saber más ...)
Resumen
- Con el aumento de la capacidad computacional de los ordenadores y de los métodos de adquisición de datos, la dimensionalidad de los datos es cada vez más alta, El campo de reconocimiento de patrones se enfrenta a problemas con muestras compuestas por miles de características y la reducción de su dimensionalidad es un preproceso crucial para hacerlas tratables.
  
  En la presente tesis proponemos un método de selección de características para clasificación supervisada. La principal aportación es el uso eficiente de la teoría de la información, que provee un marco teórico sólido para medir la relación entre las clases y las características. Se considera que la información mutua es la mejor medida para tal fin. Tradicionalmente ésta se ha utilizado para evaluar características de una en una, sin tener en cuenta sus interacciones dentro del conjunto. Esto es debido a la complejidad computacional implicada en su cálculo. Dado que muchos conjuntos de datos contienen características que no son independientes entre si, la suma de sus predicciones individuales no es igual a su predicción en conjunto.
  
  Una forma de estimar la información mutua es estimando la entropía. Los métodos basados en estimación de densidades sólo pueden ser usados para conjuntos de datos con un número de muestras muy alto, y pocas características (dimensiones). Por esta razón analizamos el uso de métodos de estimación de entropía que no necesitan estimar densidades. Estos métodos permiten evaluar de manera eficiente conjuntos de datos definidos por miles de características.
  
  Para los conjuntos de datos de alta dimensionalidad, otro de los problemas existentes es el orden en el espacio de búsqueda. Los algoritmos voraces son los más rápidos y que cometen menos sobreaprendizaje. Demostramos que, en términos de teoría de la información, un algoritmo voraz de eliminación de características hacia atrás, conserva la cantidad de información mutua, aunque el conjunto resultante no sea el mínimo.
  
  Validamos nuestro método en tres aplicaciones reales de diferentes campos. Lo aplicamos a la clasificación de imágenes omnidireccionales, a la selección de genes en problemas de clasificación para la predicción de enfermedades de cáncer, y por último a clasificación estructural basada en grafos. Las tres aplicaciones demuestran importantes mejoras de la clasificación en sus respectivos campos.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: