Estimación probabilística del grado de excepcionalidad de un elemento arbitrario en un conjunto finito de datos. Aplicación de la teoría de conjuntos aproximados de precisión variable

Alberto Fernández Oliva

Ayuda

Estimación probabilística del grado de excepcionalidad de un elemento arbitrario en un conjunto finito de datos. Aplicación de la teoría de conjuntos aproximados de precisión variable

Autores: Alberto Fernández Oliva
Directores de la Tesis: María Covadonga Fernández Baizán (dir. tes.), Francisco Maciá Pérez (dir. tes.)
Lectura: En la Universitat d'Alacant / Universidad de Alicante ( España ) en 2010
Idioma: español
Tribunal Calificador de la Tesis: Juan Manuel García Chamizo (presid.), Jesús Peral Cortés (secret.), María Concepción Pérez Llera (voc.), Octavio Santana Suárez (voc.), José Rafael Pérez Aguiar (voc.)
Materias:
- Matemáticas
  - Estadística
    - Análisis de datos
Texto completo no disponible (Saber más ...)
Resumen
- La detección de casos excepcionales (outlier detection), que originalmente es una aplicación de técnicas estadísticas, es un campo que actualmente toma gran relevancia dentro del proceso de KDD (descubrimiento de conocimiento en bases de datos) y en especial dentro de la etapa Data Mining (DM), minería de datos; de dicho proceso. Si en el DM uno de los objetivos fundamentales es extraer patrones de conocimiento a partir de grandes volúmenes de datos lo más generales posible, patrones que son la expresión de tendencias que ignoran por tanto la marginalidad o excepcionalidad; en el caso de la detección de outliers, se adopta el punto de vista opuesto. Esto puede reportar hallazgos de conocimiento de importancia estratégica en una variada gama de aplicaciones: detección de fraudes, detección de accesos ilegales a redes corporativas, detección de errores en datos de entrada, criminología, psicología, etc. El desarrollo y la aplicación de nuevos métodos de detección de outliers que se correspondan con las características de las bases de datos de hoy en día (alta dimensionalidad, grandes volúmenes de información, posibilidad de que la información este distribuida en diversos sitios, dinamismo, mezclas de atributos de diverso tipo: cada vez con mayor frecuencia aparecen en los conjuntos de datos corporativos o de interés para un determinado problema, parámetros o variables no ordinales, expresados de forma categórica, etc) es una necesidad vital para la eficiencia del proceso y constituye un problema importante que debe ser abordado en diferentes contextos científicos y /o estratégicos.
  
  Teniendo en cuenta que no se dispone de una aproximación universalmente aplicable de detección de outliers y que, como ya hemos planteado, se deben centrar los esfuerzos en la selección de métodos aceptables y eficientes para cada conjunto de datos, este tema de investigación es aún muy abierto y, en consecuencia, siguen apareciendo referencias a nuevos modelos y nuevos métodos basados en distintos enfoques y aproximaciones al problema en cuestión.
  
  El punto de partida de nuestra investigación es un trabajo presentado en la edición del 2005 del congreso RSFDGrC (Rough Sets, Fuzzy Sets, Data Mining, and Granular-Soft Computing) bajo el título Outlier detection using Rough Sets Theory (Jiang, Sui, & Cao, Outlier detection using rough sets theory., 2005). Los estudios previos y los resultados de F.Jiang, Y.Sui y C.Cao además de establecer el marco teórico del presente trabajo de investigación, constituyen a su vez el primer antecedente de la utilización de la Teoría de Rough Sets en el campo de outlier detection.
  
  La Teoría de Rough Sets RS (conjuntos aproximados), fue propuesta en 1986 por el recientemente fallecido Profesor Z. Pawlak, de la Universidad Tecnológica de Varsovia (Pawlak, 1991) es una extensión de la Teoría de Conjuntos para su aplicación al caso de información incompleta y/o insuficiente. Esta teoría surge a partir de la necesidad práctica de resolver problemas de clasificación y en ella se asume que junto a cualquier objeto del universo hay asociada una cierta cantidad de información: El conocimiento que se tiene acerca de dicho objeto y el cual se expresa mediante valores asociados a un conjunto de atributos (propiedades) que describen a dicho objeto.
  
  En los últimos años la aplicación de la Teoría de Rough Sets en múltiples contextos investigativos pone de manifiesto su efectividad en la solución de disímiles problemas. Especialmente ha sido aplicada con resultados elocuentes en los procesos de KDD-Data Mining. Lo anteriormente expresado queda justificado por un gran número de trabajos en esta dirección que han sido presentados en congresos y/o publicaciones prestigiosas a nivel internacional en los últimos años. Ello demuestra la versatilidad de dicha teoría y sus disímiles entornos de aplicación. La Teoría de Rough Sets además, tiene el atractivo añadido de contar con una base matemática simple y sólida: La teoría de relaciones de equivalencia que aquí permite describir particiones constituidas por clases indiscernibles que agrupan a objetos con atributos similares. Es una metodología de clasificación de datos. En contraposición a la simplicidad matemática planteada, su aplicación conduce a la extracción de reglas muy fiables, pero en algunos casos poco representativas (escaso soporte). Una generalización del Modelo es la propuesta por W.Ziarko, el VPRSM (Variable Precision Rough Sets Model) (Ziarko W. , 1993 ) que subsana la dificultad anterior, partiendo de una idea muy simple. La relajación del concepto de inclusión de conjuntos, manejando unos umbrales definidos por el usuario.
  
  Por tanto, como punto de partida de esta investigación se realiza:
  
  - Un análisis crítico de la propuesta de Jiang et al.
  
  Tomando en consideración que el método de detección propuesto se basa desde el punto de vista teórico-matemático en la Teoría de Rough Sets resulta necesario además:
  
  - Hacer un estudio de los aspectos esenciales que caracterizan a dicha Teoría.
  
  A partir del estudio de los trabajos de Jiang et al., se valoran como positivos los siguientes aspectos:
  
  - Simplicidad del planteamiento formal.
  
  - Aporta marco teórico pero sin materializar una solución lo cual permite desarrollar la idea - Su enfoque es novedoso: bases teórico matemáticas simples y sólidas (Teoría de RS) - A partir de la aplicación de la Teoría de RS se puede modelar una amplia gama de situaciones - No hay antecedentes del uso de RS en outlier detection Sin embargo se detectan las siguientes limitaciones:
  
  - Una instrumentación computacional a partir de la definición de outlier dada conlleva a caer en un problema no tratable computacionalmente - El método propuesto por estar basado en el modelo básico de RS hereda las imitaciones del mismo en lo que respecta a su incapacidad para modelar situaciones donde se requiera que la clasificación se haga con un grado controlado de incertidumbre o un posible error de clasificación.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: