Ayuda
Ir al contenido

Dialnet


Resumen de Algoritmo multiclasificador con aprendizaje incremental que manipula cambios de conceptos

Agustín Ortiz Díaz

  • Título: Algoritmo Multiclasificador con Aprendizaje Incremental que Manipula Cambios de Conceptos.

    Nombre: Agustín Alejandro Ortíz Díaz.

    Universidad: Universidad de Granada.

    Departamento: Departamento de Ciencias de la Computación e Inteligencia Artificial.

    Directores: ¿ Director: Gonzalo Ramos Jiménez.

    ¿ Director: Rafael Morales Bueno.

    ¿ Director: Yailé Caballero Mota.

    Descriptores ¿ Informática.

    ¿ Inteligencia Artificial.

    Resumen.

    En las últimas décadas, el almacenamiento, organización y recuperación de la información se ha automatizado gracias a los sistemas de bases de datos, pero la ubicuidad de la información en formato electrónico ha empezado a ser patente a finales de siglo XX con la irrupción de Internet. Como resultado de este tremendo crecimiento, los datos brutos, se han convertido en una vasta fuente de información. La mayoría de las decisiones de empresas, organizaciones e instituciones se basan en información sobre experiencias pasadas extraídas de fuentes muy diversas por lo que el verdadero valor de los datos radica en la posibilidad de extraer de ellos información útil para la toma de decisiones o la exploración y comprensión de los fenómenos que le dieron lugar [1]. Más importante aún es, además del conocimiento que puede inferirse y la capacidad de poder usarlo, tener un conjunto de ¿estructuras¿ que a partir de antecedentes, comportamiento y otras características de los datos nos permitan predecir su comportamiento futuro [2].

    Para el análisis de datos con características especiales en cuanto a su dimensión, almacenados en grandes cantidades o que llegan en tiempo real desde diversas fuentes, normalmente se usan técnicas de minería de datos (del inglés, data mining) que no es más que la búsqueda de patrones e importantes regularidades en bases de datos de gran volumen [3]. La minería de datos es un paso esencial dentro de un proceso mucho más amplio cuyo propósito es el descubrimiento de conocimiento en bases de datos (del inglés, Knowledge Discovery in Databases, KDD). Asociado a este proceso existe otro campo de la ciencia de la computación llamado aprendizaje automático (machine learning), que trata de crear programas capaces de generalizar comportamientos a partir de una información no estructurada suministrada en forma de ejemplos [4].

    La clasificación es una tarea de la minería de datos ampliamente abordada desde distintas áreas del aprendizaje automático. Dos de las principales familias de técnicas de clasificación están formadas por los sistemas de inducción de modelos, fuera de línea (del inglés, off¿line) y en línea (del inglés on-line). Los primeros necesitan que todos los ejemplos necesarios para describir el dominio del problema estén disponibles antes del proceso de aprendizaje y los segundos están diseñados para procesar grandes secuencias de datos, potencialmente infinitas, que se van adquiriendo a lo largo del tiempo, conocidas como flujos de datos (del inglés, datastream) [5].

    Uno de los grandes problemas de trabajar con flujos de datos es que la función de distribución de probabilidad a partir de la cual son generados estos puede variar en el tiempo. Esto puede traer como consecuencia que el aprendizaje logrado a partir de datos pasados puede tornarse inconsistente con respecto a la información que trasmiten los datos actuales. Como consecuencia, cambios ocurridos en el contexto pueden inducir variaciones en el modelo de aprendizaje utilizado, dando lugar a lo que se conoce como cambio de concepto (de inglés, concept drift) [5].

    Existen muchos modelos de aprendizaje adaptados para resolver problemas de clasificación en el contexto planteado, entre estos se puede citar, sistemas basados en reglas, Naïve Bayes, máquinas de soporte vectorial, redes neuronales artificiales, árboles de decisión, entre otros. Sin embargo, en trabajos muy recientes, que abordan temas de clasificación sobre flujos de datos con presencia de cambios de conceptos, se ha prestado una especial atención a los sistemas multiclasificadores ya que proporcionan un mecanismo que combina de manera eficaz un conjunto de clasificadores obteniendo un modelo más complejo que un clasificador simple pero también más preciso [6].

    Todo lo antes planteado, constituye una problemática a la cual aún la ciencia no ha dado respuestas definitivas, para tratar de dar un paso más en este sentido, en la investigación actual se plantea la siguiente interrogante que constituye su problema de investigación: ¿Cómo obtener un algoritmo multiclasificador con aprendizaje incremental para minar flujos de datos, que sea capaz de manipular cambios de conceptos graduales, abruptos o recurrentes? Así, el objetivo de este trabajo es: Desarrollar un algoritmo con aprendizaje incremental para minar flujos de datos que sea capaz de manipular cambios de conceptos graduales, abruptos o recurrentes.

    Se considera que: Con la propuesta de un algoritmo de multiclasificación, que parte del análisis de las características fundamentales de la familia de algoritmos MultiCIDIM, con aprendizaje incremental para minar flujos de datos, que sea capaz de manipular cambios de conceptos graduales, abruptos o recurrentes, se podrían obtener modelos más complejos y precisos para la tarea de clasificación. Siendo lo anterior la hipótesis de esta tesis doctoral.

    Para alcanzar el objetivo propuesto el doctorando se propuso las siguientes tareas de investigación: Estudio teórico de conceptos y sistemas relacionados con los campos de investigación: descubrimiento de conocimiento en bases de datos, minería de datos y aprendizaje automático. Análisis y estudio de los algoritmos de multiclasificación basados en CIDIM (MultiCIDIM-DS, MultiCIDIM-DS-CFC).

    Revisión y estudio bibliográfico de trabajos que proponen métodos de clasificación y multiclasificación para aprendizaje incremental.

    Análisis de trabajos que proponen métodos de clasificación y multiclasificación para el aprendizaje incremental que se adaptan a cambios de conceptos en los datos.

    Selección y propuesta de nuevas ideas, partiendo de la familia de algoritmos MultiCIDIM, para obtener un nuevo algoritmo de multiclasificación capaz de manipular de forma eficiente los diferentes tipos de cambios de conceptos.

    Diseño e Implementación de algoritmos basados en las ideas propuestas.

    Identificación de las metodologías de evaluación de algoritmos adecuadas para el aprendizaje incremental con cambios de conceptos, así como de las métricas utilizadas por estas.

    A lo largo de la presente investigación y de forma ordenada se han ido solucionando las tareas propuestas, la cuales guiaron el trabajo hasta los resultados finales: Como primer paso, se realizó una descripción de los principales conceptos en las áreas de investigación de descubrimiento de conocimiento, minería de datos y aprendizaje automático; lo que permitió enmarcar la investigación dentro del área que estudia los algoritmos de clasificación con aprendizaje incremental diseñados para el trabajo sobre grandes flujos de datos en presencia de diferentes tipos de cambios de conceptos.

    En segundo, se realizó un estudio de los principales modelos de aprendizaje que han sido adaptados para trabajar de forma incremental sobre grandes flujos de datos en presencia de cambios de conceptos. Esto permitió determinar que en los últimos años ha existido un notable aumento en la cantidad de investigaciones científicas relacionadas con los sistemas multiclasificadores vinculados a la minería de grandes flujos de datos en presencia de cambios de conceptos; sin embargo, se constató que el tratamiento de conceptos recurrentes, que emplea este tipo de modelos, no ha experimentado el mismo aumento de popularidad. Posteriormente se realizó un análisis de las principales metodologías, herramientas de software y conjuntos de datos empleados en la evaluación y comparación de algoritmos incrementales diseñados para el trabajo sobre grandes flujos de datos en presencia de cambios de conceptos. Esto permitió distinguir varios parámetros imprescindibles en la evaluación de los algoritmos tratados: Precisión de los algoritmos, tiempo de ejecución, memoria utilizada, comportamiento de los algoritmos en el periodo de transición de un concepto a otro, tiempo de recuperación después de un cambio de concepto, entre otros.

    Ya cimentadas las bases de la investigación, se tomó como punto de partida para el diseño de un nuevo algoritmo de multiclasificación a los algoritmos MultiCIDIM-DS y MultiCIDIM-DS-CFC. Después de un estudio de sus principales características, se determinó que estos algoritmos están perfectamente adaptados para el trabajo sobre grandes flujos de datos; sin embargo, a pesar de contar con los mecanismos más frecuentes de adaptación para el trabajo incremental (mecanismos para adicionar, actualizar y eliminar sus clasificadores básicos), estos tiene ciertas dificultades para adaptarse de forma rápida a los cambios de conceptos (sobre todo a cambios abruptos) y no cuentan con mecanismos para el tratamiento de conceptos recurrentes.

    De esta forma, se construyó un nuevo algoritmo multiclasificador, llamado ¿Multiclasificador de Adaptación Rápida¿ (FAE, del inglés Fast Adapting ensemble), diseñado para trabajar sobre flujos de datos y para adaptarse de forma rápida a cambios de conceptos graduales, abruptos y recurrentes. Entre las principales características del nuevo algoritmo están: ¿ Divide el flujo de datos de entrenamiento en bloques de igual tamaño para crear los clasificadores básicos.

    ¿ Cada clasificador básico tiene asociado un peso que se actualiza cada cierto número de ejemplos, sin tener que esperar a que el bloque de entrenamiento esté completo.

    ¿ Utiliza un sistema de votación por mayoría ponderado.

    ¿ Utiliza una nueva fórmula que le permite aumentar o disminuir el valor de cada peso asociado a cada clasificador básico según la precisión obtenida por estos últimos sobre los datos más actuales.

    ¿ Divide los clasificadores básicos en activo e inactivos. Utiliza los activos para clasificar en cada instante de tiempo y los inactivos como almacén de conceptos antiguos.

    ¿ Tiene diseñado un mecanismo para activar o inactivar clasificadores básicos. Los clasificadores inactivos se activan de forma muy rápida si reaparece el que concepto que ellos representan.

    FAE se implementó sobre el entorno de trabajo MOA debido a las características favorables de este último para el diseño experimentos en el contexto de esta investigación. Se diseñó un sistema de experimentación donde se tuvieron en cuenta, bajo simulación controlada, los distintos tipos de cambios de conceptos, tanto graduales, abruptos como recurrentes; para esto se construyeron varios conjuntos de datos utilizando los generadores de datos artificiales LED y SEA. Además, se experimentó con dos bases de datos reales, ¿electricity¿ y ¿Spam_Corpus¿.

    El nuevo algoritmo alcanzó resultados promisorios en las pruebas, en comparación con algoritmos bien conocidos implementados también en el entorno de trabajo MOA, teniendo en cuenta los parámetros: Precisión de los algoritmos, tiempo de ejecución, comportamiento de los algoritmos en el periodo de transición de un concepto a otro y tiempo de recuperación después de un cambio de concepto.

    Bibliografía.

    [1] Ruiz, R. Heurísticas de selección de atributos para datos de gran dimensionalidad. Departamento de Lenguajes y Sistemas Informáticos. Sevilla, Universidad de Sevilla, 2006.

    [2] Caballero, Y. Aplicación de la Teoría de los Conjuntos Aproximados en el Preprocesamiento de los Conjuntos de Entrenamiento para Algoritmos de Aprendizaje Automatizado. Departamento de Ciencias de la Computación. Santa Clara, Universidad Central "Marta Abreu" de la Villas, 2007.

    [3] Michalsky, R. y G. Tecuci. Machine Learning: A Multistrategy Approach. EE.UU, Morgan Kauffinan, 1994.

    [4] Hernández, J., M. Ramírez y C. Ferri. Introducción a la minería de datos. Prentice Hall, 2004.

    [5] Ferrer F.J., Aguilar J. S.: Minería de Data Streams: Conceptos y Principales Técnicas. Universidad de sevilla. 2005.

    [6] del Campo, J. Nuevos Enfoques en el Aprendizaje Incremental. Departamento de Lenguajes y Ciencia de la Computación. Málaga, Universidad de Málaga, 2007.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus