Resumen de Agrupamiento, predicción y clasificación ordinal para series temporales utilizando técnicas de machine learning: aplicaciones

Ayuda

Resumen de Agrupamiento, predicción y clasificación ordinal para series temporales utilizando técnicas de machine learning: aplicaciones

David Guijo Rubio

1. Introducción o motivación de la tesis En los últimos años, el interés por el aprendizaje automático ha aumentado de forma considerable. Este aumento se debe principalmente a las mejoras que proporciona sobre numerosos procedimientos estándar llevados a cabo en una gran variedad de áreas [1]. En la actualidad, la cantidad de datos disponibles y generados por cualquiera de estos procedimientos hace que la realización del proceso de forma manual sea muy laboriosa o, en muchos casos, irrealizable. Por lo tanto, el desarrollo de métodos automáticos para procesar y extraer información relevante de estas tareas es de suma importancia, especialmente por las ventajas que proporciona, ya sean en forma de beneficio económico o en forma de reducción de carga de trabajo en los empleos actuales.

Concretamente, esta Tesis se centra en la aplicación y desarrollo de técnicas de aprendizaje automático a problemas relacionados con series temporales, o lo que es lo mismo, conjuntos de datos recolectados cronológicamente [2]. Son numerosos los campos de la ciencia donde se pueden encontrar series temporales, entre otros los relacionados con la atmósfera [3] o con energías renovables [4], siendo algunos de ellos los considerados en esta Tesis. Por otro lado, en relación con las técnicas de análisis de datos aplicadas a series temporales, en esta Tesis se presentan propuestas relacionadas con el clustering o agrupación [5], la predicción [6], y la clasificación [7], ya sea nominal u ordinal, de series temporales. Además, de forma transversal a la relación de tareas relacionadas con el análisis de datos en series temporales, se ha trabajado con datos no temporales, a los que se han aplicado técnicas de regresión y clasificación [1], generalmente, para resolver problemas de actualidad relacionados con procesos de ingeniería y del ámbito de la salud.

En relación con las tareas de análisis de datos en series temporales, el clustering o agrupación persigue el objetivo de encontrar series temporales similares con la idea principal de descubrir patrones interesantes ocultos en el conjunto de datos [8]. Generalmente, esta tarea se asocia a un preprocesamiento del conjunto de datos, debido a la reducción del tamaño del mismo que se lleva a cabo. Por otro lado, la predicción de series temporales se basa en encontrar el próximo o próximos valores de la serie temporal mediante la consideración de los valores previos. Finalmente, la clasificación de series temporales consiste en establecer la categoría a la que pertenecen. Dicha clasificación se divide a su vez en dos subáreas: clasificación nominal y clasificación ordinal. La principal diferencia estriba en que el segundo tipo clasifica las series temporales en categorías que siguen un orden natural presente en el conjunto de datos, mientras que en el primer tipo no existe un orden preestablecido [9].

Por otra parte, en relación con las tareas de análisis de datos no temporales, se han seguido técnicas de regresión y clasificación. La principal diferencia entre ambas técnicas está en la variable de salida. En el caso de la regresión, la variable de salida es una variable continua, mientras que en la clasificación es una variable discreta o nominal [1].

Tradicionalmente, el análisis de datos en series temporales se ha llevado a cabo por medio de técnicas estadísticas. Sin embargo, en el desarrollo de esta Tesis se ha considerado el uso y desarrollo de diversos métodos de aprendizaje automático relacionados con las tres tareas mencionadas anteriormente. Muchas de estas técnicas han sido aplicadas a problemas de índole real, entre otros relacionados con la formación de niebla y procesos convectivos, altura de ola, energía solar, etc. En relación con el análisis de datos no temporales, las técnicas desarrolladas también han sido aplicadas a problemas reales, incluyendo, entre otros, aplicaciones de ingeniería o procedimientos relacionados con el ámbito de la salud.

2. Contenido de la investigación Durante el desarrollo de la Tesis se han propuesto diversas técnicas en las áreas anteriormente mencionadas. Esta Tesis se divide en cuatro áreas temáticas principales, las tres primeras relacionadas con series temporales: 1) clustering o agrupación, 2) predicción y 3) clasificación nominal y ordinal. Y la última relacionada con datos no temporales: 4) regresión y clasificación.

El primer bloque consiste en el clustering o agrupación de series temporales. En este bloque hemos desarrollado una técnica de clustering con una doble finalidad: reducir al máximo posible la dimensionalidad de las series temporales y desarrollar un método de clustering eficiente y que mejore los métodos existentes en el estado del arte. En relación al primer objetivo, se ha realizado la segmentación de series temporales [10] para dividirlas e identificar los principales comportamientos de las mismas. Con posterioridad, se proyectan estos segmentos utilizando características estadísticas [11], reduciendo, de esta forma, la dimensionalidad de las series temporales. En relación al segundo objetivo, una vez realizado el preprocesamiento, se ha realizado el agrupamiento de las series temporales, el cual se lleva a cabo con una carga computacional mínima, debido a la reducción de información de la primera fase. Esta técnica se ha probado sobre las bases de datos del repositorio de la Universidad de East Anglia y la Universidad de California Riverside (UEA/UCR).

El segundo bloque consiste en la predicción de series temporales, la cual se considera la fase temática más importante. Para resolver esta tarea, se han considerado diversas propuestas. Por un lado, se ha considerado el uso de modelos autoregresivos en combinación con ventanas adaptadas a la dinámica de las series temporales. Esta técnica se ha aplicado a un problema de predicción de baja visibilidad asociada a las condiciones de niebla en el Aeropuerto de Valladolid (España). En segundo lugar, con la finalidad de resolver la predicción de formación de nubes convectivas en el Aeropuerto de Madrid-Barajas (España), se han propuesto dos vías diferentes. Por un lado, se ha afrontado el problema desde el punto de vista de la clasificación multi-objetivo utilizando redes neuronales evolutivas [12], mientras que, por otro lado, se ha afrontado el problema desde el punto de vista de la clasificación ordinal, utilizando además técnicas de remuestreo debido al alto grado de desbalanceo del conjunto de datos original [13]. En tercer lugar, se han propuesto diversas combinaciones de funciones de base para las redes neuronales, tanto en la capa oculta como en la capa de salida, aplicando esta propuesta a un problema de predicción de radiación solar. Finalmente, se ha considerado el uso de redes neuronales evolutivas multitarea [14] con la finalidad de resolver la predicción de altura de ola en varios horizontes temporales (de 6h a 48h).

El tercer bloque está relacionado con la clasificación de series temporales. Por un lado, se ha presentado una técnica de clasificación nominal de series temporales asociada al uso de shapelets (subsecuencias independientes de la fase extraídas de la serie temporal) [15]. La técnica original consiste en la extracción de todo el conjunto posible de shapelets. Sin embargo, esta tarea es computacionalmente inabordable en un tiempo razonable, por lo que, con la finalidad de reducir el tiempo computacional, en esta Tesis hemos presentado una técnica híbrida que consiste en la extracción de las mejores shapelets y, posteriormente, su modificación mediante el uso de redes neuronales convolucionales, con la finalidad de obtener shapelets que se ajusten mejor al conjunto de datos original. En una segunda propuesta a este bloque, hemos considerado la temática de la clasificación ordinal asociada a series temporales, un campo que no ha sido abordado previamente en la literatura. De esta forma, se ha adaptado el algoritmo de extracción de shapelets, con la finalidad de considerar la información ordinal presente, de forma natural, en el conjunto de datos de series temporales. Esta metodología mejora considerablemente los resultados de los métodos del estado del arte utilizando técnicas nominales sobre las series temporales ordinales. Todas estas propuestas se han probado sobre el conjunto de datos de series temporales de la UEA/UCR.

Finalmente, el cuarto bloque está relacionado con el desarrollo de técnicas de aprendizaje automático aplicadas a datos no temporales. En este bloque se incluyen técnicas de regresión y clasificación asociadas a la resolución de problemas reales basados en temáticas de ingeniería y relacionadas con la salud.

Adicionalmente, en el momento de escribir esta Tesis, se está abriendo una línea nueva de investigación que aborda la transformación de series temporales a un formato de imagen 2D [16], con la finalidad de aplicar posteriormente técnicas de minería de datos en series temporales, como pueden ser el clustering o agrupamiento y la clasificación, entre otras.

3. Conclusión Todos los trabajos realizados a lo largo de esta Tesis Doctoral se han publicado y han sido validados por revistas de prestigio internacional (todas indexadas en JCR) o por congresos de carácter nacional e internacional. Principalmente, se han desarrollado algoritmos de aprendizaje automático para resolver las tareas principales de minería de datos en series temporales: clustering o agrupamiento, predicción y clasificación nominal y ordinal. También se han desarrollado técnicas para resolver problemas basados en datos no temporales utilizando técnicas de regresión y clasificación. Por último, se está abriendo una línea prometedora de investigación consistente en la transformación de series temporales a un formato de imagen 2D para la posterior aplicación de técnicas de minería de datos en series temporales. En general, todos los nuevos métodos y técnicas propuestos han supuesto una mejora sobre las técnicas existentes en el estado del arte, obteniendo buenos resultados y resolviendo, por tanto, todos los problemas reales a los que se han aplicado las mismas.

4. Bibliografía [1] C. M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA, 2006.

[2] T.-C. Fu. A review on time series data mining. Engineering Applications of Artificial Intelligence, 24(1):164 – 181, 2011.

[3] S. Dey. On the theoretical aspects of improved fog detection and prediction in India. Atmospheric Research, 202:77–80, 2018.

[4] S. Ghimire, R. C. Deo, N. Raj, and J. Mi. Wavelet-based 3-phase hybrid svr model trained with satellite-derived predictors, particle swarm optimization and maximum overlap discrete wavelet transform for solar radiation prediction. Renewable and Sustainable Energy Reviews, 113:109247, 2019.

[5] S. Aghabozorgi, A. S. Shirkhorshidi, and T. Y. Wah. Time-series clustering–a decade review. Information Systems, 53:16–38, 2015.

[6] A. S. Weigend. Time series prediction: forecasting the future and understanding the past. Routledge, 2018.

[7] A. Bagnall, J. Lines, A. Bostrom, J. Large, and E. Keogh. The great time series classification bake off: a review and experimental evaluation of recent algorithmic advances. Data Mining and Knowledge Discovery, 31(3):606–660, 2017.

[8] T. W. Liao. Clustering of time series data—a survey. Pattern Recognition, 38(11):1857–1874, 2005.

[9] P. A. Gutiérrez, M. Pérez-Ortiz, J. Sánchez-Monedero, F. Fernandez-Navarro, and C. Hervas-Martinez. Ordinal regression methods: survey and experimental study. IEEE Transactions on Knowledge and Data Engineering, 28(1):127–146, 2016.

[10] E. Keogh, S. Chu, D. Hart, and M. Pazzani. Segmenting time series: A survey and novel approach. In Data mining in time series databases, 1–21. World Scientific, 2004.

[11] A. Nikolaou, P. A. Gutiérrez, A. Durán, I. Dicaire, F. Fernández-Navarro, and C. Hervás-Martínez, “Detection of early warning signals in paleoclimate data using a genetic time series segmentation algorithm,” Climate Dynamics, vol. 44, nos. 7–8, pp. 1919–1933, 2015.

[12] C. A. C. Coello, G. B. Lamont, D. A. Van Veldhuizen, et al. Evolutionary algorithms for solving multi-objective problems, vol. 5. Springer, 2007.

[13] M. Pérez-Ortiz, P. A. Gutiérrez, C. Hervás-Martínez, X. Yao. Graph-based approaches for over-sampling in the context of ordinal regression. IEEE Transactions on Knowledge and Data Engineering, 27(5), 1233–1245, 2014.

[14] A. Maurer, M. Pontil, B. Romera-Paredes. The benefit of multitask representation learning. Journal of Machine Learning Research, 17(81), 1-32, 2016 [15] L. Ye and E. Keogh. Time series shapelets: a novel technique that allows accurate, interpretable and fast classification. Data Mining and Knowledge Discovery, 22(1-2):149–182, 2011.

[16] W. Chen and K. Shi. A deep learning framework for time series classification using relative position matrix and convolutional neural network. Neurocomputing, 59:384–394, 2019.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: