Ayuda
Ir al contenido

Dialnet


Resumen de Probabilistic forecasting and interpretability in power load applications

Óscar Emilio García Hinde

  • español

    La predicción de carga es una herramienta fundamental en la industria moderna de la generación y distribución de energía eléctrica. Sin embargo, la influencia de componentes altamente aleatorias, como la influencia de la meteorología tanto en la demanda como en la producción de electricidad, convierten a la carga eléctrica en una red en una variable altamente aleatoria. Esto hace que su predicción sea una tarea compleja. Además, la introducción a gran escala de energías renovables altamente dependientes de las condiciones climatológicas no ha hecho sino exacerbar el problema. La capacidad de estimar con precisión el comportamiento futuro de la red, tanto a corto plazo (unas horas hasta una semana) como a largo plazo (varias semanas o años), es vital para poder cumplir con los requisitos de demanda y escalado en las diferentes infraestructuras.

    La carga eléctrica es tratada como una serie temporal, es decir, una señal compuesta por muestras ordenadas secuencialmente en el tiempo. Tradicionalmente las herramientas utilizadas para este fin han estado fundamentadas en métodos estadísticos como los modelos auto-regresivos (AR), modelos de media móvil (MA) o una combinación de ambos, incluyendo la integración para proporcionar estacionariedad (modelos ARMA y ARIMA), siendo el error cuadrático medio la función de coste objetivo a optimizar en la mayoría de casos. Sin embargo, a lo largo de las últimas décadas, el Aprendizaje Automático o Machine Learning (ML) ha tomado un papel protagonista en el contexto de la predicción de carga, con un marcado énfasis en la predicción a corto plazo utilizando tanto modelos de ML tradicionales como redes neuronales (NN) y Deep-Learning (DL). Concretamente, es común encontrar máquinas de vectores soporte (SVM) en combinación con los modelos ARIMA ya mencionados, así como la introducción de kernels no lineales y de carácter cíclico. Otras propuestas incluyen el uso de procesos Gaussianos adaptados a la predicción de series temporales. El uso de NN se ha extendido también, primero con el uso de perceptrones multicapa para posteriormente dar paso a otras arquitecturas, como redes recurrentes del tipo Long-Short-term-Memory (LSTM), redes convolucionales profundas (CNN) y otras. Este tipo de modelos DL pueden ofrecer prestaciones excelentes, pero se ven limitadas por su alta complejidad y el requisito de necesitar grandes volúmenes de datos para poder ser entrenadas de forma adecuada.

    En esta tesis se plantea la predicción de carga no sólo con el objetivo de mejorar las prestaciones en la estimación, sino también de ganar en la interpretabilidad del comportamiento de la carga eléctrica a través de modelos que puedan extraer información útil. En este caso, la interpretabilidad se define como la capacidad de un modelo de ofrecer información que nos permita entender qué relaciones y patrones de los datos han llevado a una determinada predicción. Por este motivo se hará uso de modelos probabilísticos, que por su naturaleza pueden arrojar luz sobre la estructura oculta de los datos a través de la interpretación de sus parámetros. Además el uso de estos modelos proporciona de forma intrínseca una medida de confianza en la predicción a través de la estimación de la varianza predictiva. A lo largo de la tesis se explorarán dos ideas concretas en el contexto de la predicción de carga eléctrica, que conformarán las contribuciones principales.

    La primera contribución plantea la idea del perfilado de la carga eléctrica, donde se utilizan modelos de ML para identificar perfiles que representan diferentes comportamientos en los datos de carga. Estos perfiles tienen dos usos fundamentales: en primer lugar son herramientas útiles para la interpretabilidad del problema ya que ofrecen descripciones sencillas de los posibles patrones ocultos en los datos; en segundo lugar, los perfiles pueden ser utilizados para mejorar las prestaciones de estimación, ya que permiten entrenar varios modelos predictivos especializados en cada perfil individual. Dos ejemplos sencillos de perfilado serían la identificación de similitudes y diferencias entre usuarios de una infraestructura de distribución de energía eléctrica; o la identificación de patrones estacionales en la serie temporal de carga eléctrica debido a la evolución climatológica natural a lo largo de un año. Este tipo de perfiles han sido utilizados, por ejemplo, para construir modelos de facturación adecuados a usuarios tipo, o para diseñar redes de distribución de bajo voltaje en áreas residenciales.

    En general, en la literatura el perfilado y la predicción se presentan como eventos en cascada, donde primero se entrena un algoritmo de identificación de grupos, o "clústering", para detectar perfiles que luego son utilizados para entrenar los modelos de regresión. En el contexto del ML, se define regresión como la estimación de variables contínuas, como es el caso de la carga eléctrica en una infraestructura de distribución. En esta tesis se propone un modelo probabilístico novedoso que acopla las dos fases, perfilado y predicción, ajustando simultáneamente un modelo de "clústering" o identificación de grupos y los correspondientes modelos lineales de regresión para cada "clúster" o grupo individual. Durante el entrenamiento ambas partes del modelo se influencian entre sí a través de una función de verosimilitud conjunta, compartiendo información y resultando en un conjunto de "clústers" que está mucho mejor adaptado a la tarea de predicción y es por tanto mucho más relevante e informativo. Por este motivo el modelo ha sido designado como "modelo lineal por clusters" (CWLM, del inglés "clusterwise linear model"). La base del CWLM es el clásico modelo de mezcla de Gaussianas (GMM), un algoritmo no-supervisado (es decir, en el que no existen datos etiquetados durante la fase de entrenamiento del modelo) de "clústering" probabilístico que asume la existencia de grupos en los datos a priori no identificados, cada uno de los cuales puede ser descrito por una distribución Gaussiana definida por una media (el "centroide" del clúster) y una matriz de covarianza. Este modelo es entrenado mediante el algoritmo de maximización de la esperanza (EM, del inglés "expectation maximization"), un algoritmo que, cuando es aplicado al GMM, busca maximizar la verosimilitud de la pertenencia de cada dato a su clúster asignado descrito por la distribución Gaussiana correspondiente. Esto se consigue definiendo una serie de variables indicadoras latentes, es decir, no observables, que designan la pertenencia de cada dato a un clúster concreto. El algoritmo EM alterna entre el cómputo de la esperanza de estas variables latentes (que resultará en la probabilidad de que cada dato pertenezca a cada grupo) y la maximización de la verosimilitud conjunta de los datos y las variables latentes (que actualizará los parámetros del modelo en la dirección que incremente dicha verosimilitud). El GMM, al ser un modelo no-supervisado, sólo puede buscar patrones ocultos en los datos de entrada. El desarrollo del CWLM introduce en la formulación del GMM una componente de regresión lineal probabilística de tal manera que la optimización de los regresores para predecir correctamente las etiquetas de salida (la carga eléctrica a predecir) influye durante las iteraciones del EM en la identificación de los clústers en los datos de entrada y viceversa.

    En la fase experimental, el modelo es entrenado en dos escenarios diferentes con datos reales de carga eléctrica provenientes de dos bases de datos públicas proporcionadas por las organizaciones de transmisión regional estadounidenses ISO New England y PJM Interconect LLC. Estas bases de datos están formadas por series temporales agregadas que abarcan grandes regiones de los estados de Connecticut, Maine, Massachusetts, New Hampshire, Rhode Island, y Vermont en el caso de la primera y los estados de Delaware, Illinois, Indiana, Kentucky, Maryland, Michigan, New Jersey, North Carolina, Ohio, Pennsylvania, Tennessee, Virginia, West Virginia, y el Distrito Federal de Columbia. En el experimento con los datos de ISO New England se incluyen además datos de entrada meteorológicos para la temperatura y el punto de rocío. En ambos experimentos se plantea una estrategia de predicción con un horizonte temporal de un día, es decir, estimar la carga eléctrica correspondiente a cada una de las 24 horas siguientes al momento presente. Como datos de entrada, en ambos experimentos se emplean las 24 horas anteriores al momento actual, así como los datos meteorológicos antes citados en el caso de la base de datos ISO New England. Para la primera base de datos, se destinan las muestras desde enero de 2011 hasta diciembre de 2016 para la partición de entrenamiento; las muestras del año 2017 completo para la partición de validación; y las muestras del año 2018 completo para la partición de test. En el caso de la base de datos de PJM Interconect, se emplean los datos de 2014 a 2016 tanto para entrenamiento como para validación, con una estrategia de sub-muestreo aleatorio uniforme, destinando el 20\% de las muestras para el conjunto de validación. La partición de test para el segundo experimento está constituida por los datos del año 2017. El CWLM es comparado con un modelo Ridge Regression lineal, una SVM de regresión con kernel Gaussiano, la combinación de un algoritmo de clústering K-Means junto con regresores Ridge Regression y la combinación de un algoritmo GMM junto con regresores Ridge Regression. Durante los experimentos, el modelo demuestra ser capaz de identificar patrones estacionales y diarios importantes, separando épocas calurosas de épocas frías e identificando diferencias entre días laborables y fines de semana en el caso del experimento con los datos de ISO New England. También es capaz de identificar diferencias entre regiones específicas en los datos de PJM Interconnect. De esta manera se obtienen mejores prestaciones que las obtenidas por los demás algoritmos de la comparativa, al permitir a los regresores especializarse en cada clúster de una forma más efectiva, proporcionando al mismo tiempo un conjunto de perfiles del comportamiento de la carga más consistente e informativo.

    La segunda contribución aplica la idea de predicción multi-tarea al contexto de la estimación a 24 horas. Los problemas multi-tarea presentan múltiples salidas que se asume están de alguna forma correladas entre sí. Identificar y aprovechar estas relaciones puede incurrir en un incremento de las prestaciones así como un mejor entendimiento del problema multi-tarea. Por ejemplo, podemos encontrar estudios en los que se estima simultaneamente la carga correspondiente a varias ciudades próximas entre sí, explicando la relación entre las salidas a través de las características geográficas. A pesar de que la literatura de predicción de carga es escasa en este sentido, parece lógico pensar que deben existir importantes correlaciones entre las salidas de un escenario de predicción a 24 horas. Por este motivo, como parte del trabajo realizado para la tesis se ha desarrollado un proceso Gaussiano multi-tarea novedoso que recoge las relaciones entre salidas, asumiendo la existencia de de una covarianza inter-tarea así como de un ruido multi-tarea. La formulación propuesta parte de otras formulaciones de procesos Gaussianos multi-tarea estándar, pero introduce modificaciones que dan solución a varios problemas presentes en éstas, como la necesidad de estimar de las matrices de covarianza inter-tarea mediante una aproximación de bajo rango. El rango de esta aproximación constituye un hiper-parámetro adicional que debe ser determinado por validación cruzada. De esta manera se ofrecen mejoras con respecto a las otras formulaciones al reducir el número de parámetros a estimar mientras se mantiene la interpretabilidad proporcionada por la estimación y visualizacion de las matrices de covarianza y ruido inter-tarea. El modelo utiliza una estrategia recursiva en la que cada nueva tarea va asociada a un proceso Gaussiano mono-salida condicionado a las tareas anteriores. Por este motivo el modelo se denomina como ``proceso Gaussiano multi-tarea de verosimilitud mono-salida condicional" (Cool-MTGP, del inglés ``conditional one-output likelihood multi-task Gaussian process").

    En la fase de experimentos el modelo es puesto a prueba frente a una selección de procesos Gaussianos multi-tarea tanto estándar como convolucionales, sobre una batería de bases de datos tanto sintéticas como reales, obteniendo muy buenos resultados y demostrando su capacidad para estimar correctamente las matrices de covarianza inter-tarea. También se demuestra su capacidad de estimar la covarianza predictiva de forma precisa y se pone a prueba con éxito su ventaja en coste computacional. A continuación se aplica el modelo a un problema de predicción de carga eléctrica a 24 horas utilizando la base de datos de ISO New England ya descrita, aunque en esta ocasión se excluyen los datos meteorológicos. Una vez más, el Cool-MT se enfrenta a la misma selección de procesos Gaussianos multi-tarea estándar y convolucionales, así como un proceso Gaussiano no multi-tarea, utilizado como referencia. En este caso, los datos se estructuran de la siguiente manera: los datos de entrada están compuestos por las muestras de la semana anterior al día a estimar; la salida está compuesta por las 24 horas del día a estimar. El objetivo del experimento consiste en estimar los días del año 2018 en su totalidad. Para la partición de entrenamiento se emplean los 500 días anteriores a cada uno de los días a estimar, re-entrenando el modelo para cada nuevo día. El Cool-MT no requiere validar ningún hiperparámetro, mientras que los hiperparámetros de los otros modelos de la comparativa se validan utilizando los datos del año 2017 y siguiendo la misma estrategia de re-entreno. Los resultados demuestran la capacidad del Cool-MT, batiendo en prestaciones a los otros modelos de la comparativa y proporcionando información visual útil que identifica las correlaciones entre las diferentes horas del día a predecir.

    Existen varias vías de investigación que quedan abiertas como posibles lineas futuras de trabajo. En primer lugar, con respecto al CWLM se puede adoptar una formulación más sofisticada en la que los pesos de los regresores toman el papel de nuevas variables latentes con su propia distribución a priori. Esta nueva formulación se puede resolver utilizando la técnica de inferencia variacional conocida como aproximación de campo medio. El resultado sería una formulación muy similar a la presentada en la tesis. De hecho, dada la relación estrecha existente entre el algoritmo EM y la inferencia variacional, el proceso de entrenamiento del nuevo modelo seguiría un patrón muy similar. La principal ventaja de esta modificación es la eliminación del parámetro de regularización como hiperparámetro a validar, ya que pasaría a formar parte del proceso de optimización iterativo. A colación de esta idea, la introducción de un prior de determinación de relevancia automática (ARD) sobre los pesos de regresión podría forzar componentes comunes a los clusters a desaparecer, resultando en una transferencia de información entre clusters que podría influir positivamente en las prestaciones predictivas. Otra mejora sobre la formulación planteada para el CWLM consiste en la implementación de un modelo multi-tarea completo en el que las posibles correlaciones entre las variables de salida sean tenidas en cuenta, manteniendo al mismo tiempo la misma integración con el proceso de clústering del modelo presentado. De hecho, se podría modificar la formulación para que la parte de regresión fuera ejecutada por modelos del tipo Cool-MT presentados en esta tesis, resultando en un modelo equivalente pero con una fase de regresión completamente Bayesiana y no-lineal. Además esto enlazaría las dos ideas principales presentadas en la tesis, resultando en un único modelo que presentara las fortalezas de las dos aportaciones principales demostradas durante la fase experimental. Otra idea de mejora, en este caso para el Cool-MT, es el uso de la covarianza predictiva para blanquear los errores de predicción en un escenario de detección de anomalías. Estos errores blanqueados pueden ser entonces utilizados como datos de entrada para entrenar un modelo de descripción de datos por vectores soporte (SVDD) o una SVM de una clase (OCSVM) con la finalidad de detectar fechas especialmente atípicas en la serie temporal. Abandonando el campo de la predicción de carga eléctrica, el modelo Cool-MT puede ser extendido para realizar clasificación multitask. Esto ampliaría sus capacidades para ser aplicado a gran variedad de problemas de ML que quedan fuera del concepto de regresión. De hecho, esto necesariamente iría de la mano de una implementación completa utilizando la librería GPyTorch, en lugar del wrapper empleado en el código para el modelo inicial. En general, aunque ambos modelos presentados en esta tesis han sido diseñados pensando en el campo de la predicción de carga eléctrica, presentan una funcionalidad lo suficientemente general como para poder ser aplicados a una gran variedad de escenarios en el ámbito del ML.

  • English

    Power load forecasting is a fundamental tool in the modern electric power generation and distribution industry. The ability to accurately predict future behaviours of the grid, both in the short and long term, is vital in order to adequately meet demand and scaling requirements. Over the past few decades Machine Learning (ML) has taken center stage in this context, with an emphasis on short-term forecasting using both traditional ML as well as Deep-Learning (DL) models. In this dissertation, we approach forecasting not only from the angle of improving predictive accuracy, but also with the goal of gaining interpretability of the behavior of the electric load through models that can offer deeper insight and extract useful information. Specifically for this reason, we focus on the use of probabilistic models, which can shed light on valuable information about the underlying structure of the data through the interpretation of their parameters. Furthermore, the use of probabilistic models intrinsically provides us with a way of measuring the confidence in our predictions through the predictive variance. Throughout the dissertation we shall focus on two specific ideas within the greater field of power load forecasting, which will comprise our main contributions. The first contribution addresses the notion of power load profiling, in which ML is used to identify profiles that represent distinct behaviours in the power load data. These profiles have two fundamental uses: first, they can be valuable interpretability tools, as they offer simple yet powerful descriptions of the underlying patterns hidden in the time series data; second, they can improve forecasting accuracy by allowing us to train specialized predictive models tailored to each individual profile. However, in most of the literature profiling and prediction are typically performed sequentially, with an initial clustering algorithm identifying profiles in the input data and a subsequent prediction stage where independent regressors are trained on each profile. In this dissertation we propose a novel probabilistic approach that couples both the profiling and predictive stages by jointly fitting a clustering model and multiple linear regressors. In training, both the clustering of the input data and the fitting of the regressors to the output data influence each other through a joint likelihood function, resulting in a set of clusters that is much better suited to the prediction task and is therefore much more relevant and informative. The model is tested on two real world power load databases, provided by the regional transmission organizations ISO New England and PJM Interconect LLC, in a 24-hour ahead prediction scenario. We achieve better performance than other state of the art approaches while arriving at more consistent and informative profiles of the power load data. Our second contribution applies the idea of multi-task prediction to the context of 24- hour ahead forecasting. In a multi-task prediction problem there are multiple outputs that are assumed to be correlated in some way. Identifying and exploiting these relationships can result in much better performance as well as a better understanding of a multi-task problem. Even though the load forecasting literature is scarce on this subject, it seems obvious to assume that there exist important correlations between the outputs in a 24-hour prediction scenario. To tackle this, we develop a multi-task Gaussian process model that addresses the relationships between the outputs by assuming the existence of, and subsequently estimating, both an inter-task covariance matrix and a multitask noise covariance matrix that capture these important interactions. Our model improves on other multi-task Gaussian process approaches in that it greatly reduces the number of parameters to be inferred while maintaining the interpretability provided by the estimation and visualization of the multi-task covariance matrices. We first test our model on a wide selection of general synthetic and real world multi-task problems with excellent results. We then apply it to a 24-hour ahead power load forecasting scenario using the ISO New England database, outperforming other standard multi-task Gaussian processes and providing very useful visual information through the estimation of the covariance matrices.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus