Publication:
Variable selection algorithms in generalized linear models

Loading...
Thumbnail Image
Identifiers
Publication date
2020-06
Defense date
2020-10-22
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
This thesis has been developed at University Carlos III of Madrid, motivated through a collaboration with the Gregorio Marañón General University Hospital, in Madrid. It is framed within the field of Penalized Linear Models, specifically Variable Selection in Regression, Classification and Survival Models, but it also explores other techniques such as Variable Clustering and Semi-Supervised Learning. In recent years, variable selection techniques based on penalized models have gained considerable importance. With the advance of technologies in the last decade, it has been possible to collect and process huge volumes of data with algorithms of greater computational complexity. However, although it seemed that models that provided simple and interpretable solutions were going to be definitively displaced by more complex ones, they have still proved to be very useful. Indeed, in a practical sense, a model that is capable of filtering important information, easily extrapolated and interpreted by a human, is often more valuable than a more complex model that is incapable of providing any kind of feedback on the underlying problem, even when the latter offers better predictions. This thesis focuses on high dimensional problems, in which the number of variables is of the same order or larger than the sample size. In this type of problems, restrictions that eliminate variables from the model often lead to better performance and interpretability of the results. To adjust linear regression in high dimension the Sparse Group Lasso regularization method has proven to be very efficient. However, in order to use the Sparse Group Lasso in practice, there are two critical aspects on which the solution depends: the correct selection of the regularization parameters, and a prior specification of groups of variables. Very little research has focused on algorithms for the selection of the regularization parameters of the Sparse Group Lasso, and none has explored the issue of the grouping and how to relax this restriction that in practice is an obstacle to using this method. The main objective of this thesis is to propose new methods of variable selection in generalized linear models. This thesis explores the Sparse Group Lasso regularization method, analyzing in detail the correct selection of the regularization parameters, and finally relaxing the problem of group specification by introducing a new variable clustering algorithm based on the Sparse Group Lasso, but much more flexible and that extends it. In a parallel but related line of research, this thesis reveals a connection between penalized linear models and semi-supervised learning. This thesis is structured as a compendium of articles, divided into four chapters. Each chapter has a structure and contents independent from the rest, however, all of them follow a common line. First, variable selection methods based on regularization are introduced, describing the optimization problem that appears and a numerical algorithm to approximate its solution when a term of the objective function is not differentiable. The latter occurs naturally when penalties inducing variable selection are added. A contribution of this work is the iterative Sparse Group Lasso, which is an algorithm to obtain the estimation of the coefficients of the Sparse Group Lasso model, without the need to specify the regularization parameters. It uses coordinate descent for the parameters, while approximating the error function in a validation sample. Moreover, with respect to the traditional Sparse Group Lasso, this new proposal considers a more general penalty, where each group has a flexible weight. A separate chapter presents an extension that uses the iterative Sparse Group Lasso to order the variables in the model according to a defined importance index. The introduction of this index is motivated by problems in which there are a large number of variables, only a few of which are directly related to the response variable. This methodology is applied to genetic data, revealing promising results. A further significant contribution of this thesis is the Group Linear Algorithm with Sparse Principal decomposition, which is also motivated by problems in which only a small number of variables influence the response variable. However, unlike other methodologies, in this case the relevant variables are not necessarily among the observed data. This makes it a potentially powerful method, adaptable to multiple scenarios, which is also, as a side effect, a supervised variable clustering algorithm. Moreover, it can be interpreted as an extension of the Sparse Group Lasso that does not require an initial specification of the groups. From a computational point of view, this paper presents an organized framework for solving problems in which the objective function is a linear combination of a differentiable error term and a penalty. The flexibility of this implementation allows it to be applied to problems in very different contexts, for example, the proposed Generalized Elastic Net for semisupervised learning. Regarding its main objective, this thesis offers a framework for the exploration of generalized interpretable models. In the last chapter, in addition to compiling a summary of the contributions of the thesis, future lines of work in the scope of the thesis are included.
Esta tesis se ha desarrollado en la Universidad Carlos III de Madrid motivada por una colaboración de investigación con el Hospital General Universitario Gregorio Marañón, en Madrid. Está enmarcada dentro del campo de los Modelos Lineales Penalizados, concretamente Selección de Variables en Modelos de Regresión, Clasificación y Supervivencia, pero también explora otras técnicas como Clustering de Variables y Aprendizaje Semi-Supervisado. En los últimos años, las técnicas de selección de variables basadas en modelos penalizados han cobrado notable importancia. Con el avance de las tecnologías en la última década, se ha conseguido recopilar y tratar enormes volúmenes de datos con algoritmos de una complejidad computacional superior. Sin embargo, aunque parecía que los modelos que aportaban soluciones sencillas e interpretables iban a ser definitivamente desplazados por otros más complejos, han resultado ser todavía muy útiles. De hecho, en un sentido práctico, muchas veces tiene más valor un modelo que sea capaz de filtrar información importante, fácilmente extrapolable e interpretable por un humano, que otro más complejo incapaz de aportar ningún tipo de retroalimentación al problema de fondo, incluso cuando este último ofrezca mejores predicciones. Esta tesis se enfoca en problemas de alta dimensión, en los cuales el número de variables es del mismo orden o superior al tamaño muestral. En este tipo de problemas, restricciones que eliminen variables del modelo a menudo conducen a un mejor desempeño e interpretabilidad de los resultados. Para ajustar regresión lineal en alta dimensión el método de regularización Sparse Group Lasso ha demostrado ser muy eficiente. No obstante, para utilizar en la práctica el Sparse Group Lasso, hay que tener en cuenta dos aspectos fundamentales de los cuales depende la solución, que son la correcta selección de los parámetros de regularización, y una especificación previa de grupos de variables. Muy pocas investigaciones se han centrado en algoritmos para la selección de los parámetros de regularización del Sparse Group Lasso, y ninguna ha explorado el tema de la agrupación y cómo relajar esta restricción que en la práctica constituye una barrera para utilizar este método. El principal objetivo de esta tesis es proponer nuevos métodos de selección de variables en modelos lineales generalizados. Esta tesis explora el método de regularización Sparse Group Lasso, analizando detalladamente la correcta selección de los parámetros de regularización, y finalmente relajando el problema de la especificación de los grupos mediante un nuevo algoritmo de agrupación de variables basado en el Sparse Group Lasso, pero mucho más flexible y que lo extiende. En una línea de investigación paralela, pero relacionada, esta tesis revela una conexión entre los modelos lineales penalizados y el aprendizaje semi-supervisado. Esta tesis está estructurada en formato por compendio de artículos, dividida en cuatro capítulos. Cada capítulo tiene una estructura y contenidos independiente del resto, sin embargo, siguen todos un eje común. Primeramente, se introducen los métodos de selección de variables basados en regularización, describiendo el problema de optimización que aparece y un algoritmo numérico para aproximar su solución cuando una parte de la función objetivo no es diferenciable. Esto último ocurre de manera natural cuando se añaden penalizaciones que inducen selección de variables. Una de las aportaciones de este trabajo es el iterative Sparse Group Lasso, que es un algoritmo para obtener la estimación de los coeficientes del modelo Sparse Group Lasso, sin la necesidad de especificar los parámetros de regularización. Utiliza descenso por coordenadas para los parámetros, mientras aproxima la función de error en una muestra de validación. Además, con respecto al Sparse Group Lasso clásico, esta nueva propuesta considera una penalización más general, donde cada grupo tiene un peso flexible. En otro capítulo se presenta una extensión que utiliza el iterative Sparse Group Lasso para ordenar las variables del modelo según un índice de importancia definido. La introducción de este índice está motivada por problemas en los cuales hay un número elevado de variables, de las cuales solamente unas pocas están relacionadas directamente con la variable respuesta. Esta metodología es aplicada a unos datos genéticos, mostrando resultados prometedores. Otra importante aportación de esta tesis es el Group Linear Algorithm with Sparse Principal decomposition, que está motivado también por problemas en los cuales solamente un número reducido de variables influye en la variable respuesta. Sin embargo, a diferencia de otras metodologías, en este caso las variables influyentes no necesariamente están entre las características observadas. Esto lo convierte en un método muy potente, adaptable a múltiples escenarios, que además, como efecto secundario, es un algoritmo supervisado de agrupación de variables. En un sentido, puede interpretarse como una extensión del Sparse Group Lasso que no requiere una especificación inicial de los grupos. Desde un punto de vista computacional, este trabajo presenta un enfoque organizado para resolver problemas en los cuales la función objetivo es una combinación lineal de un término de error diferenciable y una penalización. La flexibilidad de esta implementación le permite ser aplicada a problemas en contextos muy diferentes, por ejemplo, el Generalized Elastic Net propuesto para aprendizaje semi-supervisado. Con relación a su principal objetivo, esta tesis ofrece un marco para la investigación de modelos generalizados interpretables. En el último capítulo, además de recopilarse un resumen de las aportaciones de la tesis, se incluyen líneas de trabajo futuro en el ámbito de la temática de la tesis.
Description
Mención Internacional en el título de doctor
Keywords
Penalized linear models, Variable selection in regression, Classification models, Survival models, Variable clustering, Semi-supervised learning, Algorithms
Bibliographic citation
Collections