Ayuda
Ir al contenido

Dialnet


Resumen de Balancing flexibility and robustness in machine learning semi-parametric methods and sparse linear models

José Miguel Hernández-Lobato

  • Los problemas de aprendizaje automático se pueden tratar utilizando una diversidad de métodos que abarcan un amplio rango de grados de flexibilidad y robustez. En la construcción de un modelo para los datos, la flexibilidad y la robustez son objetivos deseables pero a menudo opuestos. A un lado del espectro, los métodos paramétricos son muy robustos, en el sentido de que son resistentes al ruido y que generalmente no les afectan las regularidades espurias que puedan econtrarse en los datos sólo por casualidad. Sin embargo, su capacidad expresiva es limitada. Por otro lado, los métodos no paramétricos son muy flexibles y pueden, en principio, aprender patrones arbitrariamente complejos siempre y cuando se disponga de suficientes datos para la inducción. No obstante, su alta flexibilidad implica que también son más propensos al sobreajuste. En la práctica, la elección del método óptimo para resolver un problema particular de aprendizaje implica alcanzar un equilibrio adecuado entre flexibilidad y robustez.

    Existen algunos problemas en los que dicho equilibrio no puede ser alcanzado utilizando sólo enfoques paramétricos o no paramétricos aisladamente. Los métodos semiparamétricos incluyen componentes tanto paramétricas como no paramétricas en los modelos utilizados. La parte paramétrica proporciona una descripción robusta de parte de los patrones en los datos. La componente no paramétrica proporciona flexibilidad para capturar otras regularidades complejas adicionales. En esta tesis se analizan varios problemas en los que los métodos semiparamétricos proporcionan modelos certeros para los datos. El primero es el modelado de series temporales financieras. Las tendencias en estas series se describen paramétricamente. La densidad de las innovaciones se aprende directamente a partir de los datos de un modo no paramétrico. La calidad de la aproximación se mejora realizando la estimación de la densidad de las innovaciones en un espacio transformado, donde la densidad de los datos transformados se parece a una Gaussiana. Un segundo problema trata el desarrollo de modelos semiparamétricos para describir dependencias no lineales arbitrarias entre dos variables aleatorias. Las cópulas Archimedeanas bivariadas se reparametrizan en terminos de una función latente unidimensional que se aproxima fácilmente utilizando una base de splines naturales cúbicos. Estos splines son especialmente adecuados para modelar la dependencia asintótica de cola en los datos.

    En algunos problemas de aprendizaje incluso los modelos paramétricos más simples no son suficientemente robustos como para proporcionar una descripción certera de los datos. Esta investigación también trata sobre como mejorar la robustez de los modelos lineales al asumir dispersidad en los coeficientes del modelo. Bajo un enfoque Bayesiano, dicha dispersidad se favorece utilizando priors específicos, como la distribución de punta y losa. La ventaja del prior de punta y losa es su alto encogimiento selectivo: algunos coeficientes (aquellos en los que la distribución posterior tiene una alta contribución de la punta) se fuerzan a que sean pequeños, mientras que otros (aquellos en los que la losa representa la contribución predominante en la distribución posterior) no son regularizados. En esta tesis, los modelos lineales con priors de punta y losa se utilizan para tratar problemas con un espacio de atributos de dimension alta y un número pequeño de ejemplos de entrenamiento disponibles. La inferencia aproximada se implementa utilizando propagación de expectaciones (PE). En el modelo de regresión disperso y lineal, PE es una alternativa computacionalmente eficiente frente a los métodos MCMC, que son asintóticamente exactos, pero a menudo requieren largos computos para converger. Otra contribución es el diseño de un clasificador Bayesiano disperso para problemas de clasificación en los que existe información a priori sobre las dependencias entre atributos. Por último, un modelo disperso y lineal basado en un prior jerárquico de punta y losa se utiliza para identificar genes reguladores a partir de series temporales de expresión genética.

    Los métodos semiparamétricos y los modelos lineales y dispersos analizados en esta tesis presentan configuraciones de flexibilidad y robustez que no pueden ser alcanzadas ni por métodos paramétricos estándar, ni por enfoques completamente no paramétricos aisladamente. De este modo, los métodos propuestos rellenan algunos de los huecos dejados por estos paradigmas de aprendizaje estándar en el espectro de flexibilidad y robustez.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus