Latent representations for the characterisation of mental diseases

Carlos Sevilla Salcedo

Ayuda

Latent representations for the characterisation of mental diseases

Autores: Carlos Sevilla Salcedo
Directores de la Tesis: Vanessa Gómez Verdejo (dir. tes.)
Lectura: En la Universidad Carlos III de Madrid ( España ) en 2021
Idioma: español
Tribunal Calificador de la Tesis: Manuel Martínez Ramón (presid.), Emilio Parrado Hernández (secret.), Sancho Salcedo Sanz (voc.)
Programa de doctorado: Programa de Doctorado en Multimedia y Comunicaciones por la Universidad Carlos III de Madrid y la Universidad Rey Juan Carlos
Enlaces
- Tesis en acceso abierto en: e-Archivo
Resumen
- Las técnicas de aprendizaje automático están siendo cruciales en el campo de la salud y, en particular, en el análisis de las enfermedades mentales. Estas se estudian habitualmente con neuroimagen, que se caracteriza por un gran número de variables de entrada en comparación con el número de muestras disponibles. El objetivo principal de esta tesis doctoral es proponer diferentes técnicas de aprendizaje automático para el análisis de enfermedades mentales a partir de datos de neuroimagen incluyendo diferentes extensiones de estos modelos para adaptarlos al escenario de la neurociencia. En particular, esta tesis se centra en el uso de representaciones latentes de imagen cerebral, ya que permiten dotar al problema de una representación reducida de baja dimensión a la vez que obtienen una mejor visión de las relaciones internas entre la enfermedad mental y los datos disponibles. De este modo, a lo largo de esta tesis doctoral se proporcionan diferentes métodos para obtener resultados interpretables y competentes con el estado del arte en el análisis de las enfermedades mentales.
  
  En particular, esta tesis comienza analizando los principales modelos más representativos para la extracción de características: Análisis de Componentes Principales (PCA) como modelo no supervisado y Análisis de Correlaciones Canónicas (CCA) como modelo supervisado. Estos métodos explotan las correlaciones de los datos del problema, dotando al modelo de una nueva representación de los datos para su posterior análisis. Además, la tesis presenta la formulación clásica de Análisis MultiVariante (MVA), en las que se analiza como un problema de maximización de la varianza o de la correlación entre los conjuntos de datos, respectivamente. Por otro lado, también se hace hincapié en las extensiones probabilísticas de estos modelos que permiten incluir distribuciones sobre las variables aleatorias, y las extensiones Bayesianas, en las que además se incluye una distribución a priori sobre las variables. La idea de esta primera parte de la tesis es analizar la formulación clásica de MVA y de sus versiones Bayesianas para usarlas como punto de partida de los dos modelos que aquí se presentan.
  
  El primer modelo se basa en la formulación clásica de MVA y utiliza CCA como punto de partida para construir el modelo propuesto Regularised Bagged CCA (RB-CCA), el cual es capaz de extraer componentes para los datos de neuroimagen. Este modelo consta de dos partes. La primera se basa en un procedimiento de bagging, y analiza la consistencia de signo de las matrices de proyección aprendidas. Para ello utiliza subconjuntos aleatorios de las muestras originales para analizar cómo afectan a esta consistencia en las matrices de proyección. De esta forma, si una característica es consistente en su signo independientemente de las muestras que se estén usando para generar la matriz, se considera que es una característica relevante para el problema. A su vez, las que varían mucho su signo a lo largo de las iteraciones de bagging se consideran variables ruidosas. En base a este análisis, obtenemos una medida de relevancia asociada a cada característica que podemos utilizar para hacer una selección de las más relevantes, obteniendo un conjunto de datos de menor dimensionalidad para una posterior clasificación o regresión.
  
  Por otro lado, dadas las características de los problemas de clasificación multiclase, el bagging puede llevar a problemas en la representación en el espacio latente si las direcciones de proyección asociadas a las clases comparten la dirección con distinto sentido. En un análisis realizado en esta tesis se demuestra el efecto negativo que esto puede tener en las relevancias que aprende el modelo y, por lo tanto, se propone una solución a esta situación. Esta consiste en hacer un subconjunto aleatorio para cada clase en el proceso de bagging, de forma que obtendremos una medida de relevancia asociada a cada una de ellas. A su vez, se incrementa la información aprendida por el modelo, ya que permite tener una selección de características por clase y, en consecuencia, analizar el efecto y la relevancia de cada variable sobre estas.
  
  El número de características seleccionadas podría determinarse mediante un proceso de Validación Cruzada (CV) con el que determinar o el porcentaje de variables seleccionadas o bien un umbral para usar sobre la relevancia. Sin embargo, tener una selección para cada clase implicaría hacer una CV por cada una de ellas, teniendo así un alto coste computacional. Es por esto que incluimos un test de hipótesis basado en el t-test con el que automatizar la selección de las variables más relevantes. Para ello, a su vez, utilizamos una adaptación de la varianza que se encarga de contrarrestar el efecto de la dependencia entre las iteraciones de bagging. De esta forma, el modelo es capaz de aprender las relevancias y automáticamente determinar qué características son necesarias para cada clase del problema, sin necesidad de un gran coste computacional.
  
  El segundo paso de RB-CCA consiste en utilizar las relevancias aprendidas por el modelo en el proceso de extracción de características. Para ello utilizamos la formulación dual de CCA, dado que, aún después de la selección, la dimensión de las características es mayor que el número de datos. A continuación, incluimos una regularización sobre las variables de entrada para guiar la obtención del espacio latente. Incluimos la regularización combinando la información de la consistencia de signo y magnitud aprendida en el proceso de bagging, añadiéndolas a la formulación del modelo como una regularización de tipo l2 sobre el espacio primal. De esta forma se penalizará más a las variables menos relevantes tanto en signo como en magnitud, mientras que las variables con mayor consistencia de signo y mayor magnitud no serán penalizadas.
  
  Por otro lado, dado que en los problemas de neuroimagen es común tratar con bases de datos desbalanceadas, proponemos una adaptación de la norma de Frobenius de la formulación del CCA para que contrarreste este efecto. Conseguimos este balanceo introduciendo un término que asigna pesos a las muestras, de tal forma que las clases mayoritarias tendrán asociado menos peso mientras que a las minoritarias se les asignará uno mayor.
  
  Para culminar el análisis del modelo RB-CCA, la tesis incluye un apartado de resultados en el que se analizan dos bases de datos de enfermedades mentales: Alzheimer's Disease Neuroimaging Initiative (ADNI) y Attention Deficit Hyperactivity Dissorder 200 (ADHD200). En ellas observamos una considerable mejora de RB-CCA-ST en comparación con los diferentes baselines, tanto en términos de precisión como de AUC, especialmente en la base de datos ADNI. Además, analizamos el efecto de cada paso del modelo de manera independiente para evaluar cómo afectan al proceso de predicción de diagnóstico de enfermedades mentales. Descubrimos que la regularización es crítica si hacemos extracción de características, pero no si utilizamos los datos originales para clasificar, obteniendo en este caso resultados algo mejores con regularización. Sin embargo, la selección de características sí proporciona una mejora importante para el problema, consiguiendo mejorar la precisión en al menos $5 \%$ por su inclusión.
  
  En cuanto a la interpretabilidad de los resultados, percibimos que el modelo es capaz de conseguir una buena representación de la información usando sólo 2 o 3 factores extraídos, los cuales, a su vez, simplifican el análisis experto de los resultados. Por otro lado, tanto la selección como el efecto de las características en los factores extraídos proporcionan áreas que corresponden con la literatura, siendo zonas relevantes de la atrofia cerebral relacionada con la Enfermedad de Alzheimer como el tálamo, el hipocampo y el lóbulo parietal.
  
  El segundo modelo que se propone es Sparse Semi-supervised Heterogeneous Inter-battery Bayesian Analysis (SSHIBA) que aporta una extensión Bayesiana para los métodos MVA capaz de combinar diferentes funcionalidades en una única formulación. La idea de este modelo es explotar su definición probabilística para, utilizando diferentes distribuciones, ser capaces de adaptarlo a las peculiaridades de los problemas de análisis de enfermedades mentales de forma modular. Primero, se presenta una extensión para aprender la relevancia asociada a las características de entrada y, a continuación, seleccionar las más relevantes. Conseguimos la selección de características mediante un prior de tipo Automatic Relevance Determination (ARD) imponiendo sparsity en las variables de entrada para que el modelo se lleve a 0 todas las que no son relevantes para el problema. Además, combinándolo con la selección automática de factores latentes, promovemos tener una matriz sparse que no sólo reduce la dimensionalidad de los datos, sino que proporciona una fuente de interpretabilidad para el problema, relacionando la relevancia de cada característica y variable latente.
  
  Trabajar con formulaciones Bayesianas permite usar el modelo de manera semi-supervisada. Para ello, utilizamos la distribución a posteriori asociada a las variables observadas no disponibles y determinamos una predicción aproximando la distribución con la integración de Monte Carlo o haciendo una estimación de punto. De esta forma, SSHIBA es capaz de utilizar todos los datos disponibles en su entrenamiento, incrementando su expresividad, a la vez que permite imputar cualquier valor no disponible en los datos de forma intuitiva. Esto último es especialmente necesario en los problemas de neuroimagen por la alta tasa de valores no disponibles debido al alto coste de las pruebas médicas.
  
  Del mismo modo, SSHIBA es capaz de modelar datos heterogéneos de distintas fuentes y combinarlos en un espacio latente. Así, incluimos una adaptación basada en la regresión logística Bayesiana que permite modelar datos multi-etiqueta, como datos demográficos o información genética. Además, proponemos una segunda adaptación basada en el modelo probit multi-nomial sobre los datos de entrada para modelar de manera adecuada datos categóricos, como el diagnóstico de un paciente. De esta forma, el modelo puede trabajar indistintamente con datos reales, multi-etiqueta y categóricos teniendo en cuenta las particularidades de cada uno.
  
  Hacer selección de características, en el contexto de la neuroimagen, no asegura que la dimensión de los datos tras la selección de características sea menor que la de los datos de entrada, como pasaba con RB-CCA. Por este motivo, proponemos una formulación dual que permite trabajar con kernels en SSHIBA (KSSHIBA). De esta forma, podemos seguir trabajando con datos de alta dimensión sin afectar al tiempo de cómputo asociado al uso de matrices de proyección de esta dimensión. Además, la inclusión de kernels en la formulación permite incluir no linealidades en el modelo, aumentando aún más los contextos en los que se pueden explotar sus funcionalidades. Del mismo modo, proponemos una adaptación de la formulación que no sólo nos permite seguir aprendiendo la relevancia asociada a cada característica de entrada, sino que permite, a su vez, eliminar los vectores soporte del kernel que son innecesarios para el problema.
  
  La naturaleza modular de SSHIBA permite combinar cada una de las extensiones mencionadas en diferentes vistas de forma sencilla. El resultado es un espacio latente común de baja dimensión que extrae información tanto inter- como intra-vista. Esto es interesante tanto para el posterior análisis de los resultados, obteniendo diferentes medidas del efecto de cada dato usado en el modelo, como para el aprendizaje con múltiples kernels. Así, podemos tener, por ejemplo, una configuración con una vista real con selección de características, otra con un kernel Gaussiano, otra con uno lineal con selección de vectores soporte y otra con datos multi-etiqueta con valores no disponibles.
  
  Para el análisis de SSHIBA decidimos estudiar dos escenarios: (1) en el que explotamos las diferentes funcionalidades del modelo, comparándonos con baselines y usándolas en bases de datos del estado del arte; y (2) en el que aplicamos estas extensiones en dos problemas de neuroimagen. En el primer estudio, los resultados muestran que el rendimiento del modelo es similar o mejor que el de los algoritmos del estado del arte, al tiempo que encuentra un espacio latente de dimensionalidad reducida, con menos características latentes que los métodos clásicos de MVA.
  
  En el análisis de la versión semi-supervisada comprobamos que esta extensión no sólo no deteriora los resultados obtenidos con la formulación predictiva, sino que en algunos casos la mejoran. Además, la imputación de valores no disponibles proporciona resultados superiores a los baselines, conservando una formulación compacta del modelo. Por otro lado, comprobamos que SSHIBA en su versión kernel (KSSHIBA) es capaz de aprender los vectores soportes relevantes para el problema mejorando los resultados obtenidos por CCA y PCA sin necesidad de hacer una CV del número de vectores soporte.
  
  Analizando la interpretabilidad de los resultados, observamos que el modelo es capaz de aprender eigenfaces que describen las peculiaridades de las imágenes de entrada, centrándose cada una en rasgos relevantes para la identificación de sujetos o de características físicas. De hecho, los resultados obtenidos utilizando la selección de características prueban que la selección aprendida es buena, incluso mejorando los resultados obtenidos usando todas las variables de entrada.
  
  Utilizando distintos kernels en diferentes vistas encontramos que el modelo es capaz de hallar una combinación lineal de ellos sin necesidad de validar ningún parámetro externo, como ocurre con los baselines. Comparando los resultados en términos de área bajo la curva (AUC) observamos que el modelo propuesto usando selección de vectores soporte proporciona prestaciones mejores que los baselines.
  
  Posteriormente, realizamos dos experimentos centrados en problemas de neuroimagen. El primer escenario consiste en repetir los experimentos con RB-CCA en la caracterización de la enfermedad de Alzheimer utilizando SSHIBA. Para ello, utilizamos la modularidad de SSHIBA para combinar las distintas áreas del cerebro en vistas independientes, de modo que tenemos una medida de relevancia diferente asociada a cada área. Además, dado que algunas zonas cerebrales siguen teniendo más variables que muestras, utilizamos para ellas la formulación dual incluyendo la extensión para aprender la relevancia asociada a cada característica. Los resultados de rendimiento obtenidos en comparación con RB-CCA en la base de datos ADNI muestran que ambos modelos tienen un rendimiento similar en términos de precisión equilibrada y AUC multiclase. Sorprendentemente, en este experimento, el AUC de clasificación de las clases menos pobladas es mejor utilizando SSHIBA que RB-CCA, a pesar de no utilizar ninguna herramienta de balanceo específica. Sin embargo, aunque la extensión kernel proporciona una medida de relevancia asociada a cada variable, la naturaleza de la formulación de los kernels impide poder eliminar variables al entrenar el modelo, por lo que la interpretabilidad del resultado está limitada a las vistas en el espacio primal. No obstante, sí se observa una selección correcta de áreas reconocidas en la literatura como influyentes para estas enfermedades.
  
  El segundo escenario que analizamos se basa en la base de datos longitudinal TADPOLE, basada en ADNI, siendo esta una base de datos más realista, con un alto número de valores no disponibles. Para este contexto, adaptamos SSHIBA para modelar relaciones temporales incluyendo datos asociados a distintos instantes de tiempo en diferentes vistas. En consecuencia, aprende relaciones lineales entre cada instante de tiempo en el espacio latente de baja dimensión que, a su vez, relaciona con las variables de salida. En este problema realizamos simultáneamente imputación de valores no disponibles y predicción de dos variables reales y una categórica. A su vez, el modelo aprende la relevancia asociada a las variables reales para cada instante de tiempo.
  
  Analizando los resultados, descubrimos que SSHIBA demuestra su capacidad para combinar extensiones y, en consecuencia, modelar adecuadamente problemas de la vida real. En particular, los resultados superan con creces todos los baselines analizados, en términos de coeficiente de determinación (R2) y AUC, cuando se predicen simultáneamente tres variables de salida. Además, el modelo es capaz de proporcionar varias representaciones que mejoran aún más la interpretabilidad de los resultados.
  
  Finalmente, se contemplan 3 líneas de trabajo principales para desarrollar la formulación de SSHIBA en el futuro. No se consideran sobre RB-CCA ya que SSHIBA es la evolución de RB-CCA para un marco Bayesiano.
  
  La primera línea de trabajo consiste en adaptar SSHIBA para modelar series temporales. Aunque las prestaciones de SSHIBA con datos longitudinales han sido buenas, especificar explícitamente la relación entre las vistas con dependencia temporal puede llevar a una mejor caracterización del problema. Podemos usar un modelo para cada instante temporal y combinarlos a través de las variables latentes de forma equivalente a los modelos de Markov ocultos.
  
  Otra propuesta es modificar la formulación kernel para tratar los datos de entrada como observaciones, en lugar utilizar directamente los kernels. De esta forma, pretendemos presentar una formulación que permita conservar las extensiones del modelo trabajando en el espacio dual. Además, permitiría incluir un prior ARD sobre las características de entrada más restrictivo que el que tenemos actualmente, que no impone sparsity y sólo aprende la relevancia asociada a las variables.
  
  Por último, podemos integrar redes neuronales para modelar datos comúnmente utilizados en problemas de neuroimagen. A su vez, esto permitiría incluir representaciones no lineales de los datos originales mediante capas no lineales en la arquitectura de las redes. Usando AutoEncoders Variacionales (VAEs) podemos integrar la red a la formulación probabilística de nuestro modelo, pudiendo obtener un mapa de características de una resonancia electromagnética o modelar datos ordinales.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: