Ayuda
Ir al contenido

Dialnet


Mapping eQTL networks with mixed graphical models

  • Autores: Inma Tur
  • Directores de la Tesis: Robert Castelo Valdueza (dir. tes.)
  • Lectura: En la Universitat Pompeu Fabra ( España ) en 2014
  • Idioma: español
  • Tribunal Calificador de la Tesis: Nanny Wermuth (presid.), Jordi García-Ojalvo (secret.), Alberto Roverato (voc.)
  • Materias:
  • Enlaces
  • Resumen
    • Motivación:

      Las tecnologías de secuenciación de alto rendimiento han permitido la obtención simultánea de datos de genotipado y perfilado de la expresión génica en un conjunto de muestras biológicas, conocidos como datos de genómica genética [1]. Ya desde los primeros estudios que se realizaron con estos datos [2-3], se comprobó que la expresión de un gen es un fenotipo cuantitativo heredable. Esto implica que la expresión génica puede facilitar la búsqueda de variantes genéticas asociadas a fenotipos no-moleculares, ligados a enfermedad o desarrollo, actuando de enlace entre el genotipo y el fenotipo [3].

      Los estudios de mapeo de variantes genéticas (eQTLs) identifican los eQTLs responsables de la variación de la expresión génica con el objetivo de estimar las redes de regulación molecular subyacentes (redes de eQTLs). Debido a la naturaleza multivariante de los fenotipos de expresión, la localización de las variantes genéticas que afectan directamente la expresión de genes que no se encuentran en la misma posición genómica (trans) [3] requiere, idealmente, el ajuste de la relación genotipo-fenotipo por todos los otros genes. Esto, en principio, no es posible debido a que el número de muestras (n) suele ser mucho menor que el número de variables (p). Las metodologías univariantes existentes para analizar las relaciones eQTL-gen ayudan a identificar las asociaciones cis [3]. Sin embargo, desde una perspectiva de modelización de redes de regulación molecular (redes de eQTLs), es interesante estudiar las relaciones trans con métodos multivariantes ya que las aproximaciones univariantes pueden dar lugar a relaciones espurias.

      Además, el hecho de que, a menudo, en los datos de genotipado aparezcan observaciones missing añade otro obstáculo al problema de mapeo de eQTLs ya que, debido a que p >> n, las técnicas existentes (análisis de casos-completos o imputación) no son siempre convenientes o aplicables.

      Presentación de las partes y resumen del desarrollo teórico:

      El objetivo principal del proyecto se enmarca en el contexto de aprendizaje automático de grafos-qp [6] para la modelización de redes de eQTLs a partir de datos de genómica genética con p >> n basada en la teoría de modelos gráficos mixtos [4].

      Así, una parte del proyecto ha consistido en implementar algoritmos para la simulación de modelos gráficos mixtos homogéneos clásicos a partir de valores de correlación lineal marginal para las asociaciones entre dos variables continuas y valores de efectos aditivos para las asociaciones mixtas. Asimismo, también se han implementado procedimientos para simular conjuntos de datos que se ajusten a modelos biológicos realistas de organismos cruzados en laboratorio según un "backcross" a partir de los modelos gráficos mixtos. A partir de estas simulaciones y de datos de genética genómica en levadura [5], hemos verificado cómo los efectos aditivos de las variantes genéticas se propagan a través de las expresiones de los genes como función de efectos lineales entre los genes [10].

      La segunda parte de este proyecto ha consistido en adaptar la metodología de [6] para modelos gráficos Gaussianos a modelos gráficos mixtos sobre variables aleatorias discretas y continuas. Para ello, se ha desarrollado el concepto de modelo gráfico mixto construido a partir de todas las distribuciones marginales de orden (q+2), donde q < (n-2) (grafo-qp). Se han derivado los parámetros de un test exacto de independencia condicional para modelos gráficos mixtos homogéneos descomponibles que ha permitido construir una medida de correlación de orden limitado sobre distribuciones marginales de orden q, implementada mediante una tasa de no-rechazo a partir de datos mixtos, para estimar relaciones directas e indirectas entre variables discretas y continuas. Este método permite estimar modelos gráficos mixtos a partir de datos donde p >> n ajustando por co-variables y posibles efectos de bloqueo y estratificación. Hemos verificado, mediante la simulación de datos, que el test exacto controla adecuadamente el valor nominal del error de Tipo-I cuando n disminuye y cuando la densidad del grafo a partir del cual muestreamos los datos crece, contrariamente a lo que ocurre con el test asintótico tradicional basado en la distribución de la chi-squared.

      Por otra parte, en el caso de datos con observaciones missing, hemos comprobado que la utilización de correlaciones de orden limitado facilita la aplicación del análisis de casos-completos [7] de una manera efectiva. Además, hemos adaptado un algoritmo de esperanza-maximización (EM) [8] para el cálculo del estadístico de máxima verosimilitud utilizado en el test de independencia condicional exacto.

      Hemos aplicado también nuestro método con éxito a datos de genotipado y expresión en levadura [5] con el objetivo de estudiar la arquitectura reguladora de la expresión génica en levadura. Mediante la comparación de técnicas clásicas de mapeo de QTL, tales como el método de "single marker regression" [9], hemos podido comprobar cómo nuestra aproximación proporciona una resolución más alta cuando tratamos de mapear eQTLs trans y facilita la interpretación de las asociaciones en términos de independencia condicional. Además, podemos comprobar que la red de eQTLs final es menos densa, se ajusta mejor a los datos y las asociaciones tienen una coherencia funcional mayor.

      Conclusiones: 1. Hemos desarrollado e implementado algoritmos para simular redes de eQTLs y datos a partir de estos modelos mediante la simulación de modelos gráficos mixtos homogéneos clásicos. Estos procedimientos han sido implementados como parte del paquete de software "qpgraph", desarrollado en nuestro grupo y disponible en http://www.bioconductor.org packages/release/bioc/html/qpgraph.html.

      2. Hemos proporcionado un test de independencia condicional exacto entre una variante genética y un fenotipo de distribución Gaussiana o entre dos fenotipos de distribución Gaussiana que permite ajustar por la expresión de otros genes, otras co-variables y posibles efectos de estratificación y bloqueo. Este procedimiento también ha sido implementado como parte del paquete de software "qpgraph".

      3. Hemos proporcionado una aproximación multivariante para inferir redes de eQTLs a partir de la estimación de modelos gráficos mixtos mediante una tasa de no-rechazo.

      4. Hemos demostrado que el uso de un test de independencia condicional de orden q es apropiado para identificar relaciones eQTL-gen no espurias.

      5. Hemos proporcionado una estrategia para inferir redes de eQTLs a partir de datos de genómica genética con valores missing.

      BIBLIOGRAFIA [1] Jansen, R. C. and Nap, J.-P. (2001). Genetical genomics: the added value from segregation.¿TRENDS in Genetics, 17(7):388-390.

      [2] Brem, R. B., Yvert, G., Clinton, R., and Kruglyak, L. (2002). Genetic dissection of transcriptional regulation in budding yeast. Science, 296(5568):752-755.

      [3] Schadt, E. E., Monks, S. A., Drake, T. A., Lusis, A. J., Che, N., Colinayo, V., Ruff, T. G., Milligan, S. B., Lamb, J. R., Cavet, G., et al. (2003). Genetics of gene expression surveyed in maize, mouse and man. Nature, 422(6929):297-302.

      [4] Lauritzen, S. and Wermuth, N. (1989). Graphical models for associations between variables, some of which are qualitative and some quantitative. Annals of Statistics, 17(1):31-57.

      [5] Brem, R. B. and Kruglyak, L. (2005). The landscape of genetic complexity across 5,700 gene expression traits in yeast. P Natl Acad Sci USA, 102:1572-7.

      [6] Castelo, R. and Roverato, A. (2006). A robust procedure for Gaussian graphical model search from microarray data with p larger than n. Journal of Machine Learning Research, 7:2621-50.

      [7] Little, R. J. A. and Rubin, D. B. (2002). Statistical Analysis With Missing Data. Probability and Statistics. Wiley, second edition.

      [8] Didelez, V. and Edwards, D. (2004). Collapsibility of graphical cg-regression models. Scandinavian Journal of Statistics, 31(4):535-551 [9] Broman, K. W., Wu, H., Sen, S. and Churchill, G. A. (2003) R/qtl: QTL mapping in experimental crosses. Bioinformatics, 19:889-890.

      [10] Tur I. and Castelo, R. Mapping eQTL Networks with mixed graphical models. Under review.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno