Métodos estadísticos aplicados a estudios de susceptibilidad genética y pronóstico de cáncer gástrico

Patricia Carrera Lasfuentes

Ayuda

Métodos estadísticos aplicados a estudios de susceptibilidad genética y pronóstico de cáncer gástrico

Autores: Patricia Carrera Lasfuentes
Directores de la Tesis: María Asunción García González (dir. tes.), Angel Lanas Arbeloa (dir. tes.)
Lectura: En la Universidad de Zaragoza ( España ) en 2017
Idioma: español
Tribunal Calificador de la Tesis: Juan Ramón González Ruiz (presid.), María José Rabanaque Hernández (secret.), Francesc Balaguer Prunés (voc.)
Programa de doctorado: Programa Oficial de Doctorado en Medicina
Materias:
- Matemáticas
  - Estadística
    - Análisis de datos
- Ciencias de la vida
  - Biomatemáticas
    - Bioestadística
  - Genética
Texto completo no disponible (Saber más ...)
Resumen
- Antecedentes y objetivos: En la actualidad, la investigación sobre epidemiología genética de enfermedades complejas como el Cáncer Gástrico (GC) está orientada a la identificación de variantes de riesgo en genes de baja penetrancia y al estudio de las interacciones con factores ambientales que puedan influir tanto en el riesgo como en el fenotipo de la enfermedad.
  
  La metodología más utilizada para mapear dichas variantes comprende los denominados estudios de asociación genética. Dichos estudios persiguen la identificación de marcadores genéticos asociados a un rasgo o enfermedad de interés en una población dada. El enorme avance tecnológico logrado en la última década tanto en el análisis de ADN como en el conocimiento del genoma humano, ha supuesto un cambio drástico en el diseño y desarrollo de los estudios de asociación. En función del número de polimorfismos analizados y de la hipótesis de partida podremos diferenciar entre estudios de asociación basados en genes candidatos o estudios de rastreo completo del genoma o GWAS. El análisis de genes candidatos ha sido sin duda el abordaje más extendido en los estudios de asociación realizados en las dos últimas décadas. En dichos estudios, la selección de genes se realiza en base al conocimiento de las vías moleculares implicadas en el desarrollo de la enfermedad, a estudios de ligamiento y/o estudios de expresión génica. En la presente tesis doctoral nos planteamos evaluar los métodos estadísticos aplicados en estudios de asociación genética diseñados para la identificación de factores ambientales y genéticos implicados en la susceptibilidad y pronóstico del cáncer gástrico en nuestro medio.
  
  Metodología: Los artículos presentados en esta tesis se basan en un estudio multicéntrico nacional, realizado entre los años 2002 y 2010 en el que se captaron de forma consecutiva pacientes diagnosticados de CG primario en una red de hospitales integrados en el Sistema Nacional de Salud. A dichos pacientes se les realizó el seguimiento de su evolución hasta noviembre de 2013. Como población control se reclutaron voluntarios sanos sin sintomatología gastrointestinal procedentes del banco de sangre (donantes sanos) o bien de los servicios de consultas externas y fueron emparejados con los casos por sexo, edad (± 5 años) y área de residencia. En el artículo 3 de la presente tesis se incluyeron en el estudio, además de pacientes con CG, pacientes con úlcera duodenal atendidos en el Hospital Clínico Universitario de Zaragoza.
  
  Los artículos abordan dos metodologías claramente diferenciadas en cuanto al tipo de población analizada en los estudios de asociación, como son los estudios caso-control y los estudios de cohortes. Mediante el diseño caso-control de individuos no relacionados hemos evaluado la influencia de los polimorfismos objeto de estudio en la susceptibilidad y el fenotipo del GC así como las interacciones con factores ambientales. Por su parte, el diseño de cohortes nos ha permitido analizar la influencia de los factores genéticos y ambientales en el pronóstico de la enfermedad, considerando la supervivencia general del paciente desde el momento del diagnóstico del CG como variable fundamental. La elección de un tipo de diseño u otro influye de forma determinante en el análisis estadístico de los datos.
  
  En los estudios de susceptibilidad genética en CG el análisis individual de SNPs es el primer análisis que se lleva a cabo tras comprobar el cumplimiento del HWE en la población control. Los análisis de asociación deben de ajustarse además por una serie de factores potenciales que podrían generar confusión en la asociación obtenida como son la infección por H. pylori, el consumo de tabaco y la existencia de antecedentes familiares de CG. En este sentido, los modelos de regresión logística representan una metodología estadística apropiada para analizar el grado de asociación de los diferentes SNPs teniendo en cuenta el efecto de otras variables. Los modelos de regresión logística se han utilizado en los análisis realizados en los artículos 1, 3 y 4 de esta tesis.
  
  En los estudios de factores pronóstico, además del análisis individual de SNPs mediante el estimador de Kaplan-Meier, se ha evaluado el efecto simultáneo de una serie de variables o factores pronósticos sobre el tiempo de supervivencia utilizando para ello el modelo de riesgos proporcionales o modelo de Cox. En los artículos 2 y 3 de la presente tesis se han aplicado modelos de regresión de Cox univariante y multivariante como complemento a las curvas de Kaplan-Meier.
  
  Junto con el estudio de haplotipos, los modelos de regresión constituyen el principal abordaje en el análisis de múltiples SNPs. También representan excelentes herramientas para el análisis de interacciones gen-gen o gen-ambiente. En el artículo 1 de la tesis se realizó el análisis de interacciones entre los polimorfismos de las isoformas GST y las variables ambientales hábito tabáquico, infección por H. pylori e historia familiar de CG. En el artículo 2 se evaluaron interacciones gen-ambiente, e interacciones gen-gen de los 23 polimorfismos estudiados. En relación al software utilizado, el análisis estadístico de los datos se realizó, en su mayoría, con el programa estadístico IBM SPSS Statistics® para Windows. Sin embargo, para el análisis de los datos genéticos del artículo 4 en el que se analizan 108 SNPs, apostamos por la utilización de los paquetes implementados en el programa R de libre distribución. Además del análisis descriptivo de los datos, el análisis exploratorio de los valores perdidos, el cálculo del HWE o la corrección de comparaciones múltiples, el paquete SNPassoc nos permitió realizar análisis crudos, ajustados, estratificado, análisis de subconjuntos e incluso análisis de interacciones. Para el análisis de haplotipos en el artículo 4, nos decantamos por el paquete haplo.stats también disponible en R. Existen otros programas para la estimación de haplotipos como el software Estimating Haplotype frequencies (EH), el cual fue utilizado para el análisis de haplotipos en el artículo 2.
  
  Conclusiones: La realización de la presente tesis doctoral nos ha permitido reconocer los principales problemas de los estudios de asociación genética como son los tamaños muestrales insuficientes, la dificultad para identificar variantes alélicas de baja frecuencia y la obtención de falsos positivos por estratificación de la población o sesgos en el grupo control. Uno de los problemas más debatidos en los estudios de asociación es el que hace referencia a las comparaciones múltiples. La corrección por comparaciones múltiples se realiza para controlar el conjunto de hipótesis y evitar falsas asociaciones que pudieran atribuirse al azar. El procedimiento más conocido es el método de Bonferroni, sin embargo este método es demasiado conservador y por ello se han planteado en este trabajo valores menos extremos como el False Discovery Rate (FDR).
  
  También hemos observado que los modelos de regresión pueden resultar ineficientes cuando el número de SNPs analizados es muy elevado, en cuyo caso deberían aplicarse otros modelos más complejos que requieren un conocimiento avanzado tanto de metodología estadística como de computación. Por último, destacar el importante coste computacional propio de los estudios de asociación genética, y es que el análisis estadístico debe considerar el análisis individual de cada SNP y los cinco posibles modelos de herencia genética. Actualmente, en nuestro entorno, se está trabajando en la integración de información de distintas fuentes y en el tratamiento de grandes bases de datos. Todo ello permitirá disponer, en un futuro no lejano, de una infraestructura de alta capacidad y rendimiento que facilite el desarrollo de estudios más complejos.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: