Ayuda
Ir al contenido

Dialnet


On the diagnostic ability assessment of medical tests with right-censored data

  • Autores: Sara Perez-Jaume
  • Directores de la Tesis: Josep Lluís Carrasco Jordan (dir. tes.)
  • Lectura: En la Universitat de Barcelona ( España ) en 2022
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: Klaus Langohr (presid.), Rosa Maria Abellana Sangrà (secret.), Georgia Escaramis Babiano (voc.)
  • Programa de doctorado: Programa de Doctorado en Medicina e Investigación Traslacional por la Universidad de Barcelona
  • Materias:
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • Introducción Un test diagnóstico es una medida que se toma a un individuo con el objetivo de diagnosticar una cierta condición de interés, como por ejemplo determinar si el individuo es enfermo o sano. Habitualmente, los tests diagnósticos son binarios (por ejemplo, un test que puede dar resultado positivo o negativo para una infección vírica), multiestado (por ejemplo, un test con tres resultados posibles: bajo, medio o alto) o continuo (por ejemplo, el antígeno prostático específico es un biomarcador cuantitativo que se utiliza para discriminar entre pacientes con y sin cáncer de próstata). Normalmente, la precisión de un test diagnóstico binario se evalúa utilizando la sensibilidad y la especificidad. La sensibilidad es la probabilidad de detectar la enfermedad cuando esta está presente y la especificidad es la probabilidad de excluir la enfermedad cuando esta está ausente.

      Los biomarcadores continuos que se usan como tests diagnósticos pueden ser dicotomizados usando un punto de corte c para definir el resultado del test como positivo o negativo. En este contexto, la sensibilidad y la especificidad dependen de c.

      Por tanto, podemos definir la curva característica operativa del receptor (receiver operating characteristic, ROC) como el gráfico de 1-especificidad contra sensibilidad para todos los posibles c. El área bajo la curva ROC, AUC (area under the ROC curve), es la medida más conocida para resumir la curva ROC en un solo valor. El AUC evalúa la capacidad del biomarcador continuo para discriminar entre individuos sanos y enfermos y toma valores entre 0.5 (que indica que el test clasifica a los sujetos aleatoriamente) y 1 (que indica que el test es perfecto). Generalmente, el AUC se estima utilizando la regla trapezoidal. A veces, el interés se centra en la elección de un punto de corte que sea óptimo en algún sentido. En la literatura se han propuesto muchos métodos para estimar puntos de corte óptimos basados en curvas ROC, siendo el más popular la maximización del índice de Youden (la suma de la sensibilidad y la especificidad menos 1). Además, en la literatura se propuso un método basado en una función de coste para estimar puntos de corte óptimos en el caso binario. Esta metodología considera una función de coste que incorpora los costes de las posibles decisiones que se pueden tomar cuando se dicotomiza un test diagnóstico continuo usando un punto de corte (verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos) y selecciona como punto de corte óptimo el valor que minimiza esta función de coste.

      Para el caso en que el biomarcador continuo sigue una distribución Normal en las dos subpoblaciones que queremos distinguir, se propusieron fórmulas (expresiones cerradas) para el punto de corte óptimo. La primera asume homogeneidad de varianzas en los dos grupos, mientras que la segunda asume varianzas diferentes. Más adelante, esta metodología basada en la minimización de una función de coste se extendió para el caso multiestado.

      Cuando la variable que determina el estado de los individuos no es categórica sino que es el tiempo hasta la aparición de un cierto evento de interés, el objetivo es encontrar un punto de corte con capacidad para distinguir a los individuos que experimentarán el evento de los que no lo experimentarán, definiendo dos grupos de buen y mal pronóstico. Los tiempos hasta a un evento habitualmente están censurados por la derecha, hecho que se debe tener en cuenta en el proceso de estimación. En la literatura se han desarrollado algunos métodos para estimar puntos de corte óptimos en este contexto.

      En esta tesis, nos centramos en evaluar la capacidad diagnóstica de tests continuos en el contexto de datos censurados por la derecha en un cierto momento de tiempo de interés t. Este tiempo t es relevante desde el punto de vista clínico o biológico. Por tanto, nuestro objetivo es distinguir los sujetos según su estado en t. El problema aparece cuando este estado en t es desconocido (missing), hecho que sucede en aquellos individuos que han sido censurados antes de t. En este trabajo, proponemos dos maneras de enfocar este problema: primero, excluir del análisis aquellos pacientes con estado missing en t y, segundo, usar imputación múltiple para afrontar este problema de datos faltantes o missingness.

      Hipótesis Las hipótesis de esta tesis son las siguientes: 1) cuando estimamos puntos de corte óptimos con el método basado en la función de coste en el caso binormal, puede ser necesario comprobar la homogeneidad de varianzas entre los dos grupos para seleccionar el estimador más adecuado, 2) excluir del análisis los pacientes con estado missing en t cuando evaluamos la capacidad diagnóstica de tests continuos con datos censurados por la derecha en un cierto tiempo t puede llevar a estimadores sesgados del AUC y del punto de corte óptimo, con propiedades estadísticas pobres, 3) el funcionamiento de los métodos de estimación se podría mejorar utilizando imputación múltiple de tiempos censurados, y 4) también postulamos que implementar en el programa estadístico R métodos para la estimación y la inferencia de puntos de corte óptimos y de AUCs es beneficioso para la comunidad científica.

      Objetivos Para abordar nuestras hipótesis, los objetivos de esta tesis son los siguientes: 1) implementar en el programa estadístico R la metodología basada en la función de coste para estimar puntos de corte óptimos en los casos de dos y tres estados, 2) comparar los dos estimadores del punto de corte propuestos para el caso binormal, 3) proponer nuevos métodos para la estimación de puntos de corte óptimos y AUCs cuando el estado de los individuos está definido por datos censurados por la derecha a un cierto momento de tiempo pre-especificado t, abordando el problema de missingness que encontramos en este contexto, y comparar estos métodos, y 4) implementar estos nuevos métodos en el programa R.

      Métodos Nos centramos en la metodología basada en la función de coste, que estima el punto de corte óptimo minimizando una función de coste que tiene en cuenta tanto los costes de decisión como la incertidumbre muestral. Para abordar el problema de missingness que encontramos al evaluar la capacidad diagnóstica de tests continuos con datos censurados por la derecha a un cierto tiempo t, utilizamos imputación múltiple de los tiempos censurados para los individuos censurados antes de t. Para comparar las propiedades estadísticas de diferentes estimadores, usamos estudios de simulación. Todos los análisis se han hecho utilizando el programa estadístico R.

      Resultados principales Hemos implementado el método basado en la función de coste para la estimación y inferencia de puntos de corte óptimos en los casos de dos y tres estados en un paquete de R, que está disponible en el repositorio CRAN.

      Hemos llevado a cabo un extenso estudio de simulación para comparar diversas estrategias que permiten escoger entre los dos estimadores propuestos para el punto de corte en el contexto de binormalidad. Los resultados indican que escoger siempre el estimador que asume varianzas diferentes para el biomarcador entre los dos grupos es la estrategia que presenta mejores propiedades estadísticas.

      Respecto la evaluación de la capacidad diagnóstica con datos censurados por la derecha a un cierto tiempo t, en esta tesis hemos propuesto dos métodos, los hemos aplicado a tres casos reales y hemos hecho un estudio de simulación para compararlos y estudiar sus propiedades estadísticas. Los resultados muestran sesgos pequeños en ambos métodos. No obstante, observamos menos sesgo y menos error cuadrático medio para el método que utiliza imputación múltiple, sobre todo para muestras pequeñas o moderadas. Los cubrimientos del método que excluye a los individuos con estado missing en t están por debajo del esperado 95%, mientras que para el método que aplica imputación múltiple los cubrimientos están alrededor del 95% que se espera.

      Finalmente, hemos implementado otro paquete de R que incluye los nuevos métodos propuestos en esta tesis, que también está disponible en el repositorio CRAN.

      Conclusiones Cuando estimamos puntos de corte óptimos en el contexto de binormalidad, recomendamos escoger el estimador que asume varianzas diferentes para el biomarcador en los dos grupos.

      Cuando evaluamos la capacidad diagnóstica de tests continuos con datos censurados por la derecha en un cierto instante de tiempo t, recomendamos utilizar el método basado en imputación múltiple para muestras pequeñas o moderadas, especialmente cuando tenemos una proporción alta de missings en el estado en t. Para tamaños muestrales grandes, excluir del análisis a los individuos con estado missing en t da resultados similares a la utilización de imputación múltiple.

      Hemos publicado dos paquetes de R: uno que implementa el método basado en la función de coste en los casos de dos y tres estados y un segundo paquete que implementa los dos métodos propuestos en esta tesis para estimar AUCs y puntos de corte óptimos para tests continuos con datos censurados por la derecha en un tiempo t.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno