Exploring disease mapping models in big data contexts: some new proposals
Fecha
2023Autor
Versión
Acceso abierto / Sarbide irekia
Tipo
Tesis doctoral / Doktoretza tesia
Identificador del proyecto
Impacto
|
10.48035/Tesis/2454/46262
Resumen
La representación cartográfica de enfermedades es un área de investigación muy
relevante y significativa dentro del campo de la estadística espacial (datos de área),
ya que ofrece un apoyo muy importante para la toma de decisiones en materia de
salud pública. Debido a la gran variabilidad de los estimadores de riesgo clásicos,
como la razón de mortalidad estandarizada (RME), el uso de modelos ...
[++]
La representación cartográfica de enfermedades es un área de investigación muy
relevante y significativa dentro del campo de la estadística espacial (datos de área),
ya que ofrece un apoyo muy importante para la toma de decisiones en materia de
salud pública. Debido a la gran variabilidad de los estimadores de riesgo clásicos,
como la razón de mortalidad estandarizada (RME), el uso de modelos estadísticos
complejos resulta esencial para obtener una representación más coherente del riesgo
de enfermedad subyacente. Durante las últimas décadas se han propuesto en la
literatura varios modelos estadísticos para suavizar riesgos espacio-temporales, la
mayoría de ellos considerando modelos que incorporan efectos aleatorios con distribuciones
a priori condicionales autorregresivas (CAR), basándose en el trabajo
seminal de Besag et al. (1991). Sin embargo, la escalabilidad de estos modelos,
concretamente su viabilidad en escenarios en los que el número de áreas pequeñas
aumenta significativamente, no ha sido estudiada suficientemente. Por lo tanto, el
principal objetivo de esta tesis es proponer nuevos métodos de modelización bayesiana
escalables para suavizar riesgos (o tasas) de incidencia/mortalidad en datos de área
espaciales y espacio-temporales de alta dimensión. La metodología está basada en el
principio de “divide y vencerás”. La presente tesis aborda en concreto los objetivos
descritos a continuación. El primer objetivo es revisar la bibliografía más reciente acerca de las principales
aportaciones en el ámbito espacial y espacio-temporal que son relevantes para los
objetivos de esta investigación. El capítulo 1 ofrece una visión general del ajuste y la
inferencia de modelos, centrándose en la técnica INLA, basada en aproximaciones
de Laplace anidadas e integración numérica, ampliamente utilizada para modelos
Gaussianos latentes dentro del paradigma Bayesiano (Rue et al., 2009). En este
capítulo también se proporcionan aproximaciones de criterios de selección de modelos
basados en la desviación Bayesiana (denominada deviance en inglés) y la distribución predictiva bajo las nuevas propuestas de modelos escalables. También se incluye una
breve descripción del paquete bigDM de R, que implementa todos los algoritmos y
modelos propuestos en esta disertación. El segundo objetivo de esta tesis es proponer un método de modelización Bayesiana
escalable para el tratamiento de datos de área espaciales de alta dimensión. En
el Capítulo 2, se facilita una descripción exhaustiva de una nueva metodología de
suavización de riesgos. También se lleva a cabo un estudio de simulación multiescenario
que incluye casi 8 000 municipios españoles para comparar el método
propuesto con un modelo global tipo CAR en términos de bondad de ajuste y precisión
en la estimación de la superficie de riesgos. Además, se ilustra el comportamiento de
los modelos escalables analizando datos de mortalidad por cáncer de colon y recto en
hombres para municipios españoles utilizando dos estrategias diferentes de partición
del dominio espacial. El tercer objetivo es ampliar el enfoque de modelización Bayesiana escalable para
suavizar riesgos de mortalidad o incidencia espacio-temporales de alta dimensión. En
el capítulo 3, se presenta una descripción exhaustiva de los modelos CAR espaciotemporales
propuestos originalmente por Knorr-Held (2000), que son la base de la
nueva propuesta de modelización para analizar datos de área espacio-temporales. El
capítulo también explica las estrategias de paralelización y computación distribuida
implementadas en el paquete bigDM para acelerar los cálculos mediante el uso del
paquete future (Bengtsson, 2021) de R. Se realiza un estudio de simulación para
comparar la nueva propuesta escalable con dos estrategias de fusión diferentes
frente a los modelos CAR espacio-temporales tradicionales utilizando el mapa de
los municipios españoles como plantilla. Además, se evalúa la nueva propuesta en
términos de tiempo computacional. Finalmente, se ilustran y comparan todos los
enfoques descritos en este capítulo analizando la evolución espacio-temporal de la
mortalidad por cáncer de pulmón en hombres en los municipios españoles durante el
periodo 1991-2015. El cuarto objetivo es evaluar la idoneidad del método desarrollado en el Capítulo
3 para la previsión a corto plazo de datos de alta resolución espacial. En el Capítulo
4, se presenta el modelo CAR espacio-temporal que incorpora observaciones faltantes
en la variable respuesta para los periodos de tiempo que se van a pronosticar. Adicionalmente,
se realiza un estudio de validación para evaluar la capacidad predictiva
de los modelos para predicciones a uno, dos y tres periodos utilizando datos reales
de mortalidad por cáncer de pulmón en municipios españoles. En este capítulo,
también se compara la capacidad predictiva de los modelos utilizando medidas de
validación cruzada (denominadas en inglés leave-one-out y leave-group-out) (Liu and
Rue, 2022). El quinto objetivo es transversal a todos los capítulos. El objetivo es desarrollar
un paquete en lenguaje R de código abierto llamado bigDM (Adin et al., 2023b) que consolida todos los métodos propuestos en esta disertación haciéndolos fácilmente
disponibles para su uso por la comunidad científica. La tesis finaliza con las principales conclusiones de este trabajo y detalla futuras
líneas de investigación. [--]
Disease mapping is a highly relevant and significant research area within the field
of spatial statistics (areal data), as it offers invaluable support for public health
decision-making. Due to the high variability of classical risk estimators, such as
the standardized mortality ratio (SMR), the use of statistical models becomes
essential to obtain a more consistent representation of the unde ...
[++]
Disease mapping is a highly relevant and significant research area within the field
of spatial statistics (areal data), as it offers invaluable support for public health
decision-making. Due to the high variability of classical risk estimators, such as
the standardized mortality ratio (SMR), the use of statistical models becomes
essential to obtain a more consistent representation of the underlying disease risk.
During the last decades, several statistical models have been proposed in the disease
mapping literature for smoothing risks in space and time, most of them extending the
seminal work of Besag et al. (1991) based on conditional autoregressive (CAR) priors.
However, the scalability of these models, specifically their utility in scenarios where
the number of small areas increases significantly, has not been extensively studied.
Thus, the main purpose of this dissertation is to propose new scalable Bayesian
modelling methods to smooth incidence/mortality risks (or rates) in high-dimensional
spatial and spatio-temporal areal data based on the “divide-and-conquer” approach.
The current dissertation is developed with the following main objectives. The first objective is to review the literature about the main contributions of
spatial and spatio-temporal disease mapping that are relevant to the research goals.
Chapter 1 provides a general overview of model fitting and inference focusing on the
widely used integrated nested Laplace approximation (INLA) technique for latent
Gaussian models within the Bayesian paradigm (Rue et al., 2009). The chapter
also covers the description of how to compute approximations of model selection
criteria based on the deviance and the predictive distribution under our scalable
model proposals. A brief description of the R package bigDM is also included, which
implements all the algorithms and models proposed in this dissertation. The second objective of this dissertation is to propose a scalable Bayesian modelling
method for handling high-dimensional spatial count data. In Chapter 2, we
provide a comprehensive description of our novel risk smoothing method. We also conduct a multi-scenario simulation study involving nearly 8000 Spanish municipalities
to compare our proposed method with the well-known CAR models in
terms of goodness of fit and risk estimation accuracy. Additionally, we illustrate the
behaviour of the scalable models by analysing male colorectal cancer mortality data
from Spanish municipalities using two different partition strategies of the spatial
domain. The third objective is to extend our scalable Bayesian modelling approach for
smoothing mortality or incidence risks to analyze high-dimensional spatio-temporal
count data. In Chapter 3, we present a comprehensive description of the spatiotemporal
CAR models originally proposed by Knorr-Held (2000), which are the
basis of our new modelling proposal for analyzing spatio-temporal areal data. The
chapter also explains the parallel and distributed strategies implemented in the
bigDM package to speed up computations by using the R package future (Bengtsson,
2021). A simulation study is conducted to compare our new scalable proposal with
two different merging strategies against traditional spatio-temporal CAR models
using the map of the Spanish municipalities as a template. Additionally, we evaluate
our proposal in terms of computational time. Finally, we illustrate and compare all
the approaches described in this chapter by analyzing the spatio-temporal evolution
for male lung cancer mortality data in Spanish continental municipalities during the
period 1991-2015. The fourth objective is to assess the suitability of the method developed in
Chapter 3 for short-term forecasting in high spatial resolution data. In Chapter 4, we
present the spatio-temporal CAR model, which incorporates missing observations in
the response variable for the time periods to be forecasted. Additionally, a validation
study is conducted to assess the predictive ability of the models for one, two and
three periods ahead forecasting using real lung cancer mortality data in Spanish
municipalities. In this chapter, we also compare the predictive performance of the
models using scoring rules based on leave-one-out and leave-group-out cross-validation
strategies (Liu and Rue, 2022). The fifth objective is transversal to all chapters. The aim was to develop an
open-source R language package named bigDM (Adin et al., 2023b) that consolidates
all the methods proposed in this dissertation making them readily available for use
by the scientific community. The dissertation ends with the main conclusions and future research lines. [--]
Materias
Representación cartográfica de enfermedades,
Modelización bayesiana escalable,
Suavización de riesgos,
Disease mapping,
Scalable bayesian modelling,
Risk smoothing
Departamento
Universidad Pública de Navarra. Departamento de Estadística, Informática y Matemáticas /
Nafarroako Unibertsitate Publikoa. Estatistika, Informatika eta Matematika Saila
Programa de doctorado
Versión del editor
Entidades Financiadoras
This dissertation has been supported by Project MTM2017-82553-R (AEI/FEDER,
UE) and Project PID2020-113125RB-I00/MCIN/AEI/10.13039/501100011033. It has
also been partially funded by the Public University of Navarra (project PJUPNA2001),
and by la Caixa Foundation (ID 1000010434), Caja Navarra Foundation and UNED
Pamplona, under agreement LCF/PR/PR15/51100007 (project REF P/13/20).