En los últimos años, el desarrollo y la expansión de tecnologías avanzadas ha provocado un notable incremento en la generación de datos, marcando el inicio de la era del Big Data. En este contexto, no solo es fundamental obtener muestras representativas, sino también analizar los grandes volúmenes de datos disponibles para descubrir nuevos conocimientos y formular hipótesis. Esto plantea desafíos y oportunidades para la Estadística, que debe proporcionar los métodos y herramientas necesarios para examinar esta información.
En este entorno, la integración de datos es clave ya que permite combinar la información de múltiples fuentes para que pueda ser empleada de una forma coherente y eficiente. La última etapa de este proceso es la Fusión de Datos, la cual persigue la combinación de diferentes niveles de información para obtener un resultado final significativo. En este contexto, las técnicas de meta-análisis han alcanzado gran popularidad por combinar resultados de estudios independientes para obtener una conclusión común y fiable. Sin embargo, su uso incorrecto puede comprometer la fiabilidad y reproducibilidad de los resultados, lo que hace crucial el desarrollo de flujos de trabajo definidos y software abierto para aplicar correctamente estos métodos.
La presente tesis doctoral se centra en desarrollar métodos y herramientas de software para aplicar técnicas de meta-análisis a datos biomédicos, específicamente en el ámbito de los datos -ómicos como la transcriptómica y los datos clínicos y epidemiológicos, que han cobrado relevancia debido a su impacto en la investigación biomédica durante la pandemia de COVID-19.
En el caso de los datos de expresión génica, se desarrollaron técnicas de meta-análisis para integrar estudios independientes, considerando el problema de la posible existencia de genes faltantes entre estudios, lo que puede resultar en pérdida de información. Esto llevó a la creación de DExMA, un paquete de R que aplica meta-análisis a datos de expresión génica y que aborda este problema permitiendo al usuario la imputación de estos genes a partir de muestras similares en otros estudios. Además, se exploró el meta-análisis de las rutas biológicas asociadas a genes como otra alternativa ante este problema, lo que llevó a la implementación de una nueva metodología denominada GSEMA, la cual combina técnicas de meta-análisis con técnicas de enriquecimiento funcional. Tanto DExMA como GSEMA demostraron obtener resultados más consistentes que métodos y herramientas previas.
En el análisis de datos clínicos y epidemiológicos, se investigó la posible estacionalidad del COVID-19, integrando datos de diversas fuentes para estandarizar información sobre su incidencia y asociación con factores ambientales. Esto facilitó el desarrollo de la aplicación web DatAC, que permite analizar y visualizar la evolución de variables relacionadas con COVID-19 y factores ambientales en España. Posteriormente, a partir de los datos recopilados se llevó a cabo el análisis de la estacionalidad considerando la influencia de la inmunidad poblacional en la transmisión del virus. Los análisis concluyeron que la estacionalidad del virus se observa solo con un alto porcentaje de población inmunizada, mostrando variaciones en la transmisión durante distintos períodos climáticos.
In recent years, the development and expansion of advanced technologies have led to a notable increase in data generation, marking the beginning of the Big Data era. In this context, it is not only essential to obtain representative samples but also to analyze the large volumes of available data to uncover new insights and formulate hypotheses. This presents challenges and opportunities for Statistics, which must provide the necessary methods and tools to examine this information.
In this environment, data integration is key as it allows for the combination of information from multiple sources so that it can be used in a coherent and efficient manner. The final stage of this process is Data Fusion, which aims to combine different levels of information to produce a significant final result. In this context, meta-analysis techniques have gained great popularity for combining results from independent studies to reach a common and reliable conclusion. However, incorrect use of these techniques can compromise the reliability and reproducibility of results, making it crucial to develop well-defined workflows and open-source software to properly apply these methods.
This doctoral thesis focuses on developing methods and software tools for applying meta-analysis techniques to biomedical data, specifically in the realm of -omics data such as transcriptomics and clinical and epidemiological data, which have gained relevance due to their impact on biomedical research during the COVID-19 pandemic.
For gene expression data, meta-analysis techniques were developed to integrate independent studies, considering the issue of potential missing genes between studies, which can result in information loss. This led to the creation of DExMA, an R package that applies meta-analysis to gene expression data and addresses this issue by allowing users to impute these missing genes from similar samples in other studies. Additionally, meta-analysis of biological pathways associated with genes was explored as an alternative solution to this problem, leading to the implementation of a new methodology called GSEMA, which combines meta-analysis techniques with functional enrichment techniques. Both DExMA and GSEMA have demonstrated more consistent results than previous methods and tools.
In the analysis of clinical and epidemiological data, the possible seasonality of COVID-19 was investigated by integrating data from various sources to standardize information on its incidence and association with environmental factors. This facilitated the development of the web application DatAC, which allows for the analysis and visualization of the evolution of variables related to COVID-19 and environmental factors in Spain. Subsequently, based on the collected data, an analysis of seasonality was conducted considering the influence of population immunity on virus transmission. The analyses concluded that virus seasonality is only observed with a high percentage of the population immunized, showing variations in transmission during different climatic periods.
These results highlight the importance of integrating and reusing public data to transform accumulated information into new knowledge. They also underscore the need to apply rigorous statistical techniques and develop open-source methodologies to ensure proper application, promoting reproducibility and accessibility of results to the scientific community.
© 2001-2026 Fundación Dialnet · Todos los derechos reservados