Ayuda
Ir al contenido

Dialnet


Interpretable data science methods for knowledge discovery from ovarian cancer data

  • Autores: L. Bote Curiel
  • Directores de la Tesis: Sergio Muñoz Romero (dir. tes.), José Luis Rojo Alvarez (codir. tes.)
  • Lectura: En la Universidad Rey Juan Carlos ( España ) en 2021
  • Idioma: español
  • Tribunal Calificador de la Tesis: Juan Francisco Rodríguez Moreno (presid.), Norberto Antonio Malpica Gonzalez (secret.), Juan Ignacio Godino Llorente (voc.)
  • Programa de doctorado: Programa de Doctorado en Tecnologías de la Información y las Comunicaciones por la Universidad Rey Juan Carlos
  • Materias:
  • Enlaces
    • Tesis en acceso abierto en: TESEO
  • Resumen
    • Antecedentes. El cáncer de ovario (OC, por sus siglas en inglés) es la segunda neoplasia ginecológica más frecuente, el tumor ginecológico con peor pronóstico y la quinta causa de muerte relacionada con el cáncer. Esto se debe, en parte, a que el OC suele detectarse en una fase avanzada en la mayoría de los pacientes. La detección precoz de estos tumores es una tarea difícil a causa de la no aparición de síntomas específicos en las fases iniciales de la enfermedad y a la falta de técnicas de cribado fiables. Por ello, los biomarcadores en general, y más concretamente los basados en datos ómicos, tienen un gran potencial para la detección del OC en fases tempranas. Técnicas pertenecientes a la ciencia de datos como el big data y el deep learning se están usando actualmente para analizar datos ómicos y clínicos e intentar buscar asociaciones con la aparición de enfermedades, con un determinado pronóstico o incluso con una determinada respuesta a una terapia, pudiéndose aplicar de este modo en el descubrimiento de nuevos biomarcadores. En este sentido, los análisis de interpretabilidad de datos deberían requerir una atención especial. En concreto, estos análisis pretenden comprender los datos, encontrar patrones básicos en los mismos y hacer inferencias a partir de los patrones más representativos. Sin embargo, estos tipos de análisis se ignoran frecuentemente en los análisis de machine learning y deep learning, centrados sobre todo en la precisión, lo que hace que, a menudo, se pueda estar perdiendo información relevante para el profesional o el experto en el campo de aplicación.

      Objetivos. Los objetivos generales propuestos en esta tesis doctoral son los siguientes: (1) estudiar métodos de análisis de interpretabilidad de datos, tanto existentes como nuevos, para tratar de entender los datos con los que tratamos, encontrar patrones en los mismos y realizar inferencias usando dichos patrones observados; y (2) buscar relaciones entre factores clínicos y genéticos de pacientes de OC con la progresión de la enfermedad, utilizando para ello métodos de análisis de interpretabilidad de datos con datos clínicos y genómicos de pacientes.

      Metodología. Para conseguir los objetivos propuestos, hemos seguido una metodología general consistente en las siguiente tareas: (1) realizar una revisión en detalle de la bibliografía sobre métodos de ciencia de datos; (2) obtener una interpretación de datos de OC usando métodos de análisis univariante basados en estadística descriptiva y test estadísticos; y (3) obtener una interpretación de datos de OC con métodos de análisis multivariante, utilizando métodos de extracción de características, tanto lineales como no lineales, y métodos de selección de características.

      Resultados. La realización de una revisión inicial del estado actual del big data y del deep learning, dos grandes ramas de la ciencia de datos, nos ha proporcionado una instantánea detallada de estas dos áreas. Asimismo, la aplicación de un marco de análisis univariante a un conjunto de datos clinicos y genómicos de OC ha dado como resultado que algunas de las variables del conjunto de datos mostraran diferencias estadísticas entre los grupos de progresión de la enfermedad, es decir, entre los grupos resistentes al platino y los sensibles al platino, apareciendo también estas diferencias en algunas palabras de las variables de tipo texto. En cuanto a los análisis llevados a cabo con métodos de extracción de características lineales multivariantes, los resultados de los datos clínicos han mostrado patrones de separabilidad con respecto al grado de sensibilidad al platino, y han confirmado el papel predictivo y de pronóstico que tienen algunas variables clínicas y genéticas ampliamente conocidas, además de demostrar asociaciones significativas en otras variables cuyo papel en el desarrollo del OC ha sido estudiado en menor medida. El patrón de separabilidad entre los grupos de progresión de la enfermedad en los datos clínicos también está presente en los resultados del método de extracción de características no lineal utilizado. Por último, los resultados del método de selección de características propuesto muestran capacidades predictivas y de pronóstico tanto para variables clínicas relevantes previamente conocidas como para características genéticas de bajo riesgo, lo que pone de manifiesto la eficacia del método para comprender mejor el curso clínico del OC.

      Conclusiones. En cuanto a las conclusiones que se relacionan con el objetivo general de estudiar métodos de análisis de interpretabilidad de datos tanto existentes como nuevos, podemos determinar que el uso de dichos métodos es un paso necesario para lograr una comprensión más profunda de los datos que estamos tratando, de tal forma que permiten revelar la calidad de los datos y encontrar patrones intrínsecos que nos proporcionan información valiosa para etapas posteriores de análisis. Por otro lado, en lo relacionado con las conclusiones ligadas al objetivo general de intentar encontrar relaciones entre factores clínicos y genéticos de pacientes de OC con respecto a la progresión de la enfermedad, podemos establecer que los patrones de separabilidad encontrados en los datos de OC con respecto a la progresión de la enfermedad, tanto con los métodos univariantes como con los multivariantes, pueden ser indicadores de éxito en la tarea de clasificar los datos entre grupos de progresión de la enfermedad. Además, las características que han aparecido como relevantes en algunos de los métodos propuestos podrían funcionar como potenciales biomarcadores de la enfermedad.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno