Big Medical Text Analytics: querying, searching and understanding clinical data

Costumero Moreno, Roberto ORCID: https://orcid.org/0000-0002-0069-5960 (2017). Big Medical Text Analytics: querying, searching and understanding clinical data. Tesis (Doctoral), E.T.S. de Ingenieros Informáticos (UPM). https://doi.org/10.20868/UPM.thesis.47852.

Descripción

Título: Big Medical Text Analytics: querying, searching and understanding clinical data
Autor/es:
Director/es:
Tipo de Documento: Tesis (Doctoral)
Fecha de lectura: 20 Septiembre 2017
Materias:
Palabras Clave Informales: Natural Language Processing; Electronic Health Records; Big Data; Procesamiento del Lenguaje Natural; Historias Clínicas Electrónicas
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Lenguajes y Sistemas Informáticos e Ingeniería del Software
Grupo Investigación UPM: MIDAS: Minería de Datos y Simulación
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of TD_ROBERTO_COSTUMERO_MORENO.pdf]
Vista Previa
PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (3MB) | Vista Previa

Resumen

The increasing generation of data in different sectors thanks to digitalization has provoked a change in the techniques used to store, process and extract value and knowledge from different datasets. This change has also affected more traditional sectors like healthcare, which have been transformed in this process.

The amount of medical data generated is increasing as the adoption of Electronic Health Records is becoming a standard in all the developed countries. The economic impact of the digitalization of medical data is estimated at $300 billion annually. Most of the data generated in healthcare are unstructured data: texts and images.

The focus in this thesis is on the development of new techniques and methods that allow the structure and knowledge extraction from written texts which are stored in EHRs. This data is specially relevant as it contains information on the patient's health, their signs, symptoms, treatments, diseases and their evolution. The richness of this data, which is not already being exploited, can lead to the development of information systems to help doctors to make decisions.

The main development of the research performed is focused on the analysis of the structure of the medical data mentioned in EHRs, as well as its challenges. The use of statistical models to identify the basic structures of Spanish language in written texts is the basis for the rest of developments. The identification of the different medical entities mentioned, as well as drug names, the detection of positivity or negativity of a sentence, together with the disambiguation of acronyms and abbreviations used, are some of the problems analyzed in this research.

In order to realize this analysis, an architecture named H2A: Human Health Analytics has been designed, taking into account the interoperability of the different developed components and providing the corresponding flexibility for its use in different scenarios.

As part of the development of this thesis, the methods and techniques developed have been applied to the study of a real life use case: the analysis on the evolution of stroke patients. This use case demonstrates the potential of these methods and its applicability to scenarios in which real data is used.

Finally, in order to remark the industrial focus of this thesis, an analysis on the market conditions and a business plan has been developed to bring the technology developed in this thesis to the market.---ABSTRACT---La creciente generación de datos en distintos sectores debido a la digitalización ha provocado
un cambio en las técnicas para almacenarlos, procesarlos y extraer valor y conocimiento de
diferentes conjuntos de datos. Este cambio ha afectado también a sectores tradicionales como
el sector de la salud, que ha sufrido un proceso de transformación.
La cantidad de datos médicos generados está aumentando a medida que la adopción de las
Historias Clínicas Electrónicas (HCE) se convierte en un estándar en los países desarrollados.
El impacto económico de la digitalización de los datos médicos se estima en $300.000 millones
anuales. La mayor parte de los datos generados en el sector de la salud, son datos no estructurados:
texto e imágenes.
El énfasis de esta tesis está en el desarrollo de nuevas técnicas y métodos que permitan
la estructuración y la extracción de conocimiento de los textos escritos y almacenados en las
HCEs. Estos datos cobran especial relevancia dado que contienen información sobre la salud
de los pacientes, los signos, síntomas, tratamientos, enfermedades y evolución de los mismos.
La riqueza de estos datos que aún no están aprovechados, puede servir para el desarrollo de
sistemas de información que ayuden a los médicos a tomar decisiones.
La investigación desarrollada se centra en el análisis de la estructuración de los datos
mencionados en las HCEs, así como en los retos que esto supone. El uso de modelos estadísticos
para identificar las estructuras básicas del lenguaje en textos escritos en espa˜nol sienta las bases
del resto de los desarrollos. La identificación de los distintos términos médicos mencionados,
así como los nombres de medicamentos, la detección de la positividad o negatividad de una
frase, junto con la desambiguación de los acrónimos y abreviaturas usados, son parte de los
problemas analizados en esta tesis de investigación.
Para la realización de estos análisis, se ha dise˜nado una arquitectura denominada H2A:
Human Health Analytics (H2A), que permite la interoperabilidad de los distintos componentes
desarrollados y que provee de la flexibilidad correspondiente para su uso en distintos casos de
estudio.
Como parte del desarollo de esta tesis, se han aplicado los métodos y técnicas desarrollados
en el estudio de un caso de uso real: el análisis de la evolución de pacientes de ictus. Este caso
de estudio demuestra el potencial de estos métodos y su aplicabilidad en escenarios en los que
se utilizan datos reales.
Finalmente, para remarcar el enfoque industrial de esta tesis, se ha realizado un análisis
del mercado y un modelo de negocio para poder comercializar la tecnología desarrollada en esta tesis.

Más información

ID de Registro: 47852
Identificador DC: https://oa.upm.es/47852/
Identificador OAI: oai:oa.upm.es:47852
Identificador DOI: 10.20868/UPM.thesis.47852
Depositado por: Alumno Roberto Costumero Moreno
Depositado el: 03 Oct 2017 12:22
Ultima Modificación: 08 Abr 2018 22:30
  • Logo InvestigaM (UPM)
  • Logo Sherpa/Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Logo Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Logo del Portal Científico UPM
  • Logo de REBIUN Sexenios Logo de la ANECA
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo de Recolecta
  • Logo de OpenCourseWare UPM