La creciente generación de datos en distintos sectores debido a la digitalización ha provocado un cambio en las técnicas para almacenarlos, procesarlos y extraer valor y conocimiento de diferentes conjuntos de datos. Este cambio ha afectado también a sectores tradicionales como el sector de la salud, que ha sufrido un proceso de transformación.
La cantidad de datos médicos generados está aumentando a medida que la adopción de las Historias Clínicas Electrónicas (HCE) se convierte en un estándar en los países desarrollados. El impacto económico de la digitalización de los datos médicos se estima en $300.000 millones anuales. La mayor parte de los datos generados en el sector de la salud, son datos no estructurados: texto e imágenes.
El énfasis de esta tesis está en el desarrollo de nuevas técnicas y métodos que permitan la estructuración y la extracción de conocimiento de los textos escritos y almacenados en las HCE. Estos datos cobran especial relevancia dado que contienen información sobre la salud de los pacientes, los signos, síntomas, tratamientos, enfermedades y evolución de los mismos. La riqueza de estos datos que aún no están aprovechados, puede servir para el desarrollo de sistemas de información que ayuden a los médicos a tomar decisiones.
La investigación desarrollada se centra en el análisis de la estructuración de los datos mencionados en las HCE, así como en los retos que esto supone. El uso de modelos estadísticos para identificar las estructuras básicas del lenguaje en textos escritos en español sienta las bases del resto de los desarrollos. La identificación de los distintos términos médicos mencionados, así como los nombres de medicamentos, la detección de la positividad o negatividad de una frase, junto con la desambiguación de los acrónimos y abreviaturas usados, son parte de los problemas analizados en esta tesis de investigación.
Para la realización de estos análisis, se ha diseñado una arquitectura denominada H2A: Human Health Analytics (H2A), que permite la interoperabilidad de los distintos componentes desarrollados y que provee de la flexibilidad correspondiente para su uso en distintos casos de estudio.
Como parte del desarollo de esta tesis, se han aplicado los métodos y técnicas desarrollados en el estudio de un caso de uso real: el análisis de la evolución de pacientes de ictus. Este caso de estudio demuestra el potencial de estos métodos y su aplicabilidad en escenarios en los que se utilizan datos reales.
Finalmente, para remarcar el enfoque industrial de esta tesis, se ha realizado un análisis del mercado y un modelo de negocio para poder comercializar la tecnología desarrollada en esta tesis.
Palabras clave: Procesamiento del Lenguaje Natural, Historias Clínicas Electrónicas, Big Data.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados