Creación y uso de una ontología relacionada con genes, síndromes, síntomas y enfermedades para la clasificación de textos biomédicos

María de la Concepción Pérez de Celis; Gerardo Sierra; Fátima Ronquillo; Emilio Salceda

Ayuda

Creación y uso de una ontología relacionada con genes, síndromes, síntomas y enfermedades para la clasificación de textos biomédicos

Concepción Pérez de Celis ^[1] ; Gerardo Sierra ^[2] ; Fátima Ronquillo ^[1] ; Emilio Salceda ^[1]
1. [1] Benemérita Universidad Autónoma de Puebla
  
  Benemérita Universidad Autónoma de Puebla
  
  México
2. [2] Universidad Nacional Autónoma de México
  
  Universidad Nacional Autónoma de México
  
  México
Localización: Revista signos: estudios de lingüística, ISSN-e 0718-0934, ISSN 0035-0451, Nº. 84, 2014, págs. 91-112
Idioma: español
Títulos paralelos:
- Integrating ontologies and supervised methods in the multi-classification of biomedical documents
Enlaces
- Texto completo (pdf)
Resumen
- español
  Esta investigación tiene como objetivo analizar y clasificar artículos biomédicos en el ámbito de neurociencias y, en particular, se consideran artículos científicos relacionados con hipoacusia. El proceso de categorización de textos generalmente consta de dos etapas: la primera, consistente en la delimitación de las clases que dividen al tema de nuestro interés, y la segunda, enfocada a la categorización de los textos de interés. En la mayoría de las aplicaciones, la categorización se resuelve basando el modelo en la obtención de clases que se encuentran dispersas, lo cual permite que los algoritmos de categorización existentes tengan buenos resultados dado que entre ellos hay una línea amplia de separación de las clases. El problema radica cuando la evaluación de las clases contiene una línea de separación estrecha entre ellas. En este trabajo se presenta un enfoque diferente al tradicional mediante la integración de dos algoritmos de categorización, el uso de n-gramas de letras para la categorización de clases parcialmente distantes y posteriormente la afinación de la categorización de documentos utilizando los términos de una ontología de dominio. Los resultados obtenidos con este método han sido prometedores
- English
  This study aims to analyze and categorize biomedical articles from the field of neuroscience, specifically, scientific articles related to hearing loss are considered. The text categorization process usually consists of two stages: the first one consists of the division of the classes that divide the object of study, and the second one is focused on the categorization of the texts which make up our corpus. In most applications, the categorization is solved by basing the models on the obtention of dispersed classes;
  
  this allows for existing algorithms of categorization to get good results because there are big lines of separation among the classes. But there are problems when these lines of separation are narrow. This paper presents a different approach by integrating two algorithms of categorization: using n-grams of letters for categorizing distant classes, and later refining the categorization of documents partially, using the terms of a domain ontology related with genes, diseases and syndromes. Promising results were obtained with this method