Ayuda
Ir al contenido

Dialnet


Resumen de Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia

George Enrique Dueñas Luna, Fabio González

  • español

    La Lingüística de Corpus es una metodología empírica ya que, a partir de grandes colecciones de textos -corpus o corpora- intenta describir las regularidades de las lenguas por medio de la implementación de programas computacionales, y así, simular los usos reales de ellas. Este trabajo aplica la Lingüística de Corpus a un conjunto de historias médicas electrónicas escritas en español nunca analizado lingüísticamente. De estas historias se desconoce la forma en que están escritas por parte de los médicos y las clases de palabras que utilizan cuando describen un suceso en una subdisciplina médica. El conjunto de datos está formado por 19 subdisciplinas médicas, las cuales contienen sus propias historias. Cada historia fue anotada en tres formas diferentes, lematización, tokenización y categoría gramatical (part-of-speech) por medio de TreeTagger. Posteriormente, las frecuencias de las anotaciones se describieron mediante AntConc. Los resultados encontrados para cada subdisciplina muestran las palabras con mayor frecuencia. Las palabras de clase cerrada son las más comunes y utilizadas. Algunas partes de las historias médicas fueron anotadas erróneamente. Por otra parte, se muestran ejemplos que dan a conocer la variabilidad de uso entre expresiones y abreviaturas por parte del personal médico. Además, la escritura médica de la Universidad Nacional de Colombia corrobora la Ley de Zipf.

  • English

    Corpus Linguistics is an empirical methodology which, based on great collections of text - corpus or corpora, attempts to describe the regularities of languages by means of the implementation of computer programs, and in this way to simulate their real use. This work applies Corpus Linguistics to a series of electronic medical histories written in Spanish, which have never been linguistically analyzed before. We do not know the precise form in which these histories were written by doctors or the types of words used when describing an event in a medical subdiscipline.

    The set of data is formed by 19 medical subdisciplines, which contain their own histories. Each history was tagged in 3 different ways: lemmatization, tokenization, and grammatical part-of-speech, using TreeTagger.

    Afterwards, the frequencies of tags were described using AntConc.

    The results found for each subdiscipline show the words that appear with greater frequency. The closed class words were the most commonly used. Some parts of the medical histories were tagged erroneously. On the other hand, examples were found that allowed us to recognize the variability of use of expressions and abbreviations in the medical staff. Also, medical writing at Universidad Nacional de Colombia corroborated Zipf's Law.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus