Publication:
Reconocimiento y clasificación automatizada de entidades nombradas en documentos medievales (s. XIV): Libro Becerro de las Behetrías

Loading...
Thumbnail Image
Identifiers
Publication date
2017-10-20
Defense date
2017-09-22
Tutors
Journal Title
Journal ISSN
Volume Title
Publisher
Impact
Google Scholar
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Los seres humanos utilizamos el lenguaje como medio de comunicación, lo que ha favorecido el desarrollo y organización de la sociedad en las diferentes épocas de la historia. Reflejo de ello son los innumerables testimonios textuales que tuvieron su auge en la época medieval, momento de transición de una sociedad de transmisión básicamente oral a otra en la que imperaba lo escrito. El desarrollo de técnicas computacionales ha pasado a formar parte del escenario de investigación en las Humanidades. En el ámbito de estudio de los testimonios textuales de la época medieval, las técnicas de procesamiento del lenguaje natural (PLN) han transformado significativamente los métodos, abriendo la posibilidad de generar nuevas preguntas de investigación. El procesamiento del lenguaje natural (PLN) ofrece diferentes aplicaciones como la traducción automática, recuperación y extracción de información, reconocimiento del habla, minería de textos entre otras. Dentro de la extracción de información (Information Extraction- IE) se define la subtarea de reconocimiento y clasificación de entidades nombradas EN (Named Entities- NE) cuyo objetivo es principalmente la identificación de nombres propios de personas, lugares y organizaciones. Los sistemas para el reconocimiento y clasificación de EN (NERC- Named Entity Recognition and Classification) utilizan habitualmente técnicas basadas en gramáticas lingüísticas, métodos estadísticos y gazetteers o listados de términos. En esta tesis se propone un método para la explotación de corpus de documentación medieval mediante sistemas de PLN, con el objetivo de la identificación y clasificación automatizada de las EN y relaciones para su posterior puesta a disposición, en abierto, a través de una plataforma web. Para ello, se ha llevado a cabo un estudio de caso utilizando la aplicación Freeling para español estándar y la variante diacrónica del español de los siglos XII al XVI en un corpus formado por los documentos que componen el Libro Becerro de la Behetrías de Castilla, del siglo XIV. Mediante el análisis de los problemas surgidos en la anotación automática se elabora una propuesta de adaptación para el etiquetado de las EN que no contienen triggers denominadas simples y se diseña una aplicación para la identificación de las entidades anidadas o complejas y sus relaciones. Para la evaluación de los resultados obtenidos fue necesaria la elaboración de un corpus anotado de forma manual que constituyese un gold standard, que con los niveles obtenidos de precisión, cobertura y medida F (F-measure), permitieron elaborar de forma semiautomática los gazetters de personas, lugares y organizaciones. Para su almacenamiento se diseñó una base de datos relacional en MySQL que permitiese su publicación en una plataforma web en PHP. Esta plataforma ofrece una interfaz de consulta para los usuarios en general e investigadores de diferentes disciplinas, que cuenta además con la opción de descarga de los programas desarrollados y gazetteers elaborados. Esto la convierte a su vez en una fuente de información para la reutilización e integración de los mismos en otros proyectos dentro de las Humanidades Digitales. Los resultados obtenidos en este estudio de caso ponen de manifiesto que la aplicación de este método abre las posibilidades de investigación, con otros sistemas de PLN, en corpus de documentación medieval para el reconocimiento y extracción de ENs.
Computer science developments are currently an integral part of Digital Humanities scholarship. In the field of medieval text analysis, Natural Language Processing research (NLP) is significantly transforming the methods of study, opening up the possibilities to ask new research questions. Natural Language Processing (NLP) techniques facilitate, among others, automatic translation, information extraction and retrieval, speech recognition, and text mining. This thesis proposes a method for applying NLP methods to a medieval document corpus using information extraction (IE) tasks, including named entity (NE) recognition, which aims to identify mainly proper names of persons, places and organizations and their classification. Named Entity Recognition and Classification methods (NERC) often use techniques based on linguistic grammars, statistic methods and gazetteers or term lists. The method proposed in this thesis facilitates the automatic identification and classification of named entities and their relationships, presenting a case study in which the application “Freeling” for standard Spanish, and the diachronic variant for Spanish language from the XII to XVI centuries have been used. The corpus consists of the documents from the “Libro Becerro de la Behetrías de Castilla”, from the XIV century. Via the analysis of the issues emerging from the automatic annotation of this corpus, this investigation proposes an adaptation for labeling the simple named entities, and presents an application developed for the identification of the nested and complex entities and their relationships. The results obtained in this work have been evaluated using a manually annotated corpus (gold standard), analyzing precision, coverage and variance (F values). The evaluated results facilitated the semi-automatic creation of gazetters for persons, places, and organizations. In addition to the method resulting from this investigation, the software and gazetters developed during this work are offered in a web service for free download and can be consulted by specialized or non-specialized researchers from different disciplines via a user-friendly interface. Together, the method, the data, and this implementation aim to open up the possibilities for further medieval documents research and experimentation
Description
Mención Internacional en el título de doctor
Keywords
Libro Becerro de la Behetrías de Castilla, Clasificación de entidades, Documentos medievales, Lingüistica computacional, Procesamiento del Lenguaje Natural (PLN)
Bibliographic citation
Collections