Reconocimiento y clasificación de entidades nombradas en documentos medievales (s. XIV): Libro Becerro de las Behetrías

Mª Eugenia Iglesias Moreno

Ayuda

Reconocimiento y clasificación de entidades nombradas en documentos medievales (s. XIV): Libro Becerro de las Behetrías

Autores: Mª Eugenia Iglesias Moreno
Directores de la Tesis: José Antonio Moreiro González (dir. tes.), Pilar Azcárate Aguilar-Amat (codir. tes.), Sonia Sánchez Cuadrado (codir. tes.)
Lectura: En la Universidad Carlos III de Madrid ( España ) en 2017
Idioma: español
Tribunal Calificador de la Tesis: Cristina Jular Pérez-Alfaro (presid.), Diego Navarro Bonilla (secret.), Francisco Carlos Paletta (voc.)
Materias:
- Matemáticas
  - Ciencia de los ordenadores
    - Inteligencia artificial
- Lingüística
  - Lingüística aplicada
    - Lingüística informatizada
    - Documentación
Enlaces
- Tesis en acceso abierto en: e-Archivo
Resumen
- El desarrollo de técnicas computacionales ha pasado a formar parte del escenario de investigación en las Humanidades. En el ámbito de estudio de los testimonios textuales de la época medieval, las técnicas de procesamiento del lenguaje natural (PLN) han transformado significativamente los métodos, abriendo la posibilidad de generar nuevas preguntas de investigación.
  
  El procesamiento del lenguaje natural (PLN) ofrece diferentes aplicaciones como la traducción automática, recuperación y extracción de información, reconocimiento del habla, minería de textos, entre otras. Dentro de la extracción de información (Information Extraction- IE) se define la subtarea de reconocimiento y clasificación de entidades nombradas EN (Named Entities- NE) cuyo objetivo es la identificación de nombres propios de personas, lugares y organizaciones principalmente. Los sistemas para el reconocimiento y clasificación de EN (NERC- Named Entity Recognition and Classification) utilizan habitualmente técnicas basadas en gramáticas lingüísticas, métodos estadísticos y gazetteers o listados de términos.
  
  En esta tesis se propone un método para la explotación de corpus de documentación medieval mediante sistemas de PLN, con el objetivo de la identificación y clasificación automatizada de las EN y sus relaciones para la posterior puesta a disposición, en abierto, de los datos extraídos a través de una plataforma web. Para ello, se ha llevado a cabo un estudio de caso utilizando la aplicación Freeling para español estándar y la variante diacrónica del español de los siglos XII al XVI en un corpus formado por los documentos que componen el Libro Becerro de la Behetrías de Castilla, del siglo XIV. Mediante el análisis de los problemas surgidos en la anotación automática se elabora una propuesta de adaptación para el etiquetado de las EN que no contienen triggers denominadas simples y se diseña una aplicación para la identificación de las entidades anidadas o complejas y sus relaciones. Para la evaluación de los resultados obtenidos fue necesaria la elaboración de un corpus anotado de forma manual que constituyese un gold standard, que con los niveles obtenidos de precisión, cobertura y medida F (F-measure), permitieron elaborar de forma semiautomática los gazetters de personas, lugares y organizaciones. Para su almacenamiento se diseñó una base de datos relacional en MySQL que permitiese su publicación en una plataforma web en PHP. Esta plataforma ofrece una interfaz de consulta para los usuarios en general e investigadores de diferentes disciplinas, que cuenta además con la opción de descarga de los programas desarrollados y gazetteers elaborados. Esto la convierte a su vez en una fuente de información para la reutilización e integración de los mismos en otros proyectos dentro de las Humanidades Digitales.
  
  Los resultados obtenidos en este estudio de caso ponen de manifiesto que la aplicación de este método abre las posibilidades de investigación, con otros sistemas de PLN, en corpus de documentación medieval para el reconocimiento y extracción de ENs.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: