Linguistic Linked Data for Lexicography

Bosque Gil, Julia ORCID: https://orcid.org/0000-0001-6433-4649 (2019). Linguistic Linked Data for Lexicography. Tesis (Doctoral), E.T.S. de Ingenieros Informáticos (UPM). https://doi.org/10.20868/UPM.thesis.57887.

Descripción

Título: Linguistic Linked Data for Lexicography
Autor/es:
Director/es:
Tipo de Documento: Tesis (Doctoral)
Fecha de lectura: 2019
Materias:
Escuela: E.T.S. de Ingenieros Informáticos (UPM)
Departamento: Inteligencia Artificial
Licencias Creative Commons: Reconocimiento - Sin obra derivada - No comercial

Texto completo

[thumbnail of JULIA_BOSQUE_GIL.pdf]
Vista Previa
PDF (Portable Document Format) - Se necesita un visor de ficheros PDF, como GSview, Xpdf o Adobe Acrobat Reader
Descargar (9MB) | Vista Previa

Resumen

Nowadays, the number of resources that provide lexical data keeps significantly increasing as outcomes of projects in linguistics, lexicography and language technologies. However, this data is scattered throughout the Web, isolated, and often comes in a vast number of different formats and languages. To address this landscape of heterogeneous and isolated language resources, experts working in the domain of the Semantic Web have adopted approaches to linguistic data representation based on the Linked Data (LD) paradigm, giving birth to the Linguistic Linked Data (LLD) line of research. Although LLD is focused on the representation, publication and sharing of language resources, there exists no previous wide-scope exploration and assessment of the impact of the application of LLD to lexicography as a discipline: the requirements and process this involves, its practical and theoretical benefits, the challenges it raises, and the open problems on the way. Furthermore, as a required ingredient towards this exploration, guidelines to represent a wide range of lexicographic resources (as outcomes of a lexicographic compilation process) by following this new paradigm are lacking as well. In this thesis we address the application of LLD to lexicography from the looking glass of the lexicographer, the user who consults lexicographic works, or the linguist interested in lexical semantics who needs lexicographic content for their work. We detect and resolve obstacles on the way for LLD adoption in lexicography regarding the representation requirements of lexicographic works through the definition of application profiles and extensions of the de facto standards for LLD representation. On the basis of a set of representative resources that we convert to the Resource Descriptioin Framework (RDF), we analyse and showcase the benefits and implications of LLD for dictionary representation, both as a target format of a conversion, as well as a potential native format for lexicographic projects in the future. ----------RESUMEN---------- Con el incesante aumento de los recursos léxicos que surgen de numerosos proyectos en lingüística, lexicografía, y tecnologías del lenguaje, hoy en día los datos léxicos se encuentran en distintos formatos, dispersos y aislados unos de otros en la Web. Los Datos Enlazados Lingüísticos (por sus siglas en inglés, LLD) es una línea de investigación desarrollada por expertos en el campo de la Web Semántica que responde a la necesidad de estandarización en la representación de datos lingüísticos y que se basa en el paradigma de los Datos Enlazados (LD). Pese a que la línea de LLD se centra en la representación, la publicación, y la difusión de los recursos lingüísticos, no existe hasta la fecha un estudio amplio ni una valoración del impacto que tendría su aplicación a la lexicografía como disciplina: cuáles son los requisitos que cumplir en la representación de recursos lexicográficos como LLD, qué procesos habría que llevar a cabo, cuáles serían las ventajas prácticas y teóricas de este tipo de representación, los desafíos a los que daría lugar, ni los posibles problemas a los que habría que hacer frente. Asimismo, como piezas necesarias en ese estudio, destaca también la falta de guías para representar un amplio abanico de recursos lexiográficos en este nuevo paradigma. En esta tesis doctoral se investiga la aplicación de los LLD a la lexicografía desde la perspectiva del lexicógrafo, el usuario de recursos lexicográficos, o el lingüista interesado en la semántica léxica que necesita acceder a contenido lexicográfico para su trabajo. Esta tesis identifica y resuelve una serie de problemas de modelado a la hora de representar contenido lexicográfico en el formato RDF (Resource Description Framework). Mediante la definición de perfiles de aplicación y extensiones para el estándar de facto más utilizado en LLD, este trabajo presenta una serie de recursos lexicográficos en formato RDF que sirven para analizar y demostrar las ventajas de este paradigma para codificar información lexicográfica, tanto como formato final de un recurso tras una conversión, como como formato nativo para la creación de nuevas obras lexicográficas.

Más información

ID de Registro: 57887
Identificador DC: https://oa.upm.es/57887/
Identificador OAI: oai:oa.upm.es:57887
Identificador DOI: 10.20868/UPM.thesis.57887
Depositado por: Archivo Digital UPM 2
Depositado el: 10 Feb 2020 07:17
Ultima Modificación: 10 Ago 2020 22:30
  • Logo InvestigaM (UPM)
  • Logo Sherpa/Romeo
    Compruebe si la revista anglosajona en la que ha publicado un artículo permite también su publicación en abierto.
  • Logo Dulcinea
    Compruebe si la revista española en la que ha publicado un artículo permite también su publicación en abierto.
  • Logo del Portal Científico UPM
  • Logo de REBIUN Sexenios Logo de la ANECA
  • Logo GEOUP4
  • Logo Open Access
  • Open Access
  • Logo de Recolecta
  • Logo de OpenCourseWare UPM