Resumen de Enriquecimiento de entidades de Wikidata mediante un modelo de descomposición y mapeado de categorías de Wikipedia

Ayuda

Resumen de Enriquecimiento de entidades de Wikidata mediante un modelo de descomposición y mapeado de categorías de Wikipedia

Tomás Saorín Pérez, Juan Antonio Pastor Sánchez

español
El objetivo de este trabajo es explorar la relación entre las categorías asignadas a los artículos de Wikipedia con la descripción y metadatos generados en Wikidata. Se plantea utilizar la categorización de artículos de Wikipedia para enriquecer la descripción de entidades en Wikidata. Para ello se propone procesar los literales de las categorías mediante técnicas de procesamiento de lenguaje natural (PLN) estableciendo patrones que permitan identificar tanto propiedades como entidades o valores con los que construir declaraciones para una entidad. La secuencia de operaciones propuesta sería el siguiente: 1) Selección de un conjunto coherente de categorías, 2) Establecimiento de patrones de procesamiento de literales y asignación a propiedades y elementos de Wikidata, 3) Creación de declaraciones con cualificadores para cada categoría procesada y 4) Programación de bots para el procesamiento automático de categorías, enriquecimiento y validación de las descripciones de elementos de Wikidata. La propuesta recogida en este trabajo se centra en el uso de diferentes propiedades y entidades de Wikidata para desarrollar el punto 3. La automatización de un proceso para enriquecer y validar las declaraciones de cada elemento, permitiría aprovechar las dinámicas de edición existentes. Además ayudaría a elaborar un esquema de conceptos de más calidad, al especificarse el significado de las categorías que suponen una composición de varios términos y que en realidad resuelven necesidades descriptivas por otros medios.
English
This paper explores the relationship between the categories assigned to the Wikipedia articles with the description and metadata generated in Wikidata. It is proposed to use the categorization of Wikipedia articles to enrich the description of entities in Wikidata. For this, the literals of the categories could be processed using natural language processing techniques (NLP), establishing patterns that allow the identification of properties as well as entities or values with which to construct statements for an entity. The sequence of operations would be the following: 1) Selection of a coherent set of categories, 2) Establishment of patterns of processing of literals and assignment to properties and elements of Wikidata, 3) Creation of declarations with qualifiers for each category processed and 4) Programming of bots for the automatic processing of categories, enrichment and validation of Wikidata element descriptions. The technique shown in this paper focuses on the use of different properties and entities of Wikidata to develop point 3. The automation of a process to enrich and validate the declarations of each element, would allow to reuse existing edition dynamics. It would also help to elaborate a scheme of concepts of higher quality, by specifying the meaning of the categories that suppose a composition of several terms and that actually solve descriptive needs by other means.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: