Ayuda
Ir al contenido

Dialnet


Resumen de Automatic Annotation of the Catalan Wikipedia: Exploring the Semantic Space via multiple NERC systems

Jordi Atserias i Batalla, Judith Domingo, Carlos Rodríguez, Teresa Suñol

  • español

    Este artículo presenta WikiNer, una versión de la Wikipedia catalana procesada mediante diferentes herramientas de PLN (etiquetadores de POS, NERC, parsers de dependencias). El artículo se centra en el análisis de las diferentes anotaciones de NERC realizadas con 3 etiquetadores: JNET, Yamcha y SST. A pesar de que el texto de la Wikipedia (especialmente las tablas, listas y referencias) difiere significativamente, en sus propiedades distribucionales, del corpus empleado para entrenar los etiquetadores, se han obtenido resultados satisfactorios que apuntan a la posibilidad de una rápida disponibilidad de un recurso de gran masa textual anotada con un grado de fiabilidad suficiente tanto para algunas de las tareas de investigación como para ciertas aplicaciones: Q&A, enriquecimiento de ontologías y búsqueda semántica.

  • English

    This paper presents WikiNer, a snapshot of the Catalan Wikipedia processed with different NLP tools (POS tagger, NERC, dependency parsers). The article focuses on the analysis of different NERC annotations using 3 taggers: JNET, YamCha and SST. Although Wikipedia text (specially in tables, lists, references) differs significantly in distributional properties from the corpora used to train the taggers, we believe that results of automatically annotating the semantic space of the Catalan Wikipedia point to the quick availability of a resource containing massive text annotated with a degree of reliability that is enough for some research tasks as well as for applications, such as simple Q&A, ontology enrichment and semantic search.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus