Ayuda
Ir al contenido

Dialnet


A hybrid approach to treebank construction

  • Autores: Montserrat Marimon Felipe, Lluís Padró Cirera
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 49, 2012, págs. 139-146
  • Idioma: inglés
  • Enlaces
  • Resumen
    • español

      Este art´ýculo describe investigaci´on sobre los efectos de la desambiguaci´on morfosint ´actica usada como un preproceso de un analizador sint´actico profundo basado en HPSG, en el contexto del desarrollo de un treebank del espa�nol de c´odigo abierto, en el entorno de DELPH-IN. La anotaci´on treebank se realiza manualmente tomando las decisiones apropiadas entre las opciones propuestas por el sistema y ordenadas por un m´odulo estad´ýstico. Los experimentos presentados muestran que el uso de un etiquetador reduce la ambig¨uedad de las frases, y contribuye a limitar la cantidad de frases cuyo an´alisis sobrepasaa el l´ýmite de tiempo, y ayuda a al m´odulo estad´ýstico a clasificar el ´arbol correcto entre los n mejores. Por un lado, nuestros resultados validan los beneficios ya reportados en la literatura de tal preproceso de an´alisis profundo con respecto a la velocidad, cobertura y precisi´on. Por otro lado, proponemos una estrategia basada en existentes herramientas de c´odigo abierto y recursos para desarrollar con alta consitencia treebanks de sintaxis profunda para idiomas con limitada disponibilidad de recursos ling¨u´ýsticos.

    • English

      This paper describes research on the effects of PoS tagging as a preprocess for HPSG-based deep parsing in the context of an open-source Spanish treebank development in the DELPH-IN framework. The treebank annotation is performed by hand selecting the proper decisions among the choices proposed by the system and ranked by a statistical module. The presented experiments show that the use of a tagger lowers the ambiguity of the sentences, both reducing the amount of sentences that reach time-out before the entire parse forest is built, and helping the ranker to place the right tree among the n-best trees.

      On the one hand, our results validate the benefits �already reported in the literature� of such preprocess to deep parsing with regard to speed, coverage, and accuracy. On the other hand, we propose a strategy based on existing open-source tools and resources to develop highly-consistent deep-annotated treebanks for languages with limited availability of linguistic resources.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno