A hybrid approach to treebank construction

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/23929
Información del item - Informació de l'item - Item information
Título: A hybrid approach to treebank construction
Título alternativo: Una aproximación híbrida a la construcción de treebanks
Autor/es: Marimon Felipe, Montserrat | Padró Cirera, Lluís
Palabras clave: Anotación sintáctica profunda de corpus | Análisis HPSG | Desambiguación morfosintáctica | Deep syntax treebank annotation | HPSG parsing | PoS tagging
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: sep-2012
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: MARIMON, Montserrat; PADRÓ, Lluís. “A hybrid approach to treebank construction”. Procesamiento del Lenguaje Natural. N. 49 (2012). ISSN 1135-5948, pp. 139-146
Resumen: Este artículo describe investigación sobre los efectos de la desambiguación morfosintáctica usada como un preproceso de un analizador sintáctico profundo basado en HPSG, en el contexto del desarrollo de un treebank del español de código abierto, en el entorno de DELPH-IN. La anotación treebank se realiza manualmente tomando las decisiones apropiadas entre las opciones propuestas por el sistema y ordenadas por un módulo estadístico. Los experimentos presentados muestran que el uso de un etiquetador reduce la ambigüedad de las frases, y contribuye a limitar la cantidad de frases cuyo análisis sobrepasa el límite de tiempo, y ayuda a al módulo estadístico a clasificar el árbol correcto entre los n mejores. Por un lado, nuestros resultados validan los beneficios ya reportados en la literatura de tal preproceso de análisis profundo con respecto a la velocidad, cobertura y precisión. Por otro lado, proponemos una estrategia basada en existentes herramientas de código abierto y recursos para desarrollar con alta consistencia treebanks de sintaxis profunda para idiomas con limitada disponibilidad de recursos lingüísticos. | This paper describes research on the effects of PoS tagging as a preprocess for HPSG-based deep parsing in the context of an open-source Spanish treebank development in the DELPH-IN framework. The treebank annotation is performed by hand selecting the proper decisions among the choices proposed by the system and ranked by a statistical module. The presented experiments show that the use of a tagger lowers the ambiguity of the sentences, both reducing the amount of sentences that reach time-out before the entire parse forest is built, and helping the ranker to place the right tree among the n-best trees. On the one hand, our results validate the benefits –already reported in the literature– of such preprocess to deep parsing with regard to speed, coverage, and accuracy. On the other hand, we propose a strategy based on existing open-source tools and resources to develop highly-consistent deep-annotated treebanks for languages with limited availability of linguistic resources.
Patrocinador/es: This work has been partially funded by the European Union through project X-LIKE (FP7-ICT-2011-288342), by the Spanish Government through the programe Ramón y Cajal and the project KNOW2 (TIN2009-14715-C04-03/04), and by the Catalan Government via the mobility programe Beques per a estades per a la recerca fora de Catalunya.
URI: http://hdl.handle.net/10045/23929
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 49 (2012)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_49_15.pdf196,48 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.