Earley-based stochastic context-free grammar estimation from bracketed corpora and its use in a hybrid languaje model

Diego Linares; Joan Andreu Sánchez; José Miguel Benedí Ruiz

Ayuda

Earley-based stochastic context-free grammar estimation from bracketed corpora and its use in a hybrid languaje model

Autores: Diego Linares, Joan Andreu Sánchez, José Miguel Benedí Ruiz
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 31, 2003, págs. 183-190
Idioma: español
Enlaces
- Texto completo
Resumen
- español
  En este artículo estudiamos el problema de la estimación de gramáticas incontextuales estocásticas en formato general y su oso en un modelo de lenguaje híbrido. En este trabajo se propone la colimación de una gramática incontextual estocástica osando una nueva versión del algoritmo de Earley que permite manejar muestras parentizadas. El modelo de lenguaje híbrido es definido como una conbinación lineal de un modelo de o-gramas basado en palabras, que se utiliza para capturar las relaciones locales entre palabras, y una gramática estocástica, basada en categorías junto con una distribución de palabras en categorías, que se utiliza para representar las relaciones a largo término entre estas categorías. Se han realizado experimentos usando el corpus UPenn Treebank. La evaluación de los modelos se ha realizado desde el punto de vista de la perplejidad de un conjunto de test, y desde el punto de vista de la tasa de errores por palabra en un experimento de reconocimiento automático del habla.
- English
  In this paper, we study the problem of estimating Stochastic Context-Free Grammars (SCFGs) in general format and their use in a hybrid language model. In this work, we propose the estimation of a SCFG by means of a new bracketed version of the Earley algorithm. A hybrid language model is defined as a combination of a word-based n-gram, which is used to capture the local relations between words, and a category-based SCFG with a word distribution in categories, which is defined to represent the long-term relations between these categories. Experiments on the UPenn Treebank corpus are reported. These experiments have been carried out in terms of the test set perplexity and the word error rate in a speech recognition experiment.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: