Resumen de Deep stochastic sentence generation: resources and strategies

Ayuda

Resumen de Deep stochastic sentence generation: resources and strategies

Simon Mille

La presente tesis aborda el problema de la generación de textos partiendo desde estructuras profundas. Se examina especialmente el papel de un esquema de anotación apropiado para la generación estadística de textos desde estructuras abstractas. La conclusión principal de la tesis es que un esquema de anotación basado en un modelo lingüístico sólido, como en nuestro caso la Teoría Sentido-Texto, permite optimizar el proceso de anotación desde el punto de vista de velocidad y consistencia y, consecuentemente, la calidad de las herramientas entrenadas sobre la anotación resultante.

Después de la introducción (Chapter 1), se detalla el estado del arte (i) de corpus anotados en varios niveles y (ii) de los generadores estadísticos existentes (Chapter 2). En el cuerpo de la tesis, en primer lugar, se establecen precisamente los pasos que hay que seguir para anotar un corpus en varios niveles (representaciones semánticas, sintácticas profundas, sintácticas superficiales, topológicas y morfológicas), y se presenta el proceso mismo de anotación de un corpus de 100.000 palabras en castellano, usando transducción de grafos y revisión manual. En el mismo apartado, con el ejemplo del inglés, se muestra que es posible conseguir anotaciones del mismo tipo de manera totalmente automática, partiendo de datos existentes (Chapter 3). Posteriormente, se usan los datos anotados para entrenar y evaluar varios generadores de textos que van más allá del estado del arte actual, en particular porque no contienen reglas para transducciones no isomórficas (Chapter 4). Por último, se muestra que estos datos se pueden utilizar también para otros objetivos tales como el análisis sintáctico estadístico de estructuras superficiales y profundas (Chapter 5).

Selected references:

- Srinivas Bangalore and Owen Rambow. Exploiting a probabilistic hierarchical model for generation. In Proceedings of the 18th International Conference on Computational Linguistics (COLING), pages 42-48, Saarbrücken, Germany, 2000.

- Anja Belz, Mike White, Dominic Espinosa, Eric Kow, Deirdre Hogan, and Amanda Stent. The First Surface Realisation Shared Task: Overview and evaluation results. In Proceedings of the Generation Challenges Session at the 13th European Workshop on Natural Language Generation (ENLG), pages 217-226, Nancy, France, 2011.

- Jan Hajic, Jarmila Panevova, Eva Hajicová, Petr Sgall, et al. Prague Dependency Treebank 2.0. Linguistic Data Consortium, Philadelphia, 2006.

- Igor Mel'cuk. Dependency Syntax: Theory and Practice. State University of New York Press, Albany, 1988.

- Mariona Taulé, M. Antónia Martí, and Marta Recasens. AnCora: Multilevel annotated corpora for Catalan and Spanish. In Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC), pages 96-101, Marrakech, Morocco, 2008.

Selected papers related to the thesis:

- Miguel Ballesteros, Bernd Bohnet, Simon Mille, and Leo Wanner. Deep syntactic parsing. In Proceedings of the 25th International Conference on Computational Linguistics (COLING), Dublin, Ireland, 2014.

- Bernd Bohnet, Leo Wanner, Simon Mille, and Alicia Burga. Broad coverage multilingual deep sentence generation with a stochastic multi-level realizer. In Proceedings of the 23rd International Conference on Computational Linguistics (COLING), pages 98-106, Beijing, China, 2010.

- Simon Mille, Leo Wanner, and Alicia Burga. Treebank annotation in the light of the Meaning-Text Theory. Linguistic Issues in Language Technology, 7:1-12, 2012.

- Simon Mille, Alicia Burga, and Leo Wanner. AnCora-UPF: A multi-level annotation of Spanish. In Proceedings of the 2nd International Conference on Dependency Linguistics (DepLing), pages 217-226, Prague, Czech Republic, 2013.

- Simon Mille, Alicia Burga, Gabriela Ferraro, and Leo Wanner. How does the granularity of an annotation scheme influence dependency parsing performance? In Proceedings of the 24th International Conference on Computational Linguistics (COLING), pages 839-852, Mumbai, India, 2012.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: