Ayuda
Ir al contenido

Dialnet


Resumen de Estrategias de incorporación de conocimiento sintáctico y semántico en sistemas de comprensión de habla continua en español.

José Colás Pasamontes

  • español

    Este trabajo se ha planteado analizar la problem?tica del proceso de comprensi?n de habla, no s?lo desde un punto de vista cient?fico sino tambi?n t?cnico, concluyendo con el dise?o, implementaci?n y evaluaci?n de un Sistema de Comprensi?n de Habla en espa?ol.

    En el marco de este estudio se ha realizado una revisi?n de distintas soluciones que han sido propuestas por diversos grupos de investigaci?n internacionales para resolver el problema de la comprensi?n de habla.

    Se ha definido una arquitectura no integrada novedosa para la comprensi?n del habla en espa?ol, es decir, teniendo en cuenta caracter?sticas del espa?ol como lengua natural que no aparecen o aparecen menos acentuadas en otras lenguas. Esta arquitectura pretende ser la base de futuros trabajos en esta l?nea en el Grupo de Tecnolog?a del Habla, de la Universidad Polit?cnica de Madrid. Con el objetivo de comprender habla perteneciente a un dominio sem?ntico restringido (limitado por los conceptos que existen en el dominio de una aplicaci?n concreta), esta arquitectura tiene como caracter?sticas principales:

    * La robustez, es decir, la posibilidad de procesar frases que contienen errores (inserciones, borrados o sustituciones de palabras) producidos por el m?dulo de decodificaci?n ac?stica (sistema de reconocimiento de habla continua), o que tienen rasgos de agramaticalidad producidos por la propia naturaleza del lenguaje hablado, o con problemas de cobertura a nivel l?xico, sint?ctico o sem?ntico.

    * La modularidad, que permite seguir mejorando sin necesidad de redise?ar e implementar el sistema completo.

    * La flexibilidad, con el fin de independizar la arquitectura de una aplicaci?n concreta dentro, l?gicamente, de ciertas restricciones, impuestas por la naturaleza de los sistemas de informaci?n o sistemas de control autom?ticos.

    * La potencia, definida como la posibilidad de procesar frases de un cierto nivel de complejidad ling??stica.

    Los diferentes m?dulos incorporan conocimiento ling??stico de distinta naturaleza, lo que ha permitido estudiar la interacci?n de distintas fuentes de conocimiento ling??stico y un modo eficaz de integrarlas, en el proceso de comprensi?n.

    Se ha utilizado informaci?n sem?ntica en forma de rasgos, que completan la ya modelada por las categor?as sem?nticas del diccionario, a gram?ticas contextuales simplificadas (definiendo lenguajes espec?ficos de reglas y algoritmos de an?lisis o ejecuci?n de estas reglas), que en forma de reglas solucionan principalmente problemas de ambig?edad sem?ntica y elipsis, y una gram?tica sem?ntica de contexto libre (utilizando el algoritmo de Earley con capacidad para procesar frases con ambig?edad) que pretende, bas?ndose en una clasificaci?n o taxonom?a de los conceptos del dominio que reduce en gran medida las reglas necesarias, obtener la informaci?n estructural de las mismas que ayuda al procesamiento de frases de una cierta complejidad manteniendo el proceso de traducci?n a SQL, necesario en sistemas de informaci?n con acceso a bases de datos, dentro de unos l?mites de sencillez sorprendentes, mediante el uso de plantillas sem?nticas.

    Con el fin de evaluar el comportamiento del m?dulo de decodificaci?n ac?stica se ha implementado un sistema de reconocimiento de habla continua modular, con capacidad para integrar conocimiento gramatical en base a cualquier gram?tica probabil?stica de tipo N-gram, de naturaleza morfo-sint?ctica o sem?ntica. Se han evaluado distintas gram?ticas guiando el proceso de decodificaci?n ac?stica. Con el fin de mantener la eficacia del este m?dulo a pesar de la incorporaci?n de gram?tica en el proceso, se ha estudiado con profundidad un mecanismo de reducci?n del espacio de b?squeda ampliamente utilizado conocido como �recorte de caminos� o �recorte del haz� (beam-search), presentando un m?todo que se ha desarrollado en esta tesis que permite la determinaci?n del umbral de recorte basado en la probabilidad (o distancia) del mejor estado del espacio de b?squeda en cada trama (estad?stico) de antemano, utilizando los datos de entrenamiento y conociendo la influencia que tendr? dicho umbral en el proceso de reconocimiento. Adem?s, se han evaluado dos variantes ya conocidas: el uso de uno o dos umbrales de recorte, uno basado en la probabilidad (o distancia) del mejor de los ?ltimos estados de cada modelo en cada trama (estad?stico del ?ltimo estado) y otro en la probabilidad (o distancia) del mejor del resto de los estados distintos del ?ltimo en cada trama (estad?stico del resto de los estados), y se han aportado nuevas conclusiones al respecto. Todo ello ha permitido profundizar en el funcionamiento de esta t?cnica ya conocida pero no tan estudiada. Adem?s, el decodificador ac?stico ha sido modificado para permitir la generaci?n de varias hip?tesis (frases) de salida (las N mejores), y se ha estudiado la relaci?n entre el valor de N (n?mero de caminos o hip?tesis) y la calidad del sistema de reconocimiento (mejora de la tasa de acierto de palabras o reducci?n del error del sistema), para aplicaciones como la que ha sido objeto en esta tesis. Se ha comprobado que con un n?mero de hip?tesis reducido (N muy peque?o) se consigue que el m?dulo ac?stico se recupere de muchos errores que afectar?an al proceso de comprensi?n de la frase hablada reconocida.

  • English

    This work is aimed at analyzing the problems when facing automatic speech understanding, from both scientific and technical points of view, concluding with the design, implementation and evaluation of a Castilian Spanish Speech understanding system.

    In this work, some of the alternatives, that have been proposed by international research groups in order to solve the speech understanding problem, have been reviewed.

    A novel non integrated architecture for speech understanding in Spanish has been defined, taking into account the specific characteristics of Spanish as a natural language, not found or rarely found in other languages. This architecture intends to be the baseline of future work in this topic in the Speech Technology Group, in the Universidad Politécnica de Madrid.

    To achieve the objective of understanding speech in limited semantic domains (limited by the concepts used in the domain of a specific application) this architecture has been designed with the following main characteristics:

    * Robustness, that is, the possibility of processing sentences with errors (word insertions, deletions or substitutions) produced by the acoustic decoding module (a continuous speech recognition system); or non-grammatical constructions, due to the inherent characteristics of spoken language; or problems in lexical, syntactic o semantic coverage.

    * Modularity, that permits improving the system without redesigning or implementing the whole system.

    * Flexibility, in order to have an application-independent architecture, obviously under certain restrictions, imposed by the characteristics of both automatic information and control systems.

    * Power, defined as the possibility of processing sentences with a certain degree of linguistic complexity.

    Those modules incorporate linguistic knowledge of different kinds, and this has allowed us to study the interaction of different linguistic knowledge sources and an efficient way of integrating them in the understanding process.

    Features to represent the semantic information have been used, completing the one already modelled by the dictionary semantic categories; simplified contextual grammars (defining specific rules languages, and rule analysis or execution algorithms), which mainly solve some of the semantic ambiguity and ellipsis problems; and a semantic context free grammar (using the Earley algorithm with its possibility of processing ambiguous sentences). The latter intends to obtain the structural information of the sentence, using a taxonomy of the domain concepts that heavily reduces the number of needed rules. Moreover, it helps the processing of complex sentences, while keeping the SQL translation process surprisingly simple, by using semantic templates. This translation process is needed in information systems accessing databases.

    In order to evaluate the acoustic decoder module behaviour, a modular continuous speech recognition system has been implemented. It is able to integrated grammatical knowledge based on any stochastic morpho-syntactic or semantic N-gram. To keep the efficiency of this module, even when the grammar information is used, a search space reduction mechanism (beam-search) has been deeply studied. A new method developed in this Thesis allows to analyse and to determine, in advance, a pruning threshold based on the probability (or distance) of the best state in the search space for every frame (stochastic), making use of training data and knowing the impact this threshold will have in the recognition process. Besides, two well-known variants have been evaluated: the use of one or two pruning thresholds, one based on the probability (distance) of the best last states for every model in every frame (stochastic parameter of the last state) and the other one based on the probability of the best of the rest of the states in every frame (stochastic parameter of the rest of the states). New conclusions have been drawn from this study. All this allowed us to deepen in this well known but not so well understood technique. Moreover the acoustic decoder has been modified to allow the generation of several output hypothesis (N-best sentences), and the relationship between the value N (number of paths or hypothesis) and the speech recognition system performance (improvement of the word error rate), for applications such as the one aimed in this Thesis. We have checked that with a small number of hypothesis (very low N), the acoustic module is able to recover from a lot of errors that would severely affect the understanding process of the recognised spoken sentence.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus