Ayuda
Ir al contenido

Dialnet


Resumen de Modality in spoken spanish and japanese: a corpus-based study and automatic annotation.

Carlos Herrero Zorita

  • español

    El objetivo principal de esta tesis es la búsqueda y clasificación automática de elementos modales en oraciones en español y japonés, usando para ello información teórica y empírica. En un intento de crear un estudio multidisciplinar entre tipología, lógica y lingüística de corpus y computacional, pretendemos responder a tres preguntas fundamentales:

    (1) ¿Cuál es la mejor definición y clasificación de la modalidad para un trabajo contrastivo computacional? (2) ¿Cuál es la frecuencia de uso en el español y japonés oral, y cómo el discurso modifica los elementos modales? y (3) ¿Cómo podemos formalizar esta información en un programa que pueda anotar automáticamente los marcadores modales en textos nuevos? Consideramos la modalidad según la perspectiva lógica como un aspecto semántico que añade significados de necesidad o posibilidad al núcleo verbal. Se representa en ambos idiomas a través de una serie de auxiliares, adverbios, adjetivos y modos gramaticales. Los corpus nos dirán cómo estos elementos son afectados por la negación, la elipsis, la separación sintáctica y la ambigüedad, información que posteriormente será convertida en reglas a la hora de diseñar el programa y así aumentar su precisión y cobertura.

    Los corpus también nos dan información acerca del uso y frecuencia de la modalidad en situaciones reales. Los resultados muestran que es un elemento de la lengua íntegramente relacionado con el tipo de comunicación, probablemente unido a las restricciones sociales. Los monólogos presentan unos resultados parecidos en ambas lenguas, pero cuando entra en juego una interacción, la diferencia es notable.

    En diálogos, la necesidad es el valor predominante en español, mientras que los hablantes japoneses usan casi de igual manera valores de necesidad y posibilidad.

    El resultado final de la tesis es un programa basado en reglas que produce un archivo XML con los marcadores modales anotados y clasificados de la misma manera para ambos idiomas. El programa se usará en estudios futuros con datos diferentes y más extensos con el objetivo de confirmar los resultados obtenidos.

    Asimismo, estará disponible de forma online para su uso libre en http://elvira .lllf.uam.es/modtag/mainmodtagger.html, albergada en la página web del Laboratorio de Lingüística Computacional de la Universidad Autónoma de Madrid.

  • English

    The main aim of this thesis is to automatically find and classify elements that signal modality in Spanish and Japanese sentences, taking into account both the- oretical and empirical information. In order to join different disciplines such as typology, logic, corpus and computational linguistics, the aim is to answer three main questions:

    (1) What is the best definition and classification of modality for a cross-linguistic computational work? (2) How is modality used in spoken Spanish and Japanese, and how are modal markers modified in discourse? (3) How can this information be formalised into a program that can annotate modals automatically in new texts? Modality is seen from the logic perspective as a semantic feature that adds necessity or possibility meanings to the predicate, as it is proven to be the best approximation for this type of study. Modality is encoded in the sentence in both languages by a series of auxiliaries, adverbs, adjectives and grammatical moods. The corpora will tell us how these markers are affected by negation, ellipsis, syntactic separation and ambiguity, which need to be detected by the program for the sake of precision and recall.

    The corpora also provide information about modality usage, and reveals that it is a feature correlated to the type of communication, probably in relation to social constraints. Monologues achieve similar results in both languages, but when inter- action takes place, the difference is noticeable. In dialogues, there is a predominance of necessity values in Spanish, and nearly equal numbers of necessity and possibility in Japanese.

    The final result of the thesis is a rule-based program that outputs an XML with modal markers annotated and classified equally in both languages. It will be used in the future in bigger and different types of texts in order to draw more precise conclusions from both languages. Also, the program will be made available to use freely through an online interface at http://elvira.lllf.uam.es/modtag/ mainmodtagger.html, hosted on the Computational Linguistics Laboratory web page of the Universidad Autónoma de Madrid.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus