Ayuda
Ir al contenido

Dialnet


PhraseNET: Detección y extracción automatizada de unidades fraseológicas

  • Autores: Jose Luiz de Lucca
  • Directores de la Tesis: María Luisa Carrió Pastor (dir. tes.)
  • Lectura: En la Universitat Politècnica de València ( España ) en 2011
  • Idioma: español
  • Tribunal Calificador de la Tesis: Ricardo Mairal Usón (presid.), María Milagros del Saz Rubio (secret.), Miguel Ángel Candel Mora (voc.), Chelo Vargas Sierra (voc.), Isabel Santamaría-Pérez (voc.)
  • Materias:
  • Enlaces
    • Tesis en acceso abierto en: TESEO
  • Resumen
    • español

      Esta tesis doctoral se centra en el campo de la Extracción de la Información (EI), en el que se investiga la efectividad de PhraseNET, es decir, una aplicación informática desarrollada para detectar y extraer unidades fraseológicas de un corpus determinado.

      Presentamos en esta tesis la interfaz, las características lingüísticas y los recursos informáticos asociados a la evaluación de los resultados mediante un corpus de entrenamiento. Para ello, nos basamos en la clasificación propuesta por Corpas Pastor (1997) de las unidades fraseológicas y las locuciones. Presentamos un sistema que ha de poder extraer la información más relevante desde las unidades fraseológicas que se han propuesto con anterioridad, partiendo desde un corpus en portugués y en castellano.

      El tema que abordamos en esta tesis doctoral es un hecho que preocupa a traductores y lingüistas, puesto que no es sencillo poder realizar las equivalencias lingüísticas de las unidades fraseológicas de dos lenguas.

      Consideramos que, aunque en los diccionarios se contemplan las traducciones de las unidades fraseológicas, ha de existir una herramienta capaz de detectar sus posibles variaciones en la lengua, es decir, cuando se expresan con tiempos verbales distintos, en plural, etc.

      La herramienta que proponemos extrae las unidades fraseológicas de un corpus textual, sea cual sea su forma y muestra sus equivalentes en otras lenguas.

      El núcleo del sistema automático de extracción de las unidades fraseológicas es un algoritmo basado en un corpus del que se obtiene una lista de todas las unidades que se encuentran después de compararlas con un diccionario de patrones léxicos. La ventaja de este método, comparado con otros ya existentes, es que no se requiere un conocimiento muy especializado de la Fraseología para poder realizar la búsqueda.

      Sin embargo, este proceso conlleva dificultades al adaptarlo a la extracción de unidades de otras lenguas, dificultades que están inherentes en la misma naturaleza de la metodología de la Extracción de la Información.

      Por ello, PhraseNET está en constante evolución y continuamente hemos cambiado aspectos para mejorar su funcionamiento.

      Los objetivos que plantemos en este estudio son, por un lado, poder diseñar una herramienta que nos permita reconocer unidades fraseológicas (UFs) sin tener en cuenta su forma, por otro, detectarlas en su entorno con ejemplos que identifiquen su ubicación en el corpus y finalmente, poder identificarlos mismos patrones en varias lenguas.

      Una vez diseñada la herramienta y descritas las distintas partes que la componen y sus utilidades, finalizamos este estudio concluyendo que PhraseNET suele extraer sin dificultades las siguientes variaciones de las UFs: morfológicas, sintácticas, léxicas, de casillas vacías, diatópicas, diastráticas y diafásicas, las modificaciones internas (como suele ser la reducción de las UFs mediante la eliminación o adición de alguno de sus componentes) y las externas (en la periferia). Somos conscientes de que este estudio posee ciertos aspectos que no hemos imcluido como parte del estudio, pero hemos conseguido los objetivos marcados desde el principio y, con ello, delimitar la base de la herramienta para poder mejorar su funcionamiento en el futuro.

    • English

      The present thesis lies within the area of Information Extraction (IE). We investigate the effectiveness of PhraseNET, that is, the software developed for the detection and the extraction of phraseological units of a corpus. We present the tools of this software through the interface, the linguistic features and the computer resources associated to the evaluation results obtained using a training corpus. Our main interest is focused on the locutions and phraseological units according to the classifications proposed by Corpas Pastor (1997).

      The main topic of this doctoral dissertation is a fact that worries translators and linguists. It is not an easy task to look for the linguistic equivalences of the phraseological units of two languages. We consider a very relevant fact to design and implement a tool able to detect variations in language, i.e. changes due to verabl tenses, plural, gender, etc. The tool that we propose identifies the phraseological units of a textual corpus and look for their equivalent in other languages;

      the novelty of the tool we have designed is that it detects the units even when they vary their representation in the text.

      The core of the authomatic system of the phraseological unit extraction is an algorithm based on a corpus which provides a list of all the units after a constrative analysis with a dictionary of lexical patterns. The main advantage of this method, compared with others, is that it does not require a very specialized knowledge of Phraseology.

      Nevertheless, this process entails some difficulties when adapted to the extraction of units from other languages, difficulties that are inherent to the methodology of IE. As a consequence, PhraseNET is constlantly evolving and we are regurlarly implementing some aspects.

      The objectives that we consider in this study are, on the one hand, to design a tool that allows us to detect phraseological units not taking into account their linguistic expression. On the other hand, to detect the phraseological units in the texts with examples that can identify their location in the corpus. Finally, to identify the same patterns in other languages.

      Once designed the tool and described its different parts and its utilities, we finish this study concluding that PhraseNET can extract the following variations of the phraseological units: morphologic, syntactic, lexical, diatopic, diastratic and diafasic, internal modifications (as the reduction of the phraseological units with the elimination or addition of the components) and the external, in the periphery. We are conscious that this study could include some asdpects that we have not mentioned, but we have, at the moment, delimitated the basic aspects of the tool in order to improve its characteristics in the future.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno