Ayuda
Ir al contenido

El ejemplo en terminología: caracterización y extracción automática

  • Autores: Jorge A. Lázaro Hernández
  • Directores de la Tesis: María Teresa Cabré (dir. tes.), Gerardo Sierra (codir. tes.)
  • Lectura: En la Universitat Pompeu Fabra ( España ) en 2015
  • Idioma: español
  • Tribunal Calificador de la Tesis: Luis Fernando de Lara (presid.), Mercè Lorente Casafont (secret.), Juan Manuel Torres Moreno (voc.)
  • Materias:
  • Enlaces
    • Tesis en acceso abierto en: TDX
  • Resumen
    • Resumen En esta tesis se presenta una propuesta para la extracción automática de ejemplos desde corpus lingüísticos a partir de criterios lingüísticos y estadísticos. Con base en una fórmula denominada densidad lexicométrica se creó una herramienta capaz de obtener candidatos a ejemplos en español: GENEX (Générateur d¿Examples). La densidad lexicométrica surge a partir de la propuesta teórica denominada saturación semántica, una noción que intenta explicar el proceso por el cual, idealmente, un concepto podría conocerse en todas sus realizaciones. Se hace una propuesta, también, de caracterización del ejemplo en terminología con el fin de demostrar que es una categoría de datos imprescindible en un diccionario ya que auxilia el proceso de aprehensión de nuevos conceptos y funciona como complemento conceptual de una definición terminográfica.

      Estructura de la tesis La metodología de trabajo para esta tesis se basó en tres etapas que cubrieron:

      1. La preparación del material y los conceptos previos que fueron tomados en cuenta (Capítulos 1 y 2); 2. El ajuste y la adaptación de criterios para la identificación de ejemplos, así como la propuesta de un principio teórico para el quehacer terminológico (capítulos 3, 4 y 5) y; 3. La aplicación de ese principio a través de procedimientos computacionales para la generación de una herramienta extractora automática y la comprobación de resultados de dicha herramienta a través de una evaluación hecha por humanos (Capítulo 6).

      En el capítulo 2, 3 y 4 veremos los conceptos previos tomados en cuenta como punto de partida para este trabajo. En 2 revisaremos la relación existente entre término, definición y concepto, esto es, intentamos descubrir cuáles serían las bases teóricas de las que se ha partido para poder establecer de dónde toma sus rasgos semánticos el ejemplo y cómo éstos son proyectados. Una vez establecidas las características de la definición, de su relación con el concepto y de la operación del mecanismo que activa un término, se podrán inferir los alcances de dicha definición terminológica y las relaciones que guarda con respecto a los elementos que la rodean en una entrada: las categorías de datos.

      Este último análisis, empero, no se puede saber si desvelará el origen o la forma específica de un ejemplo en un diccionario terminológico; así que una vez determinadas las características esenciales de un ejemplo y sus relaciones, nos daremos a la tarea de comparar y analizar cuáles de éstas coinciden o divergen en contraste con las características de la definición determinadas en el capítulo 2. Así, en el apartado 2.4., nuestra metodología intentará ponderar si, como lo mencionan varios autores, debido a su propia naturaleza, esto es, su estructura cuasi-estática, la definición terminológica conlleva ciertas limitaciones. Entre algunas de esas limitaciones que documentamos se encuentra una esencial: la incapacidad para reflejar de una sola vez, o en un conjunto de definiciones y acepciones, todos los rasgos semánticos de un concepto específico. Para poder superar este escollo veremos que se hace necesaria la postulación de un principio que rija la conformación del ejemplo como elemento complementario a la definición. Como resultado podremos observar la postulación teórica de la noción de saturación semántica, la cual detallaremos en el capítulo 3. El desarrollo de esta noción teórica estará apoyado sobre dos principios extraídos de la Teoría Comunicativa de la Terminología (TCT en adelante): el Principio de Adecuación (Lorente, 2013) y el Principio de Poliedricidad (Cabré, 2008). Una vez que en la teoría la propuesta de saturación semántica sea comprobada y concatenada con los dos principios anteriores, nos dispondremos a intentar redefinir la noción de ejemplo para adaptarlo a la teoría terminológica y describiremos sus características mínimas, su funcionamiento, su origen y su pertinencia en diccionarios de especialidad.

      En el capítulo 4 analizaremos distintas posturas acerca de cuál es la forma y cuáles son las funciones que el ejemplo puede cumplir en una entrada de diccionario. Por un lado se describirán los criterios funcionales que llevan a un especialista a elegir uno u otro fragmento textual dependiendo de sus necesidades. Por otro lado, se distinguirán las diferentes estructuras que se han utilizado para delimitar el ejemplo y las justificaciones para asociarlo a alguna de ellas; desde aquellas que resumen todo a que una estructura particular funciona como un ejemplo pleno, hasta aquellas que combinan dos o más estructuras bajo el argumento de que no siempre una de ellas es la óptima de acuerdo con la información dada por una palabra. Finalmente se podrá observar que ambos análisis dan como resultado la caracterización del ejemplo en lexicografía y la relación que guarda con las otras categorías de datos de la entrada a la que pertenece.

      En el capítulo 5 podremos ver la caracterización y la definición de nuestra propuesta de ejemplo en terminología. Describiremos minuciosamente los criterios funcionales, sintácticos y semánticos que tomamos en cuenta. Nos daremos a la tarea de mostrar sus posibles formas y las implicaciones que cada una de ellas proyecta a propósito de su papel complementario a la definición terminográfica. Mostraremos la heurística para la resolución de una estructura que funcione y finalmente el algoritmo: la propuesta teórica acerca del diseño del ejemplo con el fin de intentar establecer las reglas de formalización para el desarrollo de la herramienta computacional.

      Finalmente, en el capítulo 6 veremos la preparación de los corpus que fueron utilizados para la parte experimental de la investigación. Se podrá notar que son de tres naturalezas completamente distintas y dicha variedad le dio riqueza a los resultados. Los procesos de obtención han sido automatizados en dos de ellos a través de crawlers (Wikipedia y Jornada) y el tercero se trata de una donación de los propios autores: esTenTen de Sketch Engine (Kilgarriff & Renau, 2013). Uno de ellos, Jornada, como veremos, tuvo que pasar además por un proceso de extracción, ya que sólo fue posible obtenerlo en formato HTML. Se explicará cómo los tres corpus fueron recodificados a formato UTF-8 y limpiados para que todo el contenido estuviese en texto plano. En el caso de esTenTen, además, se desetiquetó para que pudiese estar disponible de forma no anotada. Finalmente todos fueron segmentados con la herramienta Cortex (Torres-Moreno, Velázquez-Morales & Meunier, 2002) para poder tenerlos divididos en fragmentos de texto.

      Para la parte aplicada, el diseño de la herramienta para la extracción automática de ejemplos, describiremos el enfoque que hemos tomado en cuenta: Recuperación de Información, basado sobre todo en los estudios contenidos en el libro Modern Information Retrieval (Baeza-Yates & Ribeiro-Neto, 1999), describiremos además la noción de Información Mutua aplicada a diccionarios (Ward Church & Hanks, 1990); y argumentaremos las razones por las que elegimos la función coseno (Salton, 1989) aplicada a búsqueda de información (Spärck-Jones, 1972). Finalmente, para evaluar, explicaremos cómo funciona el Coeficiente de correlación lineal de Pearson (StatSoft, 2013), una medida de la relación lineal entre dos variables cuantitativas y cómo esta medida permite calcular el grado de relación y la pertinencia de los ejemplos generados de acuerdo con los criterios establecidos y la preferencia de los hablantes sobre la información aportada por los ejemplos con respecto a una definición dada .

      Describiremos en este capítulo, además, cómo aplicamos los análisis anteriores sobre la definición y el ejemplo vistos desde la lexicografía, el principio de saturación semántica, los criterios del ejemplo en terminología determinados por este estudio y la heurística aplicada a un algoritmo de extracción. Se mostrará que cada uno de los puntos anteriores tiene una representación formal que atañe a los procesos que realiza el Generador de Ejemplos (GENEX por sus siglas en francés: Génerateur d¿Examples). Se muestra cómo la herramienta es capaz de ir seleccionando fragmentos textuales que cumplen con las exigencias teóricas. Además, se detallará una medida novedosa para la medición de la cercanía semántica entre una definición y un ejemplo: la densidad lexicométrica, fruto directo de la saturación semántica, corazón del GENEX. Con este capítulo la metodología de trabajo intentará cerrar como un círculo al enlazar cada una de las propuestas teóricas en una aplicación de apoyo para el quehacer terminográfico.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno