Ayuda
Ir al contenido

Dialnet


Determinación del umbral de representatividad de un corpus mediante el algoritmo N-Cor

  • Autores: Gloria Corpas Pastor, Miriam Seghiri
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 39, 2007, págs. 165-172
  • Idioma: español
  • Enlaces
  • Resumen
    • español

      En las páginas que siguen a continuación vamos a describir un método para calcular el umbral mínimo de representatividad de un corpus mediante el algoritmo N-Cor de análisis de la densidad léxica en función del aumento incremental del corpus. Se trata de una solución eficaz para determinar a posteriori, por primera vez de forma objetiva y cuantificable, el tamaño mínimo que debe alcanzar un corpus para que sea considerado representativo en términos estadísticos. Este método se ha visto implementado en la aplicación informática ReCor. Con dicha herramienta vamos a comprobar si un corpus de seguros turísticos en español que hemos compilado sería representativo para realizar estudios lingüístico-textuales y poder ser utilizarlo en traducción.

    • English

      In this paper we describe a method to determine the representativeness threshold for any given corpus. By using the N-Cor algorithm it is possible to quantify a posteriori the minimum number of documents and words that should be included in a specialised language corpus, in order that it may be considered representative. This method has been implemented by means of a computer program (ReCor). This program will be used here to check whether a corpus of insurance policies in Spanish is representative enough in order to carry out textlinguistic studies and translation tasks.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno