Hacia una normalización de la frecuencia de los corpus CREA y CORDE

Claudio Molina Salinas ^[1] ; Gerardo Eugenio Sierra Martínez ^[1]
1. [1] Universidad Nacional Autónoma de México
  
  Universidad Nacional Autónoma de México
  
  México
Localización: Revista signos: estudios de lingüística, ISSN-e 0718-0934, ISSN 0035-0451, Nº. 89, 2015, págs. 307-331
Idioma: español
Títulos paralelos:
- Towards a frequency normalization of CREA and CORDE corpora
Enlaces
- Texto completo (pdf)

Resumen
- español
  El Corpus Diacrónico del Español (CORDE) y el Corpus de Referencia del Español Actual (CREA) integran uno de los bancos de datos documentales más grande del español y son usados por especialistas en el estudio de la lengua española. Este recurso presenta algunas limitaciones en términos de tamaño, unidad de muestra y representatividad, que condicionan sus resultados y, por tanto, las descripciones de cualquier fenómeno lingüístico estudiado. En el presente trabajo identificamos estas limitaciones y proponemos un método de normalización de frecuencias de documento, por medio del cálculo de medias móviles. Esto permite una interpretación más realista de la lengua española, a través de los datos del corpus, y un aprovechamiento más efectivo del propio recurso
- English
  CORDE (Corpus Diacrónico del Español) and CREA (Corpus de Referencia del Español Actual) are two of the largest and most frequently used databases in the study of the Spanish language. However, they have some limitations in terms of size, sample unit and representativeness that may influence the results of studies and descriptions of linguistic phenomena. In this paper we identify these limitations and propose a method for the normalization of document frequencies by computing moving averages. We show how this method allows for a more realistic interpretation of corpus data and, thus, a more effective use of these resources