Ayuda
Ir al contenido

Dialnet


Los corpus del español clásico y moderno: Entre la filología y la lingüística computacional

  • Autores: Ambrosio Miguel Calderón Campos
  • Localización: RLA: Revista de lingüística teórica y aplicada, ISSN-e 0718-4883, ISSN 0033-698X, Nº 57, 2, 2019, págs. 41-64
  • Idioma: español
  • Títulos paralelos:
    • Classic and modern spanish corpora: Between philology and computational linguistics
  • Enlaces
  • Resumen
    • español

      En este artículo se analiza la práctica habitual de elaboración de corpus del español, tanto europeo como americano, del periodo comprendido entre finales del siglo XV y finales del XIX. Se prestará especial atención al modelo seguido por seis corpus diacrónicos:

      CHARTA, CODEA 2015, CORDIAM, CorLexIn, Post Scriptum y Cíbola, con el objeto de extraer conclusiones metodológicas aplicables a trabajos futuros o iniciales, como el corpus Oralia diacrónica del español (ODE), actualmente en fase de elaboración en la Universidad de Granada. El análisis efectuado revela que, si bien no se aprecian grandes diferencias en el rigor y los criterios de transcripción documental, no parece haber acuerdo en lo referente a la manera de procesar y estructurar la información, tanto textual como metatextual. En este trabajo se defiende la conveniencia de adoptar un modelo estandarizado basado en el uso de XML, siguiendo las directrices del consorcio TEI para la codificación y etiquetado de corpus históricos. Este modelo permitirá la integración de diferentes corpus y, sobre todo, un más fácil acceso a la información por parte de los usuarios.

    • English

      This article analyses the standard practice when compiling and producing European and American Spanish corpora for the period spanning from the end of the 15th century to the late 19th century. Special attention will be given to the model used for six diachronic corpora: CHARTA, CODEA 2015, CORDIAM, CorLexIn, Post Scriptum and Cíbola, in order to reach methodological conclusions applicable to any future or incipient projects - such as the Oralia diacrónica del español (ODE) corpus, currently being prepared at the University of Granada. The analysis shows that while there are no appreciable differences in the rigor and criteria applied to document transcription, there does not seem to be any agreement as to the way to process and structure the information - textual as well as metatextual. This paper will argue for the usefulness of adopting a standardized model based on the XML markup language, following the TEI consortium guidelines for the codification and labelling of historical corpora. This model will make it possible to integrate the different corpora and, more importantly, to provide easier user access to the information.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno