Ayuda
Ir al contenido

Dialnet


El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya

    1. [1] Universitat Oberta de Catalunya

      Universitat Oberta de Catalunya

      Barcelona, España

  • Localización: Linguamática, ISSN 1647-0818, Vol. 14, Nº. 2, 2022, págs. 75-81
  • Idioma: catalán
  • Títulos paralelos:
    • The parallel corpus of the Official Journal of the Catalan Governmen
  • Enlaces
  • Resumen
    • català

      En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el.

    • English

      In this paper, the process of compilation of thenew version of the Catalan–Spanish parallel corpusof the Official Journal of the Catalan Government (DOGC) is presented. The processes of downloading,conversion to text, segmentation and automatic align-ment are described. All the programs that have beendeveloped to perform these processes are distributedunder a free license and the compiled corpus can befreely downloaded. Furthermore, the process of training and evaluation of two neural machine translation systems, Catalan–Spanish and Spanish–Catalan,using this corpus is presented


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno