Harmoniser le corpus ConDÉ. De l'image à la ressource linguistique

Morgane L. Pica

Ayuda

Harmoniser le corpus ConDÉ. De l'image à la ressource linguistique

Autores: Morgane L. Pica
Localización: Studia linguistica romanica, ISSN-e 2663-9815, Nº. 8, 2022 (Ejemplar dedicado a: Le temps long : l'évolution du français dans un corpus textuel calibré. Le témoignage de la coutume de Normandie.), págs. 131-154
Idioma: francés
Títulos paralelos:
- Harmonizing the ConDÉ corpus. From the image to the linguistic resource
Enlaces
- Texto completo
Resumen
- English
  The corpus compiled for the RIN ConDÉ project consists of twelve reference sources on Normancustomary law, from the 13th to the 19th century. Despite dealing with the same subject, the textsin this corpus are very heterogeneous in terms of format and structure. The texts were processedwith the HTR tool Transkribus; Python and XSLT languages were employed for automated trans-formations; lemmatization was performed by AnaLog and the data was encoded using the TEI encoding model. Processing the data required a stage of reflection to identify the best means ofrestoring the structures and reference systems and to devise a set of lemma and part-of-speech tagsthat would work for texts covering six centuries of linguistic evolution. To make the texts maximally comparable, it was eventually decided to create a three-level structure (part > chapter > sec-tion).
- français
  Le corpus du projet RIN ConDÉ comporte douze sources de référence du droit coutumier normand, du 13e au 19e siècle. Bien qu'homogène dans son sujet, ce corpus présente une grande hétérogénéité dans le format et donc la structure des données textuelles. Le traitement des données,fondé majoritairement sur un HTR par Transkribus, des transformations informatiques en langages Python et XSLT, une lemmatisation par AnaLog et le modèle d'encodage TEI, a donc dû comporterune phase de réflexion sur la structure permettant de restituer les structures et systèmes de référence des différents témoins, ainsique concilier six cents ans d'évolution linguistique sous un seuljeu d'étiquettes de lemmes et catégories morphosyntaxiques. Le choix a été d'élaborer une structure sur trois niveaux (partie > chapitre > section), et a nécessité quelques prises de parti ponctuelles afin de rendre les témoins véritablement comparables.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: