Ayuda
Ir al contenido

Dialnet


Larramendiren Hiztegi Hirukoitzaren digitalizazioa: Karaktereen ezagutze optikoa eta Wikitekara igotzea

    1. [1] Universidad del País Vasco/Euskal Herriko Unibertsitatea

      Universidad del País Vasco/Euskal Herriko Unibertsitatea

      Leioa, España

  • Localización: Uztaro: giza eta gizarte-zientzien aldizkaria, ISSN 1130-5738, ISSN-e 3020-5115, Nº. 120, 2022, págs. 83-93
  • Idioma: euskera
  • Títulos paralelos:
    • The Digitization of Larramendi’s Diccionario Trilingüe: Optical Character Recognition and Uploading to Wikisource
  • Enlaces
  • Resumen
    • euskara

      Artikulu honetan Larramendiren Hiztegi Hirukoitzaren digitalizazioko OCR prozesua deskribatzen da, adimen artifizialaren adarra den ikasketa automatikoa baliatuz. Horretarako, eskaneatutako irudien aurreprozesamendua deskribatzen da, eta ondoren, Kraken erreminta baliatuz, eskuz transkribatutako laginetik abiatuta hiztegiko testua ezagutuko duen ereduaren trebakuntza azaltzen da. Doitasun handiko testuaz gain, letra etzana eta testuaren posizioa gordetzen dituzten fitxategiak sortu dira, hiztegiaren egitura irudikatzeko balioko dutenak. Emaitzak prozesatu eta Wikiteka plataforman eskuragarri jarri direnez, auzolanez transkripzio osoa zuzendu daiteke. Zuzendutako transkripzio hori informazio-erauzketa prozesutik pasako da, hiztegiaren egitura lexikografikoa ikasketa automatikoz erauzteko. Informazio horrekin RDF estandarrarekin bat datorren moldaketa-eredu baten lehen proposamena landuko da, Wikidatan integratzeko.

    • English

      In this article, we describe the OCR process using machine learning, a part of artificial intelligence, in the digitization of Larramendi’s Diccionario Trilingüe. For this purpose, we describe the pre-treatment of scanned images and the training of a tool named Kraken, in order to train a model from a hand-transcribed sample that will recognize the dictionary text. In addition to the highly accurate text, files containing italics and the position of the text have been created, enabling the representation of the structure of the dictionary. As the results are available on the Wikisource platform, the transcription can be corrected using crowdsourcing, so that we can carry out the information extraction process of the corrected transcription using machine learning to extract the lexicographic structure of the dictionary. With this information, the first proposal for a RDF model will be developed, in order to integrate the data in Wikidata.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno