Ayuda
Ir al contenido

Dialnet


Progettare e realizzare un «corpus» dell’italiano nella rete: il caso del «CoLIWeb»

    1. [1] University of Florence

      University of Florence

      Firenze, Italia

  • Localización: Studi di Lessicografia Italiana, ISSN 0392-5218, Vol. 37, 2020, págs. 357-374
  • Idioma: italiano
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • italiano

      All’interno delle varie fasi di realizzazione del VoDIM (Vocabolario dinamico dell’italiano moderno), che discende dalla ricerca effettuata per Prin specifici nel 2012 e nel 2015, si colloca la creazione di un corpus diacronico comprendente la lingua della scienza, dell’arte, della cucina, della politica, delle canzoni e delle opere liriche, della letteratura e della paraletteratura, dell’informazione, delle istituzioni. Per aumentarne il grado di rappresentatività è parso opportuno creare, in aggiunta, un corpus bilanciato delle dimensioni di 2 miliardi di parole riferito all’italiano più recente sulla base del web. Da qui è nato il progetto di realizzazione di un corpus con queste caratteristiche attraverso strumenti informatici che consentono di prelevare e catalogare ingenti quantità di testi dalla rete. L’articolo proposto si sofferma in particolare sul metodo di impostazione del programma di prelievo, basato sulle “etichette” del Grande dizionario italiano dell’uso di De Mauro, e sulla descrizione del primo prototipo di banca dati interrogabile

    • English

      The various stages in the compilation of the Vocabolario dinamico dell’italiano moderno (VoDIM), which developed from research carried out for national projects of 2012 and 2015, include the creation of a diachronic corpus of the language of science, art, cooking, politics, songs and operas, literature and para-literature, information, institutions. To increase the degree in which the corpus was representative, it seemed appropriate to create, in addition, a balanced corpus of the size of 2 billion words with reference to the most recent web-based Italian. This led to the project of creating a corpus with these characteristics by using the tools of information technology that allow the extraction and cataloguing of large quantities of texts from the web. This article concentrates in particular on the method of designing the programme for extracting texts, based on the “labels” of De Mauro’s Grande dizionario italiano dell’uso and on the description of the first prototype of searchable data-base.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno