El análisis lexicométrico, el corpus y el diccionario previo: caso de la lengua vasca.

Juan Abasolo

Ayuda

El análisis lexicométrico, el corpus y el diccionario previo: caso de la lengua vasca.

Abasolo, Juan ^[1]
1. [1] Universidad del País Vasco/Euskal Herriko Unibertsitatea
  
  Universidad del País Vasco/Euskal Herriko Unibertsitatea
  
  Leioa, España
Localización: ÑEMITỸRÃ: Revista Multilingüe de Lengua, Sociedad y Educación, ISSN-e 2707-1642, ISSN 2707-1634, Vol. 5, Nº. 2, 2023 (Ejemplar dedicado a: ÑEMITỸRÃ - Revista Multilingüe de Lengua, Sociedad y Educación), págs. 30-45
Idioma: español
Títulos paralelos:
- Lexicometric analysis, the corpus,and the previous dictionary: the case of the basque language.
Enlaces
- Texto completo
Resumen
- español
  Siguiendo los lineamientos del método propuesto por Reinert (1983, 1990), podemos llevar a cabo una clasificación automática de grandes volúmenes de textos que aborden un determinado contexto semántico, con el fin de identificar los distintos campos semánticos o de sentido en base a las elecciones léxicas realizadas. Esta tarea se encuentra resuelta tanto en el software patrocinado por Max Reinert (1990), conocido como ALCESTE, como en el software de código abierto IRaMuTeQ (Ratinaud & Déjean, 2009) y sus desarrollos posteriores (Barnier, 2022). Como mencionaba Reinert (1990), es fundamental llevar a cabo un pretratamiento lingüístico que se ajuste al sentido semántico del texto, evitando así la variabilidad regida por las normas gramaticales. Para lograr este control sobre la variabilidad, se utiliza una preclasificación con un diccionario que contempla las formas plausibles de aparición en el texto, junto con sus correspondientes valores de significado asociados. En el caso de lenguas aglutinantes como el euskera, esto plantea un desafío particular. En esta comunicación, presentamos el proceso de creación de un diccionario para el uso del software IRaMuTeQ con textos en lengua vasca, su evaluación interna, mediante el análisis de autodescripciones de profesorado universitario, y externa, mediante el análisis de un corpus paralelo multilingüe vasco, castellano, inglés y francés.
- English
  Following the steps of the method described by Reinert (1983, 1990), we can perform an automatic classification of large numbers of texts that address a specific semantic context in order to identify different semantic fields or meanings based on lexical choices. This task is already solved in the software sponsored by Reinert himself, known as ALCESTE, as well as in the open-source software IRaMuTeQ (Ratinaud & Déjean, 2009) and subsequent developments based on it (Barnier, 2022). As Reinert (1990) anticipated, a linguistic pre-processing is necessary to adhere to the proper semantic sense of the text, free from the variability governed by the rules of grammar. This control over variability is based on the use of a dictionary that includes plausible forms of appearance in the text along with their associated meaning values. In agglutinative languages such as Basque, this poses a challenge. In this communication, we present the process of creatinga dictionary for the use of the IRaMuTeQ software with texts in the Basque language, along with an analysis of a parallel multilingual corpus.