Ayuda
Ir al contenido

Dialnet


Estructura de consultas para la selección automática de formas gramaticales analíticas del tiempo futuro en lenguas eslavas

    1. [1] Universidad Nacional Taras Shevchenko de Kiev
  • Localización: Mundo eslavo, ISSN 1579-8372, Nº. 19, 2020, págs. 25-38
  • Idioma: español
  • Títulos paralelos:
    • Query Structuring for Automatic Selection of Analytical Future Tense in Slavic Languages
  • Enlaces
  • Resumen
    • español

      Los corpus de textos actuales permiten a los investigadores llevar a cabo un amplio rango de análisis, así como automatizar la selección del material empírico gracias a una anotación detallada del texto. Ya que las anotaciones caracterizan mayoritariamente tales unidades como palabras, algunas categorías gramaticales expresadas por medio de formas analíticas no pueden ser anotadas aprovechando este enfoque, razón por la cual su selección se ve dificultada o produce resultados erróneos. Con el fin de resolver dicho problema proponemos utilizar consultas específicas mediante el lenguaje técnico CQL (Context Query Language) o similares, que puede compaginar todos los parámetros y condiciones que el investigador necesite: tanto lexemas con sus características como combinaciones enteras de ellos. Para ilustrar el uso, los resultados y potencialidades de dicha herramienta, describimos las particularidades destinadas a la selección de formas analíticas del tiempo futuro en 6 lenguas eslavas: bielorruso, checo, polaco, eslovaco, ruso y ucraniano. Puesto que diferentes corpus usan conjuntos de etiquetas (tags) diferentes, las consultas CQL han de ser adaptadas para cada corpus modificando los nombres de las etiquetas, quedando invariable su estructura. Algunos de los corpus, como el N-Corpus de la Lengua Bielorrusa o el Corpus Ruso Anotado de Helsinki (HANCO) están provistos de una interfaz particular para la selección de dichas categorías. No obstante, el uso de CQL resulta ser una solución más universal puesto que incluye la posibilidad de modificar parcialmente las demandas más específicas del usuario, p. ej., selección de las formas futuras en una voz y aspecto determinados.

    • English

      Modern corpora tools allow language researchers to perform a wide range and type of analysis as well as automatize the selection of empiric material thanks to a detailed annotation of the texts. Since annotation is mainly word-oriented, some grammar categories which are expressed by means of analytical forms cannot be tagged as such in a word-oriented approach, which is why in many corpora their selection is hampered or produces mistaken results. To overcome this problem, we propose to use specific queries in Context Query Language (CQL), which can combine as many parameters and conditions as the researcher might need to indicate: lexemes with their characteristics or sequence of them. To illustrate the usage, possible results, and potentiality of this tool, we make an overview of the queries aimed at selecting analytical forms of future in 6 Slavic languages: Belorussian, Check, Polish, Slovak, Russian, and Ukrainian. CQL-queries should be adapted for each corpus by modifying the tagname, though the structure of the query remains identical. Some annotated corpora do not accept CQL-query, though they provide a specific user interface for selecting grammar categories. Nevertheless, CQL appears to be a more universal solution (though, more complicated to use) because it includes the possibility of modifying partially the parameters of the search, for example, selecting future forms in a certain voice or aspect.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno