Un corpus anotado de 100.000.000 palabras del español histórico y moderno

Malcolm Davies

Ayuda

Un corpus anotado de 100.000.000 palabras del español histórico y moderno

Autores: Malcolm Davies
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 29, 2002 (Ejemplar dedicado a: XVII Congreso de la SEPLN. Universidad de Valladolid, 11-13 septiembre 2002), págs. 21-27
Idioma: español
Enlaces
- Texto completo

Dialnet Métricas: 7 Citas

Resumen
- español
  En http://www.corpusdelespanol.org se encuentra el Corpus del Español -100.000.000 palabras en el primer corpus anotado del español histórico y moderno. A diferencia de otros corpus del español histórico, el "Corpus del Español" permite búsquedas por35 categorías gramaticales, 20.000 lemas, y 30.000 grupos de sinónimos y antónimos, además de búsquedas por etimología, frecuencia, y por categorías semánticas y sintácticas creadas por el usuario mismo. Con todo esto, puede haber búsquedas tan complejas como "complemento directo pronominal + todas las formas de cualquier sinónimo de querer + infinitivo, que ocurre en el siglo XX pero no en los siglos XIII o XIX". También se pueden producir fácilmente listados completos de colocaciones. La flexibilidad y el poder del corpus (juntos con la velocidad- menos de 2-3 segundos para casi todas las búsquedas) se deben a la arquitectura innovadora del corpus - varias bases de datos relacionales que están ligadas y que tienen anotación para los 45.000.000 n-grams distintos en el corpus.
- English
  The first annotated corpus of historical and modern Spanish -the 100,000,000 word Corpus del Español- is now online at http://www.corpusdelespanol.org. Unlike other corpora of historical Spanish, the "Corpus del Español" allows searches by 35 grammatical categories, 20,000 lemmata, and 30,000 groups of synonyms and antonyms, in addition to searches by etymology, frequency, and by user-defined semantic and syntactic categories. All of this allows searches as complex as "pronominal direct object + all forms of any synonym of querer + infinitive, which occurs in the 1900s but not in the 1700s or 1800s". It is also possible to easily produce complete lists of collocations. The flexibility and power of the corpus (as well as the speed -2-3 seconds for nearly all searches) are due to the innovative architecture of the corpus- several relational databases that are linked together and which contain annotation for the 45,000,000 distinct n-grams in the corpus.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: