Formalización de reglas para la detección del plural en castellano en el caso de unidades no diccionarizadas

Rogelio Nazar; Amparo Galdames

Ayuda

Formalización de reglas para la detección del plural en castellano en el caso de unidades no diccionarizadas

Autores: Rogelio Nazar, Amparo Galdames
Localización: Linguamática, ISSN 1647-0818, Vol. 11, Nº. 2, 2019, págs. 17-32
Idioma: español
Títulos paralelos:
- Formalization of rules for the detection of plurals in Spanish in the case of out-of-vocabulary units
Enlaces
- Texto completo

Dialnet Métricas: 1 Cita

Resumen
- español
  En este artículo ofrecemos una formalización de reglas de pluralización en castellano para ser utilizada concretamente en el procesamiento de términos especializados, ya que con frecuencia estos no se encuentran registrados en los diccionarios de lengua general y, por tanto, no son reconocidos su categoría y lema. Esto tiene consecuencias negativas en tareas como la extracción de terminología, especialmente en el caso de lenguas con riqueza morfológica. Enfrentamos el problema con un diseño en forma de cascada de reglas de sustitución, expresiones regulares y adquisición léxica a partir de corpus de grandes dimensiones. Los resultados experimentales muestran una reducción significativa de la tasa de error de dos etiquetadores ampliamente utilizados: TreeTagger y UDPipe. Ofrecemos una implementación en código abierto que funciona como posproceso del etiquetado.
- English
  This paper presents a formalization of rules on plural formation in Spanish to be used in the processing of specialized terminology, as it is frequently the case that terms are not found in dictionaries of general language and therefore they cannot be lemmatized or POS-tagged. The absence of terms in general dictionaries has negative effects in tasks such as terminology extraction, particularly in the case of morphologically rich languages. We attack the problem by cascading through multiple trasnfser rules, regular expressions and lexical aquisition from large corpora. Results show significant reduction of the error rate of two POS-taggers: TreeTagger and UDPipe. We offer an open-source implementation which works as a post-process, cleaning up after the tagger.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: