Reentrenamiento : aprendizaje semisupervisado de los sentidos de las palabras

Suárez Cueto, Armando; Palomar, Manuel; Rigau Claramunt, German

Reentrenamiento : aprendizaje semisupervisado de los sentidos de las palabras

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/1437

Información del item - Informació de l'item - Item information
Título:	Reentrenamiento : aprendizaje semisupervisado de los sentidos de las palabras
Autor/es:	Suárez Cueto, Armando \| Palomar, Manuel \| Rigau Claramunt, German
Palabras clave:	Desambiguación léxica \| Máxima entropía \| Basado en corpus \| Boots-trapping \| Co-training \| Word sense disambiguation \| Maximum entropy \| Corpus-based
Fecha de publicación:	mar-2005
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	SUÁREZ CUETO, Armando; PALOMAR SANZ, Manuel; RIGAU CLARAMUNT, German. “Reentrenamiento : aprendizaje semisupervisado de los sentidos de las palabras”. Procesamiento del lenguaje natural. Nº 34 (marzo 2005), pp. 49-66
Resumen:	Este artículo presenta un algoritmo iterativo-incremental, reentrenamiento, que adquiere de forma automática nuevos ejemplos anotados semánticamente, asegurando una alta precisión. El algoritmo se inscribe dentro de los métodos de aprendizaje automático basados en corpus y usa los modelos de probabilidad de máxima entropía. Reentrenamiento consiste en la retroalimentación del corpus de entrenamiento, mediante sucesivos ciclos de aprendizaje y clasificación, de nuevos ejemplos clasificados con un grado alto de confianza. Este nuevo método se inspira en los algoritmos de coentrenamiento (co-training) pero asumiendo unas restricciones más fuertes a la hora de decidir qué ejemplos se etiquetan e incorporan a la siguiente iteración y cuáles no. \| This paper presents re-training, a bootstrapping algorithm that automatically acquires semantically annotated data, ensuring high levels of precision. This algorithm uses a corpus-based system of word sense disambiguation that relies on maximum entropy probability models. The re-training method consists of the iterative feeding of training-classification cycles with new and high-confidence examples. The process relies on several filters that ensure the accuracy of the disambiguation by discarding uncertain classifications. This new method is inspired by co-training algorithms, but it makes stronger assumptions on when to assign a label to a linguistic context.
Patrocinador/es:	This paper has been partially supported by the Spanish Government (CICyT) under project number TIC2000-0664-C02-02 and the Valencia Government (OCyT) under project number CTIDIB-2002-151.
URI:	http://hdl.handle.net/10045/1437
ISSN:	1135-5948
Idioma:	spa
Tipo:	info:eu-repo/semantics/article
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 34 (marzo 2005) INV - GPLSI - Artículos de Revistas

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_34_05.pdf		220,95 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo