Robust document clustering by exploiting feature diversity in cluster ensembles
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/3276
Título: | Robust document clustering by exploiting feature diversity in cluster ensembles |
---|---|
Autor/es: | Sevillano Domínguez, Xavier | Cobo Rodríguez, Germán | Alías Pujol, Francesc | Socoró Carrié, Joan Claudi |
Palabras clave: | Representación de documentos | Clasificación no supervisada | Conjuntos de clasificadores | Document representation | Clustering | Cluster ensembles |
Fecha de publicación: | sep-2006 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | SEVILLANO DOMÍNGUEZ, Xavier, et al. "Robust document clustering by exploiting feature diversity in cluster ensembles". Procesamiento del lenguaje natural. N. 37 (sept. 2006). ISSN 1135-5948, pp. 169-176 |
Resumen: | Las prestaciones de los sistemas de clasificación no supervisada de documentos están supeditadas al uso de representaciones textuales óptimas, las cuales no son sólo difíciles de determinar de antemano, sino que pueden variar de un problema de clasificación a otro. Este trabajo propone una metodología basada en diversidad de representaciones y conjuntos de clasificadores no supervisados como primer paso hacia la construcción de sistemas robustos de clasificación no supervisada. Los experimentos realizados sobre tres problemas de categorización binaria de dificultad creciente muestran que el método propuesto es i) robusto frente a selecciones no óptimas de la dimensionalidad de las representaciones, y ii) capaz de detectar interacciones constructivas entre distintas representaciones textuales, llegando a obtener índices de categorización por consenso superiores a los conseguidos por los clasificadores individuales disponibles. | The performance of document clustering systems is conditioned by the use of optimal text representations, which are not only difficult to determine beforehand, but also may vary from one clustering problem to another. This work presents an approach based on feature diversity and cluster ensembles as a first step towards building document clustering systems that behave robustly across different clustering problems. Experiments conducted on three binary clustering problems of increasing difficulty show that the proposed method is i) robust to near-optimal model order selection, and ii) able to detect constructive interactions between different document representations, thus being capable of yielding consensus clusterings superior to any of the individual clusterings available. |
URI: | http://hdl.handle.net/10045/3276 |
ISSN: | 1135-5948 |
Idioma: | eng |
Tipo: | info:eu-repo/semantics/article |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 37 (septiembre 2006) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_37_22.pdf | 326,13 kB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.