Robust document clustering by exploiting feature diversity in cluster ensembles

Sevillano Domínguez, Xavier; Cobo Rodríguez, Germán; Alías Pujol, Francesc; Socoró Carrié, Joan Claudi

Robust document clustering by exploiting feature diversity in cluster ensembles

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/3276

Información del item - Informació de l'item - Item information
Título:	Robust document clustering by exploiting feature diversity in cluster ensembles
Autor/es:	Sevillano Domínguez, Xavier \| Cobo Rodríguez, Germán \| Alías Pujol, Francesc \| Socoró Carrié, Joan Claudi
Palabras clave:	Representación de documentos \| Clasificación no supervisada \| Conjuntos de clasificadores \| Document representation \| Clustering \| Cluster ensembles
Fecha de publicación:	sep-2006
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	SEVILLANO DOMÍNGUEZ, Xavier, et al. "Robust document clustering by exploiting feature diversity in cluster ensembles". Procesamiento del lenguaje natural. N. 37 (sept. 2006). ISSN 1135-5948, pp. 169-176
Resumen:	Las prestaciones de los sistemas de clasificación no supervisada de documentos están supeditadas al uso de representaciones textuales óptimas, las cuales no son sólo difíciles de determinar de antemano, sino que pueden variar de un problema de clasificación a otro. Este trabajo propone una metodología basada en diversidad de representaciones y conjuntos de clasificadores no supervisados como primer paso hacia la construcción de sistemas robustos de clasificación no supervisada. Los experimentos realizados sobre tres problemas de categorización binaria de dificultad creciente muestran que el método propuesto es i) robusto frente a selecciones no óptimas de la dimensionalidad de las representaciones, y ii) capaz de detectar interacciones constructivas entre distintas representaciones textuales, llegando a obtener índices de categorización por consenso superiores a los conseguidos por los clasificadores individuales disponibles. \| The performance of document clustering systems is conditioned by the use of optimal text representations, which are not only difficult to determine beforehand, but also may vary from one clustering problem to another. This work presents an approach based on feature diversity and cluster ensembles as a first step towards building document clustering systems that behave robustly across different clustering problems. Experiments conducted on three binary clustering problems of increasing difficulty show that the proposed method is i) robust to near-optimal model order selection, and ii) able to detect constructive interactions between different document representations, thus being capable of yielding consensus clusterings superior to any of the individual clusterings available.
URI:	http://hdl.handle.net/10045/3276
ISSN:	1135-5948
Idioma:	eng
Tipo:	info:eu-repo/semantics/article
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 37 (septiembre 2006)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_37_22.pdf		326,13 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo