Ayuda
Ir al contenido

Dialnet


A comparative study of clustering algorithms on narrow-domain abstracts

  • Autores: David Pinto, Paolo Rosso, Alfons Juan, Héctor Jiménez-Salazar
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 37, 2006, págs. 43-50
  • Idioma: español
  • Enlaces
  • Resumen
    • español

      El agrupamiento de resúmenes de textos científicos de dominios sumamente restringidos implica un alto grado de complejidad, debido principalmente al alto grado de traslape de vocabularios entre los textos y la baja frecuencia de ocurrencia de los términos en dichos documentos. El uso de la técnica del punto de transición ha resultado de suma utilidad en esta tarea del Procesamiento del Lenguaje Natural (PLN). Su bondad se encuentra sustentada en el conjunto de palabras que extrae del vocabulario de un texto: los términos de frecuencia media. Si bien, la importancia del uso de este tipo términos en PLN es bastante conocida, la extracción de los mismos no lo es. En este trabajo se presentan resultados experimentales en el uso de dicha técnica como un mecanismo de selección de características en dos corpora de dominios sumamente restringidos. Los resultados experimentales muestran que la técnica elegida obtiene los mejores valores de medida-F bajo cinco diferentes métodos de agrupamiento.

    • English

      Clustering abstracts of scientific texts of very narrow domain implies a big challenge. The first problem to attend is the high overlapping among the document's vocabularies, besides the low frequency of these terms. The transition point technique has been successfully used in this area of Natural Language Processing (NLP). Its best properties rely on the extraction of the mid-frequency terms. Although the importance of these terms on NLP has been known from time ago, the exact extraction of these terms is unknown. In this paper we present an application of this technique as a feature selection technique in two corpora of very narrow domain. The experimental results show that the transition point technique obtains the best results of F-measure with five different clustering methods.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno