Comparing Distributional Semantics Models for identifying groups of semantically related words

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/57758
Información del item - Informació de l'item - Item information
Título: Comparing Distributional Semantics Models for identifying groups of semantically related words
Título alternativo: Comparación de dos modelos de semántica distribucional para identificar grupos de palabras semánticamente relacionadas
Autor/es: Kovatchev, Venelin | Salamó Llorente, Maria | Martí Antonín, Maria Antònia
Palabras clave: DSM | Word2Vec | CLUTO | Semantic grouping | Agrupación semántica de palabras
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: sep-2016
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2016, 57: 109-116
Resumen: Distributional Semantic Models (DSM) are growing in popularity in Computational Linguistics. DSM use corpora of language use to automatically induce formal representations of word meaning. This article focuses on one of the applications of DSM: identifying groups of semantically related words. We compare two models for obtaining formal representations: a well known approach (CLUTO) and a more recently introduced one (Word2Vec). We compare the two models with respect to the PoS coherence and the semantic relatedness of the words within the obtained groups. We also proposed a way to improve the results obtained by Word2Vec through corpus preprocessing. The results show that: a) CLUTO outperformsWord2Vec in both criteria for corpora of medium size; b) The preprocessing largely improves the results for Word2Vec with respect to both criteria. | Los Modelos de Semántica Distribucional (MSD) están siendo utilizados de manera extensiva en el área de la Lingüística Computacional. Los MSD utilizan corpus de uso de la lengua para inducir de manera automática diferentes tipos de representaciones sobre el significado de las palabras. Este artículo se centra en una de las aplicaciones de los MSD: la identificación de grupos de palabras semánticamente relacionadas. Se comparan dos modelos de obtención de representaciones formales: CLUTO, una herramienta estándar de clusterización y Word2Vec, una aproximación reciente al tema. Comparamos los resultados obtenidos con ambos modelos basándonos en dos criterios: la coherencia que presentan estas agrupaciones respecto de la categoría morfosintáctica y la cohesión semántica entre las palabras dentro de cada grupo. Se propone también como mejorar los resultados obtenidos con Word2Vec mediante su preprocesamiento morfosintáctico. Los resultados obtenidos demuestran que: a) CLUTO supera a Word2Vec en ambos criterios cuando se trata de corpus de tamaño medio: b) el preprocesamiento mejora de manera clara los resultados obtenidos con Word2Vec para ambos criterios.
Patrocinador/es: This work was supported by projects TIN2012-38603-C02-02, SGR-2014-623 and TIN2015-71147-C2-2.
URI: http://hdl.handle.net/10045/57758
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica: si
Versión del editor: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 57 (2016)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_57_12.pdf264,09 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.