Similitud español-inglés a través de word embeddings

Fernando Enríquez de Salamanca Ros; Fermín Cruz Mata; Francisco Javier Ortega Rodríguez; José Antonio Troyano Jiménez

Ayuda

Similitud español-inglés a través de word embeddings

Autores: Fernando Enríquez de Salamanca Ros, Fermín Cruz Mata, Francisco Javier Ortega Rodríguez, José Antonio Troyano Jiménez
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 59, 2017, págs. 31-38
Idioma: español
Títulos paralelos:
- Spanish-English similarity through word embeddings
Enlaces
- Texto completo
Resumen
- español
  En este trabajo hemos afrontado la tarea de similitud de textos multilingüe mediante representaciones vectoriales de las palabras. Hemos experimentado con varias colecciones de textos con pares de frases en español e inglés, adaptando dos técnicas basadas en word embeddings que han mostrado su eficacia en la similitud de textos monolingüe: la agregación de vectores y el alineamiento. La agregación permite construir una representación vectorial de un texto a partir de los vectores de las palabras que lo componen, y el algoritmo de alineamiento aprovecha los word embeddigs para decidir el emparejamiento de palabras de los dos textos a comparar. En el proceso se han utilizado dos estrategias distintas: usar traductores automáticos para poder aplicar directamente las técnicas de similitud monolingüe, y aplicar una técnica de transformación de modelos para trasladar los vectores de un idioma al espacio del otro. Las dos estrategias han funcionado razonablemente bien por separado, y los resultados mejoran cuando las salidas de los dos tipos de sistemas se integran mediante técnicas de ensemble learning.
- English
  In this paper we have faced the cross-lingual text similarity task using vector representations of words. We have experimented with several collections of texts with pairs of sentences in Spanish and English, adapting two techniques based on word embeddings that have shown their effectiveness in the similarity of monolingual texts: vector aggregation and vector-based text alignment. The aggregation allows to construct a vector representation of a text from the vectors of the words that compose it, and the algorithm of alignment takes advantage of word embeddigs to decide the pairing of words of the two texts to be compared. Two different strategies have been used in the process: using automatic translators to be able to directly apply monolingual similarity techniques, and applying a model transformation technique to translate the vectors of one language into the space of the other. Both strategies have worked reasonably well separately, and the results improve when the outputs of the two types of systems are integrated by means of ensemble learning techniques.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: