Discriminación de Sentidos Basada en Análisis Estadístico de Textos

Rogelio Nazar

Ayuda

Discriminación de Sentidos Basada en Análisis Estadístico de Textos

Nazar, Rogelio ^[1]
1. [1] Universitat Pompeu Fabra
  
  Universitat Pompeu Fabra
  
  Barcelona, España
Localización: BRAC: Barcelona, Research, Art Creation, ISSN-e 2014-8992, Vol. 1, Nº. 1, 2013 (Ejemplar dedicado a: Junio), págs. 5-26
Idioma: español
Títulos paralelos:
- Word Sense Discrimination Using Statistic Analysis of Texts
Enlaces
- Texto completo (pdf)
Resumen
- español
  Durante a.os han existido programas que de manera autom.tica obtienen informaci.n acerca de entidades como personas, organizaciones o conceptos científicos a partir de repositorios de texto en formato digital tales como la Web u otras fuentes. Sin embargo, todav.a existe una serie de dificultades que no se han podido resolver, por ejemplo cuando distintas entidades son designadas con un mismo nombre (como el rat.n, que puede ser un dispositivo periférico en computación o bien un mam.fero). El presente artículo propone un método para resolver este problema basado en el análisis de la frecuencia de las palabras que se encuentran en el contexto de aparición de la palabra ambigua. Cada uno de los sentidos de una palabra polisémica se representan mediante los correspondientes grupos de otras unidades léxicas que muestran tendencia a aparecer en el contexto de esta palabra. El interés de esta propuesta reside en que no requiere ning.n tipo de conocimiento externo al corpus, como conocimiento del mundo o de la lengua de los textos.
- English
  For years, computer programs have been working to obtain information about certain entities such as persons, organizations or scientific concepts from the Web or from other sources. However, they have many challenges yet to overcome, for instance when texts refer to different entities that share the same name (e.g., a mouse can be an electronic device or a living creature). This article presents a method to solve this problem based on the frequency analysis of the words that are found in the vicinity of a target word. Each sense of the polysemous word or term will be represented as a different group of other vocabulary units that show a tendency to appear together with the target word in each of its different senses. The interest of the proposal is that it does not require previous knowledge about the language of the corpus or any other formof knowledge from the external world.