Una aproximación basada en corpus para la detección del foco geográfico en el texto

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/27866
Información del item - Informació de l'item - Item information
Título: Una aproximación basada en corpus para la detección del foco geográfico en el texto
Título alternativo: A corpus-based approach to geographical focus detection in text
Autor/es: Peregrino Torregrosa, Fernando | Tomás, David | Llopis, Fernando
Grupo/s de investigación o GITE: Procesamiento del Lenguaje y Sistemas de Información (GPLSI)
Centro, Departamento o Servicio: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos
Palabras clave: Foco geográfico | Recuperación de información geográfica | Clasificación de textos | Aprendizaje automático | Geographical focus | Geographical information retrieval | Text classification | Machine learning
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: mar-2013
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: PEREGRINO, Fernando S.; TOMÁS, David; LLOPIS, Fernando “Una aproximación basada en corpus para la detección del foco geográfico en el texto”. Procesamiento del Lenguaje Natural. N. 50 (2013). ISSN 1135-5948, pp. 69-76
Resumen: El foco geográfico de un documento identifica el lugar o lugares en los que se centra el contenido del texto. En este trabajo se presenta una aproximación basada en corpus para la detección del foco geográfico en el texto. Frente a otras aproximaciones que se centran en el uso de información puramente geográfica para la detección del foco, nuestra propuesta emplea toda la información textual existente en los documentos del corpus de trabajo, partiendo de la hipótesis de que la aparición de determinados personajes, eventos, fechas e incluso términos comunes, pueden resultar fundamentales para esta tarea. Para validar nuestra hipótesis, se ha realizado un estudio sobre un corpus de noticias geolocalizadas que tuvieron lugar entre los años 2008 y 2011. Esta distribución temporal nos ha permitido, además, analizar la evolución del rendimiento del clasificador y de los términos más representativos de diferentes localidades a lo largo del tiempo. | The geographical focus of a document identifies the relevant locations mentioned in text. This paper presents a corpus-based approach to detecting the geographical focus in documents. Despite other approaches focused on using solely geographical information, our proposal employs all the textual information included in the corpus under the assumption that the presence of particular names of persons, events, and even common terms can definitely help to solve this task. In order to validate our hypothesis, a study was carried out on a corpus of georeferenced news that took place between 2008 and 2011. Moreover, this temporal distribution allowed to carry out a study on the evolution of the performance of the classifier and the most representative terms for different locations over time.
URI: http://hdl.handle.net/10045/27866
ISSN: 1135-5948
Idioma: spa
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Aparece en las colecciones:INV - GPLSI - Artículos de Revistas
Procesamiento del Lenguaje Natural - Nº 50 (2013)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_50_08.pdf693,97 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.