La minería de textos tiene un importante potencial, ya que gran parte de la información de las organizaciones está disponible en documentos de texto u otra información no estructurada. Una de las tareas integrales de la minería de textos es la extracción de entidades con nombre (NER). El presente trabajo describe los principales enfoques en uso para esta tarea y los aplica a un problema concreto, la extracción de información de un corpus de 8000 documentos correspondientes a resoluciones rectorales. Los experimentos comparan los diversos enfoques y muestran que los campos aleatorios condicionales (CRFs) son la técnica más adecuada para este problema. El trabajo describe también la arquitectura para la gestión de información no estructurada en la que se enmarca esta tarea y de la que forma parte.
Text mining has significant potential, as a substantial amount of the information available in organizations is in the form of unstructured text documents. One of the basic tasks in text mining is named-entity recognition (NER). This paper describes some of the main approaches to this task and applies them to a specific problem, namely information extraction from an 8000-document corpus of university administrative decisions.
The experiments compare various approaches y show that conditional random fields (CRFs) are the best technique for the problem. The paper also describes the framework of this task, the unstructured information management architecture of which it is a component.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados