A spoken document retrieval system for TV broadcast news in Spanish and Basque

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/18515
Información del item - Informació de l'item - Item information
Título: A spoken document retrieval system for TV broadcast news in Spanish and Basque
Título alternativo: Sistema de recuperación de noticias de televisión en castellano y euskera
Autor/es: Varona Fernández, Amparo | Nieto Nieto, Silvia | Rodríguez Fuentes, Luis Javier | Peñagarikano Badiola, Mikel | Bordel García, Germán | Díez Sánchez, Mireia
Palabras clave: Recuperación de recursos multimedia | Reconocimiento automático del habla | Spoken document retrieval | Automatic speech recognition
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: sep-2011
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: VARONA, A., et al. “A spoken document retrieval system for TV broadcast news in Spanish and Basque”. Procesamiento del Lenguaje Natural. N. 47 (2011). ISSN 1135-5948, pp. 75-83
Resumen: El sistema de indexado y búsqueda de contenidos multimedia que se presenta en este trabajo (Hearch) es un buscador de aspecto convencional pero con la capacidad de devolver segmentos de vídeo gracias a la transcripción automática de sus contenidos de voz. El sistema consta de un back-end que capta, procesa e indexa los recursos, y de un front-end que permite realizar búsquedas y configurar y monitorizar el funcionamiento de los distintos módulos, mediante una interfaz web. Actualmente se encuentra operativa una versión de la herramienta que trabaja frente a repositorios de noticias en castellano y euskera (http://gtts.ehu.es/Hearch/). Para evaluar el rendimiento del sistema se dispone de 6 programas de noticias en castellano y 7 en euskera. Puesto que el módulo de Reconocimiento Automático del Habla introduce bastantes errores, se ha propuesto y evaluado una aproximación basada en añadir términos afines a los de la pregunta para ampliar los resultados proporcionados por el sistema. Como resultado se obtiene una pequeña mejora del rendimiento. | This paper presents a spoken document retrieval system (Hearch) looking like a conventional search tool, which retrieves audio/video segments based on the automatic transcription of speech contents. The system consists of a back-end that captures, processes and indexes audio/video resources, and a front-end that allows to search contents, configure various modules and display performance statistics through a web interface. An early version of this tool is available (http://gtts.ehu.es/Hearch/), which searches and retrieves segments on TV broadcast news repositories in Spanish and Basque. To evaluate the performance of the system, six manually transcribed TV broadcast news in Spanish and seven in Basque have been used. An approach based on extending the query with the so called friendly terms has been proposed and evaluated, attempting to minimize the effect of errors introduced by the Automatic Speech Recognition module. This approach led to slight performance improvements.
Patrocinador/es: This work has been supported by the University of the Basque Country under grant GIU10/18, by the Government of the Basque Country under program SAIOTEK (project S-PE10UN87) and by the Spanish MICINN under Plan Nacional de I+D+i (project TIN2009-07446, partially financed by FEDER funds). M. Diez is supported by a research fellowship from the Department of Education, Universities and Research of the Basque Country Government.
URI: http://hdl.handle.net/10045/18515
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 47 (2011)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_47_08.pdf827,09 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.