Ayuda
Ir al contenido

Dialnet


Resumen de Estudio comparativo de métodos de transcripción para corpus orales: el caso del español

Marimar Rufino Morales

  • español

    Los avances tecnológicos han propulsado la metodología de investigación en transcripción. Los programas para corpus lingüísticos basados en modelos estadísticos y de aprendizaje profundo han mejorado las fases de alineación y anotación. En cambio, cuando se trata de transcribir el material, la carga interpretativa y la propia naturaleza de las conversaciones obstaculizan la automatización del proceso. De esta manera, la transcripción de entrevistas destinadas al estudio de la lengua oral se sigue haciendo con un reproductor y un teclado, y puede convertirse en uno de los aspectos más largos del procesamiento de datos. Sin embargo, en otros contextos profesionales, el reconocimiento automático del habla se emplea para transcribir de forma eficaz gracias a la colaboración humano-computadora. Las técnicas y estrategias difieren, pero todas tienen en común que estabilizan las fluctuaciones de las herramientas informáticas y son más rápidas que otros métodos. En este estudio se ha utilizado una de ellas, el rehablado off-linecon las entrevistas del Corpus oral de la lengua española en Montreal. Se ha medido el tiempo empleado, así como la precisión y se ha comparado con el reconocimiento automático del habla y con la mecanografía. El rehablado off-lineha permitido el uso de un programa automático de dictado en su estado actual como herramienta para potenciar la transcripción de entrevistas en menos tiempo y con menos errores.

  • English

    Technological advances have propelled the research methodology in transcription. Language corpus tools based on statistical models and deep learning have improved the alignment and annotation phases. However, when it comes to transcribing the material, the conversation’s interpretive load and nature themselves hinder automation of the process. That is why interviews used for studying spoken language are still transcribed with a player and keyboard, which can constitute one of the most time-consuming aspects of data processing. In other professional contexts, automatic speech recognition is used to transcribe effectively through human-computer collaboration. The techniques and strategies may differ, but they all stabilize fluctuations in computing tools and are faster than other methods. In this study, the off-line respeaking method was used to transcribe the interviews of the Spoken Corpus of the Spanish Language in Montreal. Transcription times and accuracy were measured and compared with automatic speech recognition and typing. Off-line respeaking, using automatic speech-to-text software in its current state, proved to be the fastest and most error-free method for transcribing interviews.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus