Método de extracción de rasgos robusto para un sistema de diarización.

Edward Lázaro Campbell Hernández; Gabriel Hernández-Sierra; José Ramón Calvo de Lara

Ayuda

Método de extracción de rasgos robusto para un sistema de diarización.

Edward L Campbell Hernández ^[1] ; Gabriel Hernández Sierra ^[1] ; José R. Calvo de Lara ^[1]
1. [1] Empresa DATYS
Localización: Revista Cubana de Ciencias Informáticas, ISSN-e 2227-1899, Vol. 12, Nº. 3, 2018
Idioma: español
Títulos paralelos:
- Method of robust feature extraction for a diarization system.
Enlaces
- Texto completo
Resumen
- español
  Los Sistemas Automáticos de Reconocimiento de Locutores, son sistemas biométricos que permiten realizar la identificación y verificación de personas, empleando la voz como rasgo discriminatorio. Uno de los desafíos a superar durante el proceso de reconocimiento, ocurre cuando el flujo de audio a procesar presenta varios locutores, ya que es necesario tener conocimiento de la ubicación temporal de los segmentos de audio relativos a cada locutor, para poder comparar directamente dichos segmentos con las muestras de locutores almacenadas en la base de datos de enrolamiento. Los sistemas de diarización permiten ubicar temporalmente los segmentos de audio relativos a cada locutor, dando solución, al problema mencionado en el reconocedor. En este artículo se propone el empleo de una técnica de extracción de rasgos robusta como subconjunto del sistema de diarización, denominada Respuesta sin Distorsión de Variación Mínima Perceptiva, la cual demostró mayor robustez ante ruido que la técnica dominante en el estado del arte, los Coeficientes Cepstrales en las Frecuencias de Mel. Experimentalmente se demostró como el rasgo propuesto presenta un menor nivel de varianza con respecto a los rasgos mel, entre tramas limpias y sucias, sometiendo el audio a una relación señal ruido de 6 dB y 8 dB respectivamente.
- English
  Automatic Speakers Recognition Systems are biometric systems that allow the identification and verification of people, using voice as a discriminatory feature. One of the challenges to overcome during the recognition process is when the audio flow to be processed has several speakers, since its necessary to have knowledge of the temporal location of the audio segments relative to each speaker, in order to be able to directly compare those segments with the speaker samples stored in the enrollment database. The diarization system allow to define the audio regions that are associated to a same speaker, solving, the mentioned problem in the recognition process. In this article is proposes a robust feature extraction technique as subsystem of the diarization system, called Perceptive Minimum Variance Distortionless Response, which demonstrated greater robustness to noise than the dominant technique in state-of-the-art, Mel Frequency Cepstral Coefficients. Experimentally is demostrated as the feature proposed present a level less of variance compared with the mel feature, between clean and noisy frame, subjecting the audio to a signal noisy relation of 6 dB and 8 dB respectively.

Los metadatos del artículo han sido obtenidos de SciELO Cuba

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: