Evaluación comparativa de sistemas de reconocimiento de locutor basados en los algoritmos LPC, CC y MFCC

Yesenia González; Héctor Juárez; Oscar Rocha; Rubén Hernández; Alfredo Bermúdez

Ayuda

Evaluación comparativa de sistemas de reconocimiento de locutor basados en los algoritmos LPC, CC y MFCC

González, Yesenia ^[1] ; Juárez, Héctor ^[1] ; Rocha, Oscar ^[1] ; Hernández, Rubén ^[1] ; Bermúdez, Alfredo ^[1]
1. [1] Instituto Politécnico Nacional
  
  Instituto Politécnico Nacional
  
  México
Localización: Memoria Investigaciones en Ingeniería, ISSN 2301-1092, ISSN-e 2301-1106, Nº. 17, 2019, págs. 121-136
Idioma: español
Títulos paralelos:
- Comparative Evaluation of Speaker Recognition Systems Based on the LPC, CC and MFCC Algorithms
Enlaces
- Texto completo
Resumen
- español
  El presente documento propone realizar la evaluación de sistemas de reconocimiento de locutor basados en los algoritmos LPC (Coeficientes de Predicción Lineal), CC (Coeficientes Cepstrales) y MFCC (Coeficientes Cepstrales en Frecuencias Mel), empleados en la extracción de parámetros de voz. La evaluación, siguiendo una metodología cuantitativa experimental, consiste en determinar el cambio de desempeño cuando la señal de entrada es expuesta a diferentes condiciones de ruido (bullicio y gaussiano), es decir, a distintos niveles de SNR, comparando los resultados de verificación para 2 locutores. Aunque todos los sistemas disminuyen su desempeño en ambientes ruidosos, cada uno posee de forma intrínseca cierto nivel de robustez. Esta evaluación servirá de referencia en la construcción de sistemas de reconocimiento de locutor, los cuales incluyan sistemas de mejora de voz para disminución del ruido.
- English
  This document proposes the evaluation of speaker recognition systems based on the LPC (Linear Predicting Coding), CC (Cepstral Coefficients) and MFCC (Mel Frequency Cepstral Coefficients) algorithms, used in the extraction of voice parameters. The evaluation, following an experimental quantitative methodology, consists of determining the change in performance when the input signal is exposed to different noise conditions (crowd and Gaussian noise), namely, at different levels of SNR, comparing the verification results for 2 speakers. Although all the systems decrease their performance in noisy environments, each one possesses intrinsically a certain level of robustness. This evaluation will serve as a reference in the construction of speaker recognition systems, which include voice enhancement systems to reduce noise.