Deep Voiceprint: un sistema de integración de huellas de voz neuronales de extremo a extremo

Resumen:

Introducción: Este artículo propone Deep Speaker, un sistema de integración de altavoces neuronales que utiliza redes neuronales. El sistema organiza las expresiones en una hiperesfera y, en esta hiperesfera, la similitud del hablante se calcula mediante la similitud del coseno.

Escenarios de aplicación: identificación, confirmación y agrupamiento de locutores.

Método: utilice estructuras Reskern y GRU para extraer características acústicas, utilice agrupación media para generar incrustaciones de altavoces de nivel acústico y utilice pérdida triple basada en la similitud del coseno para el entrenamiento.

Resultados: Los resultados experimentales en tres conjuntos de datos diferentes muestran que Deep Speaker supera la línea base i-vector basada en DNN. Por ejemplo, en conjuntos de datos independientes del texto, la tasa de error de autenticación se reduce relativamente en un 50% y la tasa de precisión del reconocimiento aumenta en un 60%. Además, los experimentos muestran que los modelos entrenados en mandarín pueden mejorar la precisión del reconocimiento de los hablantes de inglés.

1, Introducción

Punto de conocimiento básico 1: Identificación del hablante

El algoritmo se utiliza para identificar a los hablantes a partir de datos de audio. Hay dos tipos principales: uno es la verificación del hablante, el otro es la verificación de la identidad del hablante (dos tareas de clasificación, ya sea el hablante), la otra es la identificación del hablante, la identificación del hablante (múltiples tareas de clasificación, quién habla);

Punto de conocimiento básico 2: hablante

El reconocimiento se divide en dos categorías según los datos de entrada: una es el reconocimiento dependiente del texto, que requiere que el hablante pronuncie una oración específica; Es independiente del texto. Identifique, solo dígalo de manera informal, no se requiere contenido específico.

Cita de la industria 1: La identificación de los hablantes sigue siendo una tarea desafiante.

Punto de conocimientos básicos 3: Hablantes tradicionales

La identificación se basa en el vector I y en el Análisis discriminante lineal probabilístico (PLDA). El marco se divide principalmente en tres pasos: 1. Recopilar datos estadísticos suficientes; 2. Extraer la incrustación del hablante (I vector);

Punto de conocimiento básico 4: las estadísticas oficiales (también conocidas como estadísticas de Baum-Welch) se pueden calcular utilizando el modelo de mezcla gaussiana-modelo de fondo universal (GMM-UBM). El modelo se optimiza mediante el uso de vectores de características de tipo secuencia (por ejemplo, coeficientes de frecuencia Cepstrum de Mel, MFCC). Recientemente, también se han utilizado redes neuronales profundas (DNN) para extraer estadísticas de superficie.

Punto de conocimiento básico 5: Los tres pasos anteriores del método tradicional son independientes entre sí. Los métodos basados ​​en DNN pueden combinar el primer y segundo paso del entrenamiento, y los vectores a nivel de cuadro proporcionados por la capa de cuello de botella intermedia se pueden usar para hablantes no incluidos en el conjunto de entrenamiento. Sin embargo, este método tiene al menos dos problemas importantes: (1) los pasos 1 y 2 no están optimizados directamente para el reconocimiento del hablante (2) la capacitación y las pruebas no coinciden; El entrenamiento usa etiquetas a nivel de marco, mientras que las pruebas usan etiquetas a nivel de expresión.

Descripción general de la estructura del algoritmo de este artículo 1: (1) Utilice DNN (ResCNN y GRU) para extraer características a nivel de cuadro de los patrones de voz. (2) Las capas de agrupación y normalización de longitud generan incrustaciones de altavoces con nivel de expresión. (3) El modelo utiliza entrenamiento de triple pérdida, es decir, minimiza la distancia entre pares de vectores del mismo hablante y maximiza la distancia entre pares de vectores de diferentes hablantes. (4) Utilice la capa softmax y la entropía cruzada para mejorar el rendimiento del modelo.

Punto de conocimiento básico 6: CNN puede reducir eficazmente la variación espectral de las características del sonido y modelar la correlación espectral de las características del sonido.

Los detalles estructurales del algoritmo en este artículo son 1: A diferencia de la función de pérdida similar a PLDA, la función de pérdida en este artículo es la similitud del vector de incrustación entrenado por DNN en este artículo, que puede reflejan directamente la similitud.

Detalles de la estructura del algoritmo de este artículo 2: el muestreo negativo global se utiliza para reemplazar el muestreo negativo del mismo pequeño lote de datos de entrenamiento para mejorar la velocidad del entrenamiento.

La conclusión de este artículo es 1: el altavoz profundo es significativamente mejor que el i-vector basado en DNN.

Sistema de reconocimiento de locutor independiente del texto, los hablantes profundos pueden alcanzar la base en el reconocimiento dependiente del texto, y el reconocimiento dependiente del texto se puede mejorar si se adopta un modelo de depuración independiente del texto.

Conclusión 2: (1) Deep Speaker funciona bien con datos a gran escala; (2) La transferencia entre diferentes idiomas funciona bien.

2. Trabajos relacionados

Punto de conocimiento básico 7: PLDA se puede utilizar para calcular la similitud de vectores, y sus métodos variantes incluyen PLDA de cola pesada y PLDA gaussiano.

3. Altavoz de profundidad

Estructura general:

3.1?Estructura DNN

3.1.1 CNN residual

Normalización por lotes: Empleamos normalización por lotes secuencial (bn) entre convolución y no linealidad, siguiendo [18].

Active la función lineal de rectificación limitadora (relu):

3.1.2 GRU

GRU adopta GRU de solo avance;;

BN y ReLu recortado también se utilizan entre capas.

3.2 Incrustación de altavoces

3.3 Triple pérdida y selección

Fórmula de cálculo de similitud:

Fórmula de función de pérdida:

Entre ellos,

Nota importante: busque muestras negativas en todo el mundo, no solo en este lote.

Para conocer la pérdida de tripletes, consulte /jcjx 0315/article/details/77160273.

3.4 Preentrenamiento de Softmax

Preentrenamiento (inicializando los pesos del entrenamiento formal con los pesos obtenidos del preentrenamiento): Utilice capas de clasificación en lugar de longitudes (entropía cruzada soft max )? Capas de normalización y pérdida de triplete.

Beneficios del preentrenamiento:

Nota: Hay líneas de preentrenamiento, las primeras 10 veces son preentrenamiento softmax y las últimas 15 veces son entrenamiento formal triple, lo que da como resultado. en mutaciones en ACC y EER.