Estructura del sistema de reconocimiento de voz del chip de reconocimiento de voz

Un sistema completo de reconocimiento de voz basado en estadísticas se puede dividir aproximadamente en tres partes:

(1) Preprocesamiento de señales de voz y extracción de características (2) Modelo acústico y coincidencia de patrones (3) Modelo de lenguaje y selección de; Las unidades de reconocimiento para el procesamiento del lenguaje son el primer paso en la investigación del reconocimiento de voz. Hay tres tipos de unidades de reconocimiento de voz: palabras (oraciones), sílabas y fonemas. Cuál elegir depende de la tarea de investigación específica.

Las unidades de palabras (oraciones) se utilizan ampliamente en sistemas de reconocimiento de voz con vocabulario pequeño y mediano. Sin embargo, debido a la gran biblioteca de modelos, las pesadas tareas del modelo de entrenamiento y los complejos algoritmos de coincidencia de modelos, es difícil cumplirlas. requisitos en tiempo real y no es adecuado para sistemas de reconocimiento de voz a gran escala.

Las unidades silábicas son relativamente comunes en el reconocimiento de voz chino, principalmente porque el chino es un idioma monosilábico, mientras que el inglés es un idioma polisilábico, y aunque el chino tiene alrededor de 1.300 sílabas, hay 408 sílabas atonales, aproximadamente una, si. No se considera el tono, relativamente pocos. Por lo tanto, para los sistemas de reconocimiento de voz chinos con vocabulario medio y largo, es básicamente factible utilizar sílabas como unidad de reconocimiento.

Las unidades de fonema alguna vez fueron comunes en la investigación de reconocimiento de voz en inglés, pero ahora también se utilizan cada vez más los sistemas de reconocimiento de voz en chino con vocabulario medio y largo. La razón es que las sílabas chinas sólo constan de consonantes iniciales (incluidas 22 consonantes iniciales cero) y finales (28 * * *), y las características acústicas de las vocales son bastante diferentes. En aplicaciones prácticas, las consonantes iniciales a menudo se forman en consonantes iniciales refinadas basadas en diferentes vocales, lo que aumenta el número de modelos pero mejora la capacidad de distinguir sílabas que se confunden fácilmente. Debido a la influencia de la coarticulación, las unidades de fonema son inestables y aún queda por estudiar cómo obtener unidades de fonema estables. Una cuestión fundamental en el reconocimiento de voz es la selección razonable de funciones. El propósito de la extracción de parámetros de características es analizar y procesar la señal de voz, eliminar información redundante irrelevante para el reconocimiento de voz, obtener información importante que afecta el reconocimiento de voz y comprimir la señal de voz al mismo tiempo. En aplicaciones prácticas, la relación de compresión de las señales de voz está entre 10 y 100. Las señales de voz contienen mucha información diferente. Qué información extraer y cómo extraerla requiere una consideración exhaustiva de varios factores, como el costo, el rendimiento, el tiempo de respuesta, el monto del cálculo, etc. Los sistemas de reconocimiento de voz no específicos generalmente se centran en extraer parámetros de características que reflejan la semántica e intentan eliminar la información personal del hablante; mientras que los sistemas de reconocimiento de voz de personas específicas esperan extraer parámetros de características que reflejan la semántica y también incluyen la información personal del hablante tanto como sea posible. .

La tecnología de análisis de predicción lineal (LP) es actualmente una tecnología de extracción de parámetros de características ampliamente utilizada. Muchos sistemas de aplicaciones exitosos utilizan parámetros de cepstrum extraídos en función de la tecnología LP. El modelo de predicción lineal es un modelo puramente matemático y no tiene en cuenta las características de procesamiento del habla del sistema auditivo humano.

El parámetro Mel y el cepstrum de predicción lineal perceptual extraídos en base al análisis de predicción lineal perceptual (PLP) simulan las características de procesamiento del habla del oído humano hasta cierto punto y aplican algunos resultados de investigación a la audición del oído humano. Los experimentos muestran que esta tecnología mejora el rendimiento de los sistemas de reconocimiento de voz. A juzgar por la situación actual, los parámetros cepstrum de la escala Mel han reemplazado gradualmente los parámetros cepstrum derivados de la codificación de predicción lineal, porque tiene en cuenta las características de la producción y recepción del habla humana y tiene mayor robustez.

Algunos investigadores han intentado aplicar la tecnología de análisis wavelet para la extracción de características, pero actualmente el rendimiento es difícil de comparar con la tecnología anterior y requiere más investigación. Los modelos acústicos normalmente se generan entrenando las características del habla obtenidas con un algoritmo de entrenamiento. En el reconocimiento, las características del habla de entrada se comparan con modelos acústicos (patrones) para obtener los mejores resultados de reconocimiento.

El modelo acústico es el modelo subyacente del sistema de reconocimiento y la parte más crítica del sistema de reconocimiento de voz. El propósito del modelo acústico es proporcionar una manera eficiente de calcular la distancia entre una secuencia de vectores de características del habla y cada plantilla de articulación. El diseño de modelos acústicos está estrechamente relacionado con las características de la pronunciación del lenguaje. El tamaño de la unidad del modelo acústico (modelo de pronunciación de palabras, modelo semisilábico o modelo de fonemas) tiene un gran impacto en el tamaño de los datos de entrenamiento del habla, la tasa de reconocimiento del sistema y la flexibilidad. El tamaño de la unidad de reconocimiento debe determinarse en función de las características de los diferentes idiomas y del vocabulario del sistema de reconocimiento.

Tomemos el chino como ejemplo:

El chino se divide en consonantes, vocales simples, vocales compuestas y terminaciones nasales compuestas según las características de pronunciación de los fonemas, y se divide en consonantes iniciales y finales según la estructura de la sílaba. Los fonemas forman consonantes iniciales o finales. Las vocales que contienen tonos a veces se denominan vocales tonales. Las sílabas se componen de sonidos únicos o iniciales y finales. Una sílaba en chino es el sonido de una palabra china, es decir, una palabra silábica. Las palabras se componen de sílabas y finalmente las oraciones se componen de palabras.

El chino tiene 22 consonantes iniciales * * *, incluidas cero consonantes iniciales y 38 finales * * *. Según la clasificación de los fonemas, las consonantes chinas * * *, 13 vocales simples, 13 vocales compuestas y 16 codas nasales compuestas.

Las primitivas del modelo acústico más utilizadas actualmente son vocales, sílabas o palabras, y se seleccionan diferentes primitivas de acuerdo con diferentes propósitos de implementación. El chino con partículas modales * * * tiene 412 sílabas, incluidos caracteres de tonos suaves, y * * * tiene 1282 sílabas con tonos. Por lo tanto, en el reconocimiento de voz de palabras aisladas con un vocabulario reducido, las palabras se utilizan a menudo como primitivas, en el reconocimiento de voz con un vocabulario amplio, a menudo se utilizan sílabas o vocales, y en el reconocimiento de voz continuo, debido a la influencia de la pronunciación coordinada, sílabas o A menudo se utilizan vocales.

El modelo HMM λ (N, M, π, A, B) es un modelo comúnmente utilizado en modelos de reconocimiento de voz basados ​​en estadísticas. Las teorías relacionadas con el modelo HMM incluyen la selección de la estructura del modelo, la inicialización del modelo. y reinicio de parámetros del modelo y algoritmos de identificación correspondientes. Los modelos de lenguaje incluyen redes gramaticales compuestas por comandos de reconocimiento de voz o modelos de lenguaje compuestos por métodos estadísticos, y el procesamiento del lenguaje puede realizar análisis gramatical y semántico.

Los modelos de lenguaje son particularmente importantes para los sistemas de reconocimiento de voz con vocabulario medio y largo. Cuando ocurren errores de clasificación, se pueden realizar juicios y correcciones basándose en modelos de lenguaje, estructuras gramaticales y semántica. En particular, algunos homófonos solo pueden determinarse a través de estructuras contextuales. La teoría lingüística incluye la estructura semántica, las reglas gramaticales y los modelos matemáticos de descripción del lenguaje. Actualmente, los modelos de lenguaje más exitosos suelen ser modelos de lenguaje de gramática estadística y modelos de lenguaje de comandos basados ​​en estructuras gramaticales regulares. La estructura gramatical puede limitar la interconexión entre diferentes palabras, reducir el espacio de búsqueda del sistema de reconocimiento y ayudar a mejorar la tasa de reconocimiento del sistema.