El proceso y método de reconocimiento de voz son los siguientes:
Proceso de reconocimiento de voz
1. Recolección de señales de voz
Recopilación de señales de voz son los requisitos previos del procesamiento de señales de voz. Por lo general, la voz se introduce en la computadora a través de un micrófono. El micrófono convierte la onda de sonido en una señal de voltaje, que luego es muestreada por un dispositivo A/D (como una tarjeta de sonido), convirtiendo así la señal de voltaje continuo en una señal digital que la computadora puede procesar.
Actualmente los ordenadores multimedia se han popularizado mucho, y las tarjetas de sonido, altavoces, micrófonos, etc. son ya equipamiento básico de los ordenadores personales. La tarjeta de sonido es una parte importante de la computadora para procesar la información de voz. Tiene funciones como filtrado de señal, amplificación, conversión A/D y D/A. Además, los sistemas operativos modernos vienen con software de grabación, que puede hacer que la tarjeta de sonido recopile señales de voz y las guarde como archivos de voz.
Para situaciones en las que el entorno in situ no es bueno o el espacio es limitado, especialmente para muchos equipos especiales, actualmente se utilizan ampliamente sistemas de adquisición y procesamiento de señales de voz basados en microcontroladores y chips DSP.
2. Preprocesamiento de la señal de voz
Una vez recopilada la señal de voz, primero debe someterse a un preprocesamiento, como filtrado, conversión A/D, preénfasis y detección de punto final, y luego ingresar a aplicaciones prácticas. tales como reconocimiento, síntesis y mejora.
El propósito del filtrado es doble: uno es suprimir todos los componentes de la señal de entrada con frecuencias superiores a //2 (/: es la frecuencia de muestreo) para evitar interferencias de aliasing; el otro es suprimir los 50 Hz; Interferencia de frecuencia de la fuente de alimentación. Por lo tanto, el filtro debe ser un filtro de paso de banda.
La conversión A/D consiste en convertir la señal de voz analógica en una señal digital. La señal debe cuantificarse durante la conversión A/D. La diferencia entre el valor de la señal cuantificada y el valor de la señal original es el error de cuantificación, también conocido como ruido de cuantificación.
El propósito del procesamiento de preénfasis es mejorar la parte de alta frecuencia, hacer que el espectro de la señal sea plano y mantenerlo en toda la banda de frecuencia desde la baja hasta la alta frecuencia. La relación ruido/ruido se puede utilizar para obtener el espectro, lo que facilita el análisis del espectro.
La detección de punto final consiste en determinar el punto de inicio y el punto final de la voz a partir de una señal que contiene voz. La detección eficaz de puntos finales no solo reduce el tiempo de procesamiento, sino que también elimina la interferencia de ruido de los segmentos silenciosos. Actualmente existen dos tipos principales de métodos: métodos de características en el dominio del tiempo y métodos de características en el dominio de la frecuencia.
El método de función de dominio del tiempo utiliza el volumen de voz y la tasa de cruce por cero para la detección de puntos finales. La cantidad de cálculo es pequeña, pero provocará un error de cálculo de los sonidos del aire y diferentes cálculos de volumen también provocarán diferentes resultados de detección. El método de características en el dominio de la frecuencia utiliza la variación del espectro del sonido y la detección de entropía para la detección del habla, lo que requiere una gran cantidad de cálculos.
3. Extracción de parámetros característicos de las señales del habla.
La frecuencia del habla humana es inferior a 10 kHz. Según el teorema de muestreo de Shannon, para que los datos muestreados de la señal de voz contengan la información de las palabras requeridas, la frecuencia de muestreo de la computadora debe ser más del doble de la frecuencia de voz más alta contenida en la señal de voz que debe grabarse. .
Generalmente, la señal se divide en varios bloques, y cada bloque de la señal se denomina cuadro. Para garantizar que la información importante que pueda caer en el borde del cuadro no se pierda, los cuadros. deben superponerse. Por ejemplo, cuando se utiliza una frecuencia de muestreo de 20 kHz, un cuadro estándar es de 10 ms y contiene 200 valores de muestra.
Los dispositivos de entrada de voz, como los micrófonos, pueden recopilar formas de onda de sonido. Aunque las formas de onda de estos sonidos contienen la información de las palabras requeridas, no se puede obtener mucha información observando estas formas de onda a simple vista. Es necesario obtener la información de los datos muestreados. Extraer información de características que pueda ayudar a identificar palabras. En el reconocimiento de voz, la tecnología de codificación predictiva lineal se utiliza habitualmente para extraer características del habla.
La idea básica de la codificación predictiva lineal es: existe una correlación entre los puntos de muestreo de la señal de voz y la combinación lineal de varios puntos de muestreo pasados se puede utilizar para predecir los valores de los puntos de muestreo actuales y futuros. . El coeficiente de predicción lineal se determina únicamente minimizando el error cuadrático medio entre la señal predicha y la señal real.
Como parámetro característico de las señales de voz, el coeficiente de predicción lineal del habla se ha utilizado ampliamente en diversos campos del procesamiento del habla.
4. Cuantización vectorial
La tecnología de cuantización vectorial (VQ) es una tecnología de codificación y compresión de datos desarrollada a finales de la década de 1970. Los vectores de características cuantificadas también se pueden utilizar como símbolos de observación de entrada en el modelo oculto de Markov posterior.
En la cuantificación escalar, todo el rango dinámico se divide en varios intervalos pequeños. Cada intervalo pequeño tiene un valor representativo. Para una señal escalar de entrada, el valor que cae en el intervalo pequeño durante la cuantificación utiliza este valor representativo. .gt;[Goti. Debido a que el semáforo en este momento es un escalar unidimensional, se llama cuantificación escalar.
El concepto de cuantificación vectorial es utilizar la perspectiva del espacio lineal para cambiar el escalar a un vector unidimensional y cuantificar el vector. Al igual que la cuantificación escalar, la cuantificación vectorial divide el espacio vectorial en varias áreas pequeñas. Cada área pequeña encuentra un vector representativo. Los vectores que caen en el área pequeña durante la cuantificación se reemplazan por este vector representativo.
El principio básico de la cuantificación vectorial es combinar varios datos escalares en un vector (o un vector de características extraído de un marco de datos de voz) y cuantificarlo como un todo en un espacio multidimensional, de modo que la pérdida de información puede ser pequeña. La cantidad de datos a comprimir.
Reconocimiento de voz
1. Método de coincidencia de plantillas
En la fase de entrenamiento, el usuario pronuncia cada palabra del vocabulario por turno y su vector de características se almacena. en la biblioteca de plantillas como plantilla. En la etapa de reconocimiento, la secuencia de vectores de características del habla de entrada se compara con cada plantilla en la biblioteca de plantillas para determinar su similitud, y la que tiene la mayor similitud se genera como resultado del reconocimiento.
2. Método del modelo estocástico
El método del modelo estocástico es la corriente principal de la investigación actual sobre reconocimiento de voz. Su representante destacado es el modelo oculto de Markov. Las características de la señal de voz en un período de tiempo suficientemente corto son aproximadamente estables, y el proceso general puede verse como una transición relativamente estable de una característica a otra en secuencia. El modelo oculto de Markov utiliza métodos estadísticos y de probabilidad para describir dicho proceso que varía en el tiempo.
3. Método de análisis de sintaxis probabilístico
Este método se utiliza para el reconocimiento de voz continuo en un rango de longitud amplio. Al estudiar diferentes espectrogramas del habla y sus cambios, los fonetistas han descubierto que, aunque existen diversas diferencias en los espectrogramas correspondientes y cambios cuando diferentes personas pronuncian los mismos sonidos, siempre hay algunas características únicas que son suficientes para distinguirlos de otros. sonidos del habla, que es el "rasgo distintivo" propuesto por los fonetistas.
Por otro lado, el lenguaje humano está sujeto a morfología, gramática, semántica, etc., y los humanos aplican plenamente estas limitaciones e información relevante sobre el entorno de la conversación en el proceso de reconocimiento del habla.
Por lo tanto, al combinar las "características distintivas" propuestas por los expertos en reconocimiento de voz con restricciones pragmáticas de formación de palabras, sintaxis, semántica, etc., se puede crear un modelo "de abajo hacia arriba" o "de arriba hacia abajo". formado "Sistema de conocimiento interactivo, diferentes niveles de conocimiento pueden ser descritos por varias reglas".