Según las diferentes aplicaciones prácticas del reconocimiento de voz, los sistemas de reconocimiento de voz se pueden dividir en: reconocimiento de voz de personas específicas y personas no específicas, reconocimiento de voz de palabras independientes y palabras continuas, vocabulario pequeño y vocabulario grande. y reconocimiento de voz con vocabulario ilimitado. Pero no importa qué tipo de sistema de reconocimiento de voz, sus principios básicos y métodos de procesamiento son generalmente los mismos. Principio del reconocimiento de voz Una vez que se introduce la señal de voz, el preprocesamiento y la digitalización son requisitos previos para el reconocimiento de voz. Entre ellos, el preprocesamiento implica principalmente el filtrado previo para retener la señal de voz de 300-3400 Hz de personas normales; la digitalización implica la conversión A/D y el procesamiento antialiasing es un paso esencial para el entrenamiento y el reconocimiento de la señal de voz. Los parámetros que pueden reflejar las características de las señales de voz incluyen: (1) parámetros cepstrum basados en LPC; (2) parámetros cepstrales de coeficientes Mel; (3) métodos de análisis de características que utilizan tecnología de procesamiento de señales digitales de vanguardia, como el análisis de ondas y el tiempo. /frecuencia Análisis de dominio, redes neuronales artificiales, etc. Este artículo utiliza el método de representación de parámetros cepstrum basado en LPC, y los valores de características extraídos se almacenan en la biblioteca de patrones de referencia para que coincidan con los valores de características de la señal de voz que se va a reconocer. El cálculo de coincidencia es la parte central del reconocimiento de voz. Después de la extracción de características, el habla de la persona a reconocer se compara con la plantilla generada durante el entrenamiento del sistema, el modelo correspondiente al modelo con mayor similitud con el habla. Se toma el habla como resultado del reconocimiento, este es todo el proceso de reconocimiento de voz. La tecnología de reconocimiento de voz se divide en reconocimiento de voz específico de una persona y reconocimiento de voz no específico de una persona según las categorías de aplicaciones. La tecnología de reconocimiento de voz de persona específica es para el reconocimiento de voz de la persona designada. El juguete no reconoce las palabras de otras personas. El modo de aplicación requiere el proceso de entrenamiento del habla de la persona designada antes de su uso. veces de acuerdo con las indicaciones del juguete, y luego se puede usar. El reconocimiento de voz no específico es una tecnología de reconocimiento que no se dirige a personas específicas, independientemente de su edad o sexo, siempre que hablen el mismo idioma. recopile alrededor de 200 personas en función de una docena de entradas de interacción de voz antes de finalizar el producto. Las muestras de sonido son procesadas por nuestro algoritmo de PC para obtener el modelo de voz y la base de datos de características de los términos interactivos, y luego se graban en nuestros chips. Nuestros chips tendrán funciones interactivas. Algunas aplicaciones de reconocimiento de voz no específicas de personas son algoritmos basados en fonemas. En este modo, el reconocimiento interactivo se puede realizar sin recopilar muestras de voz de muchas personas. Sin embargo, la desventaja es que la tasa de reconocimiento no es alta y el rendimiento del reconocimiento es inestable. En el campo de las PC, el software Word de Microsoft cuenta con tecnología de reconocimiento de voz