El fondo del chip de síntesis de voz

Con el aumento de funciones de diversos electrodomésticos y equipos montados en vehículos, la controlabilidad del equipo se vuelve cada vez más compleja; el diseño de interacción persona-computadora juega un papel cada vez más importante en el diseño del sistema. Debido a diversas restricciones, como el costo y el volumen del sistema, no existen muchos métodos de diseño de interacción persona-computadora entre los que los desarrolladores de aplicaciones puedan elegir. El método de utilizar chips de síntesis de voz para mejorar el rendimiento de la interacción persona-computadora ha comenzado a atraer nuevamente la atención de los desarrolladores de aplicaciones.

La tecnología central del chip de síntesis de voz es la compresión de datos de voz. Esta tecnología comenzó a investigarse antes de la Segunda Guerra Mundial, pero no fue hasta finales de la década de 1970 que se convirtió en chips y se adoptó en productos reales. Debido a la limitación de la capacidad de la memoria, el método popular en ese momento era el método de síntesis paramétrica, que era un método para simular órganos vocales humanos, establecer un modelo matemático y usarlo como parámetros para la síntesis por compresión. Sin embargo, el efecto real de este método no puede satisfacer las necesidades de la gente. Lo que finalmente se reconoció en el mercado fue el método de síntesis de compresión de voz basado en la tecnología ADPCM (Adaptive Differential PCM).

OKI se ha dedicado a la investigación y el desarrollo de ADPCM desde la década de 1970, y ha seguido mejorándolo, lanzando sucesivamente los métodos OKI ADPCM y OKI ADPCM2 con mayores tasas de compresión y mayor calidad de sonido. Los clientes han reconocido la perfecta calidad de sonido y el excelente rendimiento de los chips de voz de OKI. Los envíos acumulados en 25 años han alcanzado los 400 millones. Un chip de síntesis de voz de alta calidad mejora el rendimiento de la interacción persona-computadora Cuando se utilizan chips de síntesis de voz, el mayor dolor de cabeza para los desarrolladores de aplicaciones es cómo incluir más datos de voz en una memoria limitada. El enfoque habitual es cortar los lugares repetidos en el contenido de reproducción y reutilizar el contenido repetido cuando sea necesario. Aunque este método puede resolver el problema, en el uso general, si hay una gran cantidad de segmentos de voz que deben reutilizarse, el programa de control de reproducción será muy largo. Además, al multiplexar en diferentes lugares, habrá cambios sutiles en el tono, la velocidad del habla, etc. Si estos cambios no se tratan de manera diferente, causarán falta de naturalidad y distorsión durante la reproducción. Por lo tanto, es necesario agregar diferentes retrasos de manera adecuada al reproducir contenido diferente. Por ejemplo, al implementar el contenido de reproducción en la Figura 1, el programa generalmente debe escribirse en la siguiente forma. Reproducir(Dirección1); Retrasar(xxx); Reproducir(Dirección2); Reproducir(Dirección4); Reproducir(Dirección5); Y dado que la MCU debe operar la línea de control correspondiente o IO cuando se emite el comando de reproducción, el uso repetido del comando también es un desperdicio de recursos de la CPU. Lo peor es que durante la ejecución del comando de reproducción, si se produce una interrupción u otro accidente, es fácil que se produzcan anomalías en la reproducción.