Tendencias de desarrollo de la tecnología de reconocimiento de voz

La tendencia de desarrollo de la tecnología de reconocimiento de voz es que los escenarios de aplicación son cada vez más abundantes.

En los últimos dos años, el reconocimiento automático de voz ha experimentado importantes avances comerciales. Uno de los indicadores es que se han lanzado con éxito muchos modelos ASR de nivel empresarial basados ​​completamente en redes neuronales, como Alexa, Rev, AssemblyAI, ASAPP, etc. Microsoft Research publicó un artículo en 2016, anunciando que sus modelos han logrado el éxito en el conjunto de datos de la centralita de 25 años alcanzó el nivel humano.

A medida que la precisión del reconocimiento de la tecnología ASR ha mejorado enormemente y los escenarios de aplicación se han vuelto cada vez más abundantes, creemos que aún no es el pico de la comercialización de ASR, y la investigación y las aplicaciones de mercado en este campo han aún por explorar. Se espera que en los próximos diez años, los sistemas comerciales y de investigación relacionados con la voz de IA se centren en las siguientes cinco áreas, como modelos ASR multilingües, objetos de salida estandarizados enriquecidos, ASR a gran escala para todos, colaboración hombre-máquina. y ASR responsable.

Conceptos básicos del reconocimiento de voz

El reconocimiento de voz es un tema interdisciplinario que involucra psicología, fisiología, acústica, lingüística, teoría de la información, procesamiento de señales, informática, reconocimiento de patrones y otras disciplinas. Tiene amplias perspectivas de aplicación, como recuperación de voz, control de comandos, atención automática al cliente, traducción automática, etc. Hoy en día, el rápido desarrollo de la sociedad de la información requiere con urgencia una tecnología de reconocimiento automático de voz con un rendimiento superior que pueda satisfacer diversas necesidades.

La exploración del reconocimiento automático de voz en realidad es anterior a la aparición de las computadoras. Los primeros vocoder pueden considerarse como el prototipo de la tecnología de reconocimiento y síntesis de voz. El perro de juguete Radio Rex que apareció en el siglo XX puede ser la máquina de reconocimiento de voz más antigua de la historia de la humanidad. La tecnología moderna de reconocimiento automático de voz se remonta a la década de 1950. Los investigadores de Bell Labs utilizaron componentes analógicos para extraer y analizar la información de formantes de las vocales y realizaron la función de reconocimiento de diez dígitos aislados en inglés.