Dejar que las computadoras escuchen, vean, hablen y sientan es la dirección de desarrollo futuro de la interacción persona-computadora. Entre ellos, la voz es el método de interacción persona-computadora más prometedor en el futuro. otros métodos de interacción.
La primera tecnología de voz se originó a partir del proyecto "Traducción telefónica automática", que incluye tres tecnologías muy importantes: reconocimiento de voz, comprensión del lenguaje natural y síntesis de voz. La investigación sobre el reconocimiento de voz se remonta al sistema Audry de los Laboratorios AT&T Bell en la década de 1950. Desde entonces, los investigadores han superado gradualmente los tres obstáculos principales: vocabulario extenso, pronunciación continua y no hablantes.
Hacer que las computadoras hablen requiere tecnología de síntesis de voz, cuyo núcleo es la tecnología TexttoSpeech. La síntesis de voz se ha aplicado incluso a los sistemas de información de los automóviles. Los propietarios de automóviles pueden convertir en voz archivos de texto, correos electrónicos, noticias o novelas en línea descargadas en la computadora del sistema y escucharlos en el automóvil.