La activación por voz significa que en el estado de espera, el usuario pronuncia un comando específico (palabra de activación) para que el dispositivo entre en estado de funcionamiento o complete una operación; actualmente se usa más en teléfonos móviles; dispositivos portátiles, dispositivos montados en vehículos, hogar inteligente, etc.
La tecnología de reconocimiento de voz, también conocida como reconocimiento automático de voz, tiene como objetivo convertir el contenido léxico del habla humana en datos legibles por computadora, como pulsaciones de teclas, códigos binarios o secuencias de caracteres. Es diferente de la identificación y verificación del hablante, que intentan identificar o confirmar al hablante del discurso en lugar del contenido léxico que contiene.
La comprensión del habla significa que la máquina puede comprender naturalmente las necesidades del usuario en combinación con el contexto y puede brindar comentarios correctos y humanizados.
La síntesis de voz es una tecnología que produce habla artificial mediante métodos mecánicos y electrónicos. Los puntos clave de la síntesis del habla son la simulación de la voz humana, la coherencia, la fluidez, la estabilidad y la emoción. La síntesis de voz, también conocida como tecnología de texto a voz, puede convertir cualquier información de texto en voz estándar y fluida en tiempo real, lo que equivale a instalar una boca artificial en la máquina.