Máquina de dictado: un sistema de reconocimiento de voz continuo, no específico y con un amplio vocabulario, a menudo se denomina máquina de dictado. Su arquitectura se basa en la topología HMM del modelo acústico y del modelo de lenguaje antes mencionados. Durante el entrenamiento, los parámetros del modelo se obtienen mediante un algoritmo hacia adelante y hacia atrás para cada primitiva. Durante el reconocimiento, las primitivas se concatenan en palabras, se agrega un modelo silencioso entre palabras y se introduce un modelo de lenguaje como la probabilidad de transición entre palabras para formar una estructura cíclica, que se decodifica utilizando el algoritmo de Viterbi. Dado que el chino es fácil de segmentar, segmentar primero y luego decodificar segmento por segmento es un método simplificado para mejorar la eficiencia.
Sistema de diálogo: el sistema utilizado para realizar el diálogo hablado entre humanos y computadoras se denomina sistema de diálogo. Limitados por la tecnología actual, los sistemas de diálogo son a menudo sistemas orientados a un campo limitado con vocabulario limitado, y sus temas incluyen consultas de viajes, reservas, recuperación de bases de datos, etc. Su interfaz es un reconocedor de voz, que reconoce los N mejores candidatos o cuadrículas de palabras candidatas generadas, los analiza mediante el analizador para obtener información semántica y luego determina la información de respuesta del administrador de diálogo, que es generada por el sintetizador de voz. Debido a que los sistemas actuales suelen tener un vocabulario limitado, también podemos obtener información semántica extrayendo palabras clave.