Implementación del sistema de reconocimiento de voz

Los requisitos para seleccionar primitivas de reconocimiento para un sistema de reconocimiento de voz son que estén definidas con precisión, puedan obtener suficientes datos para el entrenamiento y sean versátiles. El inglés suele utilizar modelos de fonemas sensibles al contexto, mientras que el chino tiene homófonos menos severos que el inglés, por lo que se pueden utilizar modelos de sílabas. El tamaño de los datos de entrenamiento requeridos por el sistema está relacionado con la complejidad del modelo. El diseño del modelo es demasiado complejo y excede las capacidades de los datos de entrenamiento proporcionados, lo que resulta en una fuerte caída en el rendimiento.

Máquina de dictado: un sistema de reconocimiento de voz continuo, no específico y con un amplio vocabulario, a menudo se denomina máquina de dictado. Su arquitectura se basa en la topología HMM del modelo acústico y del modelo de lenguaje antes mencionados. Durante el entrenamiento, los parámetros del modelo se obtienen mediante un algoritmo hacia adelante y hacia atrás para cada primitiva. Durante el reconocimiento, las primitivas se concatenan en palabras, se agrega un modelo silencioso entre palabras y se introduce un modelo de lenguaje como la probabilidad de transición entre palabras para formar una estructura cíclica, que se decodifica utilizando el algoritmo de Viterbi. Dado que el chino es fácil de segmentar, segmentar primero y luego decodificar segmento por segmento es un método simplificado para mejorar la eficiencia.

Sistema de diálogo: el sistema utilizado para realizar el diálogo hablado entre humanos y computadoras se denomina sistema de diálogo. Limitados por la tecnología actual, los sistemas de diálogo son a menudo sistemas orientados a un campo limitado con vocabulario limitado, y sus temas incluyen consultas de viajes, reservas, recuperación de bases de datos, etc. Su interfaz es un reconocedor de voz, que reconoce los N mejores candidatos o cuadrículas de palabras candidatas generadas, los analiza mediante el analizador para obtener información semántica y luego determina la información de respuesta del administrador de diálogo, que es generada por el sintetizador de voz. Debido a que los sistemas actuales suelen tener un vocabulario limitado, también podemos obtener información semántica extrayendo palabras clave.

上篇: ¿Quién tiene la mejor espalda entre las tres chicas? 下篇: Ayúdenme a traducir este artículo al inglés.