Solicitud de tesis (reconocimiento de voz)

Ha sido un viejo sueño de la gente comunicarse con las máquinas a través de la voz y dejar que las máquinas entiendan lo que estás diciendo. La tecnología de reconocimiento de voz es una alta tecnología que permite a las máquinas convertir señales de voz en texto o comandos correspondientes mediante el proceso de reconocimiento y comprensión. El reconocimiento de voz es un tema interdisciplinario. Durante las últimas dos décadas, la tecnología de reconocimiento de voz ha logrado avances significativos y está comenzando a pasar del laboratorio al mercado. Se predice que en los próximos 10 años, la tecnología de reconocimiento de voz ingresará a diversos campos como la industria, los electrodomésticos, las comunicaciones, la electrónica automotriz, la atención médica, los servicios domésticos y la electrónica de consumo.

La aplicación de máquinas de dictado con reconocimiento de voz en determinados campos fue calificada por la prensa estadounidense como uno de los diez principales acontecimientos en el desarrollo informático en 1997. Muchos expertos creen que la tecnología de reconocimiento de voz es uno de los diez avances tecnológicos importantes en el campo de la tecnología de la información entre 2000 y 2010.

Los campos implicados en la tecnología de reconocimiento de voz incluyen: procesamiento de señales, reconocimiento de patrones, teoría de la probabilidad y teoría de la información, mecanismo vocal y mecanismo auditivo, inteligencia artificial, etc. Clasificación y aplicación de tareas Según los diferentes objetos de reconocimiento, las tareas de reconocimiento de voz se pueden dividir aproximadamente en tres categorías, a saber, reconocimiento de palabras aisladas, reconocimiento de palabras clave y reconocimiento de voz continuo. Entre ellos, la tarea del reconocimiento de palabras aisladas es identificar palabras aisladas conocidas de antemano, como "encendido" y "apagado". La tarea del reconocimiento de voz continuo es reconocer cualquier discurso continuo, como una oración o un párrafo. La detección de palabras clave en el flujo de voz continuo es para discurso continuo, pero no reconoce todas las palabras, solo detecta la aparición de algunas palabras clave conocidas. Dónde, por ejemplo, "computadora" y "mundo" en un párrafo.

Según los diferentes hablantes, la tecnología de reconocimiento de voz se puede dividir en reconocimiento de voz de persona específica y reconocimiento de voz de persona no específica. El primero sólo puede reconocer las voces de una o varias personas, mientras que el segundo puede ser utilizado por cualquiera. Obviamente, un sistema de reconocimiento de voz no específico de una persona se adapta mejor a las necesidades prácticas, pero es mucho más difícil que el reconocimiento de una persona específica.

Además, según el dispositivo de voz y el canal, se puede dividir en reconocimiento de voz de escritorio (PC), reconocimiento de voz de teléfono y reconocimiento de voz de dispositivo integrado (teléfono móvil, PDA, etc.). Los diferentes canales de adquisición distorsionan las propiedades acústicas del habla humana, por lo que es necesario construir sistemas de reconocimiento separados.

Los campos de aplicación del reconocimiento de voz son muy amplios. Los sistemas de aplicación comunes incluyen: sistema de entrada por voz, que está más en línea con los hábitos diarios de las personas, es más natural y más eficiente que el método de entrada por teclado, que utiliza la voz para controlar el funcionamiento del equipo, es más rápido y más conveniente que el manual; control y se puede utilizar en control industrial, sistemas de marcación por voz, electrodomésticos inteligentes, juguetes inteligentes controlados por voz y muchos otros campos. El sistema de consulta de diálogo inteligente funciona en función de la voz del cliente y proporciona a los usuarios servicios de recuperación de bases de datos naturales y amigables, como servicios a domicilio, servicios de hotel, sistemas de servicios de agencias de viajes, sistemas de reserva de boletos, servicios médicos, servicios bancarios, servicios de consulta de acciones, etc. . El procesamiento frontal se refiere al procesamiento del habla original antes de la extracción de características para eliminar parcialmente el ruido y la influencia de diferentes hablantes, de modo que la señal procesada pueda reflejar mejor las características esenciales del habla. El procesamiento front-end más utilizado incluye la detección de puntos finales y la mejora del habla. La detección de punto final se refiere a distinguir los períodos de las señales de voz y las señales que no son de voz en las señales de voz y determinar con precisión el punto de partida de la señal de voz. Después de la detección del punto final, la señal de voz solo se puede procesar posteriormente, lo que juega un papel importante en la mejora de la precisión del modelo y la precisión del reconocimiento. La principal tarea de la mejora del habla es eliminar la influencia del ruido ambiental en el habla. El método más utilizado actualmente es el filtro Wiener, que es mejor que otros filtros en caso de mucho ruido. Procesamiento de características acústicas La extracción y selección de características acústicas es un vínculo importante en el reconocimiento de voz. La extracción de características acústicas no es sólo un proceso de compresión de información, sino también un proceso de deconvolución de señales, con el fin de clasificar mejor el clasificador de patrones. Debido a las características variables en el tiempo de la señal de voz, la extracción de características debe realizarse en un pequeño segmento de la señal de voz, es decir, un análisis a corto plazo. Este intervalo de análisis estacionario considerado se denomina cuadro y el desplazamiento entre cuadros suele ser 1/2 o 1/3 de la longitud del cuadro. La señal generalmente se enfatiza previamente para aumentar las frecuencias altas y la señal se enventana para evitar la influencia de los bordes del segmento de voz a corto plazo. Algunas características acústicas de uso común * Coeficiente de predicción lineal LPC: el análisis de predicción lineal comienza desde el mecanismo de la vocalización humana y, mediante el estudio del modelo de cascada de tubo corto del canal vocal, se cree que la función de transferencia del sistema se ajusta a La señal en el momento N se estima mediante una combinación lineal de las señales en momentos anteriores. El coeficiente de predicción lineal LPC se puede obtener haciendo que el error cuadrático medio entre el valor de la muestra de voz real y el valor de la muestra de predicción lineal alcance el LMS mínimo.

Los métodos de cálculo de LPC incluyen el método de autocorrelación (método de Durbin), el método de covarianza, el método de celosía, etc. Los cálculos rápidos y eficientes garantizan el uso generalizado de esta característica acústica. Las características acústicas similares al modelo de parámetros de predicción LPC incluyen el par de espectro de líneas LSP, el coeficiente de reflexión, etc.

Coeficiente cepstral CEP: El coeficiente cepstral se puede obtener utilizando el método de procesamiento homomórfico, realizando la transformada discreta de Fourier DFT en la señal de voz, tomando el logaritmo y luego realizando la transformada inversa iDFT. Para el LPC cepstrum (LPCCEP), después de obtener el coeficiente de predicción lineal del filtro, se puede calcular mediante una fórmula recursiva. Los experimentos muestran que cepstrum puede mejorar la estabilidad de los parámetros característicos.

Características acústicas derivadas de resultados de investigación. La investigación sobre los mecanismos auditivos humanos muestra que cuando se emiten dos tonos con frecuencias similares al mismo tiempo, las personas sólo pueden escuchar un tono. El ancho de banda crítico se refiere a un límite de ancho de banda que provoca un cambio repentino en los sentimientos subjetivos de las personas. Cuando la diferencia de frecuencia entre dos tonos es menor que el ancho de banda crítico, las personas escucharán los dos tonos como uno solo, lo que se conoce como efecto de blindaje. El escalado de Mel es una forma de medir este ancho de banda crítico.

El cálculo de MFCC primero transforma la señal en el dominio del tiempo en el dominio de la frecuencia a través de FFT, luego convoluciona su espectro de energía logarítmico con un banco de filtros triangular distribuido en la escala Mel y finalmente genera cada filtro. El vector formado está sujeto a la transformada de coseno discreta (DCT) y se toman los primeros n coeficientes. PLP todavía usa el método Durbin para calcular los parámetros LPC, pero también usa el método DCT para calcular los parámetros de autocorrelación. Modelo acústico El modelo de un sistema de reconocimiento de voz generalmente consta de un modelo acústico y un modelo de lenguaje, que corresponden respectivamente al cálculo de la probabilidad de habla en sílabas y la probabilidad de sílabas en palabras. Esta sección y la siguiente presentan la tecnología del modelo acústico y del modelo de lenguaje, respectivamente.

Modelado acústico HMM: El concepto de modelo de Markov es un autómata de estados finitos discretos en el dominio del tiempo. El HMM del modelo oculto de Markov significa que el estado interno del modelo de Markov es invisible para el mundo exterior, y el mundo exterior solo puede ver el valor de salida en cada momento. Para los sistemas de reconocimiento de voz, los valores de salida suelen ser características acústicas calculadas a partir de cada cuadro. El uso de HMM para describir señales de voz requiere dos suposiciones: una es que la transición del estado interno solo está relacionada con el estado anterior y la otra es que el valor de salida solo está relacionado con el estado actual (o la transición del estado actual), lo que reduce en gran medida. La complejidad del modelo. Los algoritmos correspondientes a la puntuación, decodificación y entrenamiento de HMM incluyen el algoritmo directo, el algoritmo de Viterbi y el algoritmo directo e inverso.

En el reconocimiento de voz, los HMM a menudo se modelan como topologías unidireccionales con bucle automático y expansión de izquierda a derecha. Los fonemas son HMM de tres a cinco estados, las palabras son HMM formados mediante la concatenación de múltiples fonemas y todo el modelo de reconocimiento continuo de voz es una combinación de palabras y silencio. Modelado dependiente del contexto: la coarticulación significa que un sonido cambia bajo la influencia de sonidos adyacentes. Desde la perspectiva del mecanismo de generación de sonido, las características de los órganos vocales humanos sólo pueden cambiar gradualmente cuando un sonido se convierte en otro, lo que hace que el espectro de este último suene diferente del espectro en otras condiciones. Los métodos de modelado sensibles al contexto tienen en cuenta este efecto al modelar, lo que permite que el modelo describa el habla con mayor precisión. Bi-Phone solo considera la influencia de los sonidos frontales y Tri-Phone solo considera la influencia de los sonidos frontales y traseros.

El modelado contextual en inglés suele basarse en fonemas. Debido a que algunos fonemas tienen efectos similares en fonemas posteriores, los parámetros del modelo se pueden compartir agrupando estados de decodificación de fonemas. El resultado de la agrupación se llama senone. Los árboles de decisión se utilizan para lograr una correspondencia efectiva entre trifonos y tetráfonos. Respondiendo a una serie de preguntas sobre categorías (vocal/consonante, sonora/sorda, etc.). ) para determinar en última instancia qué senone debe usarse para su estado HMM. El modelo CART de árboles de clasificación y regresión se utiliza para etiquetar las pronunciaciones de palabras como fonemas. Modelo de lenguaje El modelo de lenguaje se divide principalmente en modelo de reglas y modelo estadístico. Los modelos de lenguaje estadístico revelan las leyes estadísticas inherentes de las unidades de lenguaje de manera probabilística y estadística. Entre ellos, N-Gram es simple, efectivo y ampliamente utilizado.

N-Gram: este modelo se basa en el supuesto de que la aparición de la enésima palabra solo está relacionada con las N-1 palabras anteriores y no tiene nada que ver con ninguna otra palabra. la oración completa es la de cada palabra. El producto de las probabilidades de ocurrencia.

Estas probabilidades se pueden obtener contando el número de co-ocurrencias de n palabras directamente del corpus. Comúnmente se utilizan modelos binarios y modelos ternarios.

El rendimiento de los modelos lingüísticos suele medirse mediante la entropía cruzada y la perplejidad. La importancia de la entropía cruzada radica en la dificultad del reconocimiento de texto utilizando este modelo o, en términos de compresión, cuántos bits en promedio debe codificarse cada palabra. El significado de complejidad es utilizar este modelo para representar el número promedio de ramas de este texto, y su recíproco puede considerarse como la probabilidad promedio de cada palabra. El suavizado se refiere a asignar un valor de probabilidad a n-tuplas no observadas para garantizar que la secuencia de palabras siempre pueda obtener un valor de probabilidad a través del modelo de lenguaje. Las técnicas de suavizado más utilizadas incluyen la estimación de Turing, el suavizado por interpolación de eliminación, el suavizado de Katz y el suavizado de Kneser-Ney. La búsqueda en el reconocimiento continuo de voz consiste en encontrar una secuencia modelo de palabras para describir la señal de voz de entrada, obteniendo así una secuencia de decodificación de palabras. La búsqueda se basa en calificaciones de modelos acústicos y modelos de lenguaje en la ecuación. En la práctica, a menudo es necesario agregar un peso alto al modelo de lenguaje basado en la experiencia y establecer una puntuación de penalización para las palabras largas.

Viterbi: de acuerdo con el estado del algoritmo de Viterbi en cada punto de tiempo en la programación dinámica, calcule la probabilidad posterior de la secuencia de estado de decodificación a la secuencia de observación, retenga la ruta con la mayor probabilidad y registre la información de estado correspondiente a cada nodo para finalmente obtener la secuencia de decodificación de palabras a la inversa. El algoritmo de Viterbi resuelve la alineación temporal no lineal entre la secuencia de estado del modelo HMM y la secuencia de observación acústica, la detección de límites de palabras y el reconocimiento de palabras en el reconocimiento de voz continuo sin perder la solución óptima, lo que convierte a este algoritmo en una estrategia básica para la búsqueda de reconocimiento de voz.

Dado que el reconocimiento de voz no puede predecir la situación después del momento actual, la poda heurística basada en la función objetivo es difícil de aplicar. Debido a las características temporales homogéneas del algoritmo de Viterbi, cada trayectoria corresponde al mismo tiempo a la misma secuencia de observación y, por tanto, es comparable. La búsqueda de haz solo retiene las primeras rutas con mayor probabilidad en cada momento, lo que mejora en gran medida la eficiencia de la búsqueda. Este algoritmo de haz de Viterbi uniforme en el tiempo es el algoritmo más eficiente en las búsquedas actuales de reconocimiento de voz. N-mejor búsqueda y búsqueda de múltiples pasos: para utilizar varias fuentes de conocimiento en la búsqueda, generalmente se requiere una búsqueda de múltiples pasos. La primera vez utiliza fuentes de conocimiento de bajo costo para generar listas de candidatos o cuadrículas de candidatos de palabras y, en base a esto, la segunda vez utiliza fuentes de conocimiento de alto costo para obtener el mejor camino. Las fuentes de conocimiento introducidas anteriormente incluyen modelos acústicos, modelos de lenguaje y diccionarios de voz, que pueden usarse para la primera búsqueda. Para lograr un reconocimiento de voz o una comprensión del lenguaje hablado más avanzado, a menudo es necesario utilizar algunas fuentes de conocimiento más costosas, como N-gramas de cuarto o quinto orden, modelos relacionados con el contexto de cuarto o superior orden, modelos de correlación entre palabras, modelos de segmentación de palabras o análisis de gramáticas, etc., repuntuación. Muchos sistemas recientes de reconocimiento continuo de voz de gran vocabulario en tiempo real utilizan esta estrategia de búsqueda de múltiples pasadas.

La búsqueda N-mejor genera una lista de candidatos y se reservan n mejores rutas para cada nodo, por lo que la complejidad computacional aumentará a n veces. Un enfoque simplificado es mantener sólo unas pocas palabras candidatas para cada nodo, pero es posible que se pierdan las candidatas subóptimas. Un compromiso es considerar sólo rutas de dos palabras y conservar k-piezas. La cuadrícula de candidatos de palabras proporciona múltiples candidatos de una manera más compacta. Al realizar las modificaciones correspondientes en el algoritmo de búsqueda N-best, se puede obtener un algoritmo para generar cuadrículas de candidatos.

Los algoritmos de búsqueda hacia adelante y hacia atrás son un ejemplo de aplicación de búsquedas múltiples. Cuando se aplica una fuente de conocimiento simple a la búsqueda de Viterbi hacia adelante, la probabilidad hacia adelante obtenida durante el proceso de búsqueda se puede usar para calcular la función objetivo de la búsqueda hacia atrás, por lo que el algoritmo heurístico A se puede usar para la búsqueda hacia atrás, y N candidatos pueden ser buscado económicamente. Los requisitos para que el sistema realice la selección de primitivas de reconocimiento del sistema de reconocimiento de voz son una definición precisa, datos suficientes para el entrenamiento y universalidad. El inglés suele utilizar modelos de fonemas sensibles al contexto, mientras que el chino tiene homófonos menos severos que el inglés, por lo que se pueden utilizar modelos de sílabas. El tamaño de los datos de entrenamiento requeridos por el sistema está relacionado con la complejidad del modelo. El diseño del modelo es demasiado complejo y excede las capacidades de los datos de entrenamiento proporcionados, lo que resulta en una fuerte caída en el rendimiento.

Máquina de dictado: un sistema de reconocimiento de voz continuo, no específico y con un amplio vocabulario, a menudo se denomina máquina de dictado. Su arquitectura se basa en la topología HMM del modelo acústico y del modelo de lenguaje antes mencionados. Durante el entrenamiento, los parámetros del modelo se obtienen mediante un algoritmo hacia adelante y hacia atrás para cada primitiva.

Durante el reconocimiento, las primitivas se concatenan en palabras, se agrega un modelo silencioso entre palabras y se introduce un modelo de lenguaje como la probabilidad de transición entre palabras para formar una estructura cíclica, que se decodifica utilizando el algoritmo de Viterbi. Dado que el chino es fácil de segmentar, segmentar primero y luego decodificar segmento por segmento es un método simplificado para mejorar la eficiencia.

Sistema de diálogo: el sistema utilizado para realizar el diálogo hablado entre humanos y computadoras se denomina sistema de diálogo. Limitados por la tecnología actual, los sistemas de diálogo son a menudo sistemas orientados a un campo limitado con vocabulario limitado, y sus temas incluyen consultas de viajes, reservas, recuperación de bases de datos, etc. Su interfaz es un reconocedor de voz, que reconoce los N mejores candidatos o cuadrículas de palabras candidatas generadas, los analiza mediante el analizador para obtener información semántica y luego determina la información de respuesta del administrador de diálogo, que es generada por el sintetizador de voz. Debido a que los sistemas actuales suelen tener un vocabulario limitado, también podemos obtener información semántica extrayendo palabras clave. El rendimiento de los sistemas de reconocimiento de voz robustos y adaptativos se ve afectado por muchos factores, incluidos diferentes hablantes, estilos de habla, ruido ambiental, canales de transmisión, etc. Mejorar la robustez del sistema es mejorar la capacidad del sistema para superar estos factores de modo que el sistema permanezca estable en diferentes entornos y condiciones de aplicación. El propósito de la autoadaptación es ajustar automática y específicamente el sistema de acuerdo con diferentes fuentes de influencia y mejorar gradualmente el rendimiento en uso. A continuación se presentan soluciones para diferentes factores que afectan el rendimiento del sistema.

Las soluciones se pueden dividir en dos categorías según los métodos de características del habla (en lo sucesivo, métodos de características) y los métodos de ajuste del modelo (en lo sucesivo, métodos de modelo). Lo primero requiere encontrar parámetros de características mejores y más sólidos, o agregar algunos métodos de procesamiento específicos a los parámetros de características existentes. Este último utiliza una pequeña cantidad de corpus adaptativo para modificar o transformar el modelo original independiente de la persona (SI), convirtiéndolo así en un modelo adaptativo específico de la persona (SA).

Los métodos de características de adaptación del hablante incluyen métodos de normalización del hablante y métodos de subespacio del hablante, y los métodos de modelo incluyen el método bayesiano, el método de transformación y el método de fusión de modelos.

El ruido en el sistema de voz incluye el ruido ambiental y el ruido electrónico agregado durante el proceso de grabación. Los métodos de funciones para mejorar la solidez del sistema incluyen la mejora del habla y la búsqueda de funciones que sean insensibles a la interferencia de ruido. Los métodos de modelado incluyen métodos PMC de combinación de modelos paralelos y la adición artificial de ruido en el entrenamiento. La distorsión de canal incluye distancia entre micrófonos, micrófonos con diferentes sensibilidades, preamplificadores con diferentes ganancias, diferentes diseños de filtros y más. Los métodos propios incluyen el vector cepstrum menos su promedio a largo plazo y el filtrado RASTA, y los métodos modelo incluyen la traducción cepstrum. Motor de reconocimiento de voz de Microsoft Microsoft utiliza su propio motor de reconocimiento de voz tanto en Office como en Vista. El uso del motor de reconocimiento de voz de Microsoft es completamente gratuito, por lo que se han producido muchos programas de aplicación de reconocimiento de voz basados ​​en el motor de reconocimiento de voz de Microsoft, como Voice Game Master, Voice Control Expert, Open Sesame, etc. Indicadores de rendimiento de los sistemas de reconocimiento de voz Hay cuatro indicadores de rendimiento principales de los sistemas de reconocimiento de voz. ① Rango de vocabulario: se refiere al rango de palabras o frases que la máquina puede reconocer. Si no hay restricciones, la gama de vocabulario puede considerarse ilimitada. (2) Restricción del hablante: si solo puede reconocer la voz de un hablante específico o reconocer la voz de cualquier hablante. ③Requisitos de capacitación: si se requiere capacitación antes de su uso, es decir, si se debe permitir que la máquina "escuche" una voz determinada primero y la cantidad de veces de capacitación. ④Tasa de reconocimiento correcto: el porcentaje promedio de reconocimiento correcto, relacionado con los tres primeros indicadores.

Resumen

Lo anterior presenta las tecnologías para implementar varios aspectos del sistema de reconocimiento de voz. Estas tecnologías han logrado buenos resultados en el uso real, pero cómo superar varios factores que afectan la pronunciación requiere un análisis más profundo. En la actualidad, el sistema de máquina de dictado no puede reemplazar completamente la entrada del teclado, pero la madurez de la tecnología de reconocimiento ha promovido la investigación sobre tecnología de comprensión del habla de alto nivel. Dado que el inglés y el chino tienen características diferentes, cómo utilizar las técnicas propuestas para el inglés en chino también es un tema de investigación importante, y también es necesario resolver problemas exclusivos del chino, como los cuatro tonos.