Introducción a la síntesis de voz texto a voz

El contenido principal de este blog es presentar los conocimientos previos de la conversión de texto a voz. Espero que los lectores puedan comprender fácilmente el principio de funcionamiento de la síntesis de voz y sentar las bases para comprender los algoritmos de conversión de texto a voz más avanzados.

Esta introducción se basa principalmente en el apéndice "Wave Net: modelo generativo de audio sin formato" de este artículo. El enlace al artículo es el siguiente: blogs.com/BaroC/p/4283380.html.

Para el algoritmo de red neuronal, generalmente se basa en el clasificador softmax para generar 256 valores cuantificados, correspondientes a los 256 valores cuantificados del sonido. Así se generan WaveRNN y wavenet.

Los siguientes son algunos materiales que utilicé para aprender síntesis de voz. Entre ellos, Stanford CS224 es muy recomendable. Sin embargo, la lógica de esta conferencia no la entenderé después de leerla repetidamente.

Tutorial de procesamiento digital del habla ucsb, conceptos básicos del procesamiento de señales sonoras. Se recomienda echar un vistazo. Enlace a continuación. /view/68 fbf 1a4f 61fb 7360 b4c 658 b html

上篇: 下篇: ¿Qué significan estas palabras japonesas?