Esta introducción se basa principalmente en el apéndice "Wave Net: modelo generativo de audio sin formato" de este artículo. El enlace al artículo es el siguiente: blogs.com/BaroC/p/4283380.html.
Para el algoritmo de red neuronal, generalmente se basa en el clasificador softmax para generar 256 valores cuantificados, correspondientes a los 256 valores cuantificados del sonido. Así se generan WaveRNN y wavenet.
Los siguientes son algunos materiales que utilicé para aprender síntesis de voz. Entre ellos, Stanford CS224 es muy recomendable. Sin embargo, la lógica de esta conferencia no la entenderé después de leerla repetidamente.
Tutorial de procesamiento digital del habla ucsb, conceptos básicos del procesamiento de señales sonoras. Se recomienda echar un vistazo. Enlace a continuación. /view/68 fbf 1a4f 61fb 7360 b4c 658 b html
.