Uno de los objetivos que se suelen alcanzar en el procesamiento de señales de voz es descubrir la distribución de varios componentes de frecuencia en el habla. La herramienta matemática para hacer esto es la transformada de Fourier. La transformada de Fourier requiere que la señal de entrada sea estacionaria. Por supuesto, puedes hacerlo para una señal inestable, pero el resultado no tendrá sentido. El habla, por el contrario, es inestable desde una perspectiva macro: tan pronto como se mueve la boca, las características de la señal cambian. Pero desde una perspectiva microscópica, en un período de tiempo relativamente corto, la boca no se mueve tan rápido y la señal del habla puede considerarse estable y puede interceptarse y usarse para la transformada de Fourier. Es por eso que la señal de voz debe procesarse en cuadros, y el segmento corto de la señal interceptado se denomina "cuadro". Como se muestra a continuación: El primer tercio y los últimos dos tercios de este discurso son obviamente diferentes, por lo que la señal general del discurso es inestable. La parte encerrada por el marco rojo es un marco y la señal dentro de este marco puede considerarse estable.
Entonces, ¿cuánto mide un marco? La longitud del cuadro debe cumplir dos condiciones: desde una perspectiva macro, debe ser lo suficientemente corta para garantizar que la señal dentro del cuadro sea estable. Como se mencionó anteriormente, los cambios en la forma de la boca son la causa de la inestabilidad de la señal, por lo que la forma de la boca no puede cambiar significativamente durante un cuadro, es decir, la longitud de un cuadro debe ser menor que la longitud de un fonema. A una velocidad de habla normal, la duración de los fonemas es de aproximadamente 50 a 200 milisegundos, por lo que la duración del cuadro generalmente se establece en menos de 50 milisegundos. Desde un punto de vista microscópico, debe incluir suficientes ciclos de vibración, porque la transformada de Fourier necesita analizar la frecuencia, y la frecuencia solo se puede analizar si se repite suficientes veces. La frecuencia fundamental del habla es de alrededor de 100 Hz para las voces masculinas y de alrededor de 200 Hz para las voces femeninas. Cuando se convierten en períodos, son 10 milisegundos y 5 milisegundos. Dado que un cuadro contiene múltiples ciclos, generalmente se considera que dura al menos 20 milisegundos. De esta manera, sabemos que la longitud del cuadro es generalmente de 20 a 50 milisegundos. 20, 25, 30, 40 y 50 son valores de uso común. Algunas personas incluso usan 32 (a los ojos de los programadores, esto es relativamente "). "valor completo". "número).
El propósito de la ventana es permitir que la amplitud de un cuadro de señal se desvanezca gradualmente hasta 0 en ambos extremos. El gradiente es bueno para la transformada de Fourier y puede mejorar la resolución del resultado de la transformación (es decir, el espectro). No se discutirán las matemáticas específicas. El costo de las ventanas es que las partes en ambos extremos de una señal de marco se debilitan y no son tan importantes como la parte central. La forma de compensarlo es que los fotogramas no se intercepten espalda con espalda, sino que se superpongan parcialmente entre sí. La diferencia de tiempo entre las posiciones iniciales de dos fotogramas adyacentes se denomina desplazamiento de fotograma. Un método común es establecerla en la mitad de la longitud del fotograma o fijarla en 10 milisegundos.
Se puede ver en el espectro que la energía de este marco de habla es relativamente fuerte cerca de 480 y 580 Hz. El espectro de frecuencias del habla a menudo presenta dos modos: "estructura fina" y "envoltura". La "estructura fina" son los pequeños picos en la línea azul. Su separación en el eje horizontal es la frecuencia fundamental, que refleja el tono del habla: cuanto más dispersos son los picos, mayor es la frecuencia fundamental y mayor el tono. La "envoltura" es la curva suave (línea roja) que conecta las cimas de estos pequeños picos. Representa la forma de la boca, es decir, qué sonido se pronuncia. Los picos de la envolvente se denominan picos de vibración ***, y en la imagen se pueden ver cuatro de los cuales, respectivamente, alrededor de 500, 1700, 2450 y 3800 Hz. Las personas experimentadas pueden saber qué sonido se emite en función de la posición del pico de vibración. Al realizar una transformada de Fourier de este tipo en cada cuadro de señal, puede saber cómo cambian el tono y la forma de la boca con el tiempo, y también puede identificar lo que dice una oración.