Principios de audio

1. ¿Qué es el sonido?

En física de secundaria, sabemos que el sonido es la onda sonora producida por la vibración de un objeto. El sonido se transmite al oído humano a través de un medio (aire, sólido, líquido) y hace que los huesecillos vibren. Después de una serie de transmisión de señales nerviosas, las personas lo perciben.

El sonido es una onda. Cuando un objeto vibra, cambia la densidad del medio (como el aire), formando ondas longitudinales que se cruzan entre sí.

Dado que el sonido es una onda, podemos expresarlo en forma de diagrama.

Dado un punto en el espacio, la densidad del aire en ese punto cambia con el tiempo de la siguiente manera:

Oscilograma

La siguiente figura muestra el período de 0,002 segundos. una onda sinusoidal con una frecuencia de 500 Hz.

Frecuencia (tono): el número de veces que el sonido cambia periódicamente en 1 segundo.

El rango auditivo del oído humano es de 20Hz-20kHz. Los sonidos de baja frecuencia son sordos y pesados, y los sonidos de alta frecuencia son agudos y ásperos. Los sonidos superiores a 20 kHz son ondas ultrasónicas.

Amplitud (sonoridad): el tamaño del sonido.

A veces, utilizamos decibeles (dB) para describir el tamaño del sonido. Vale la pena señalar que dB es una relación, un valor numérico y no tiene etiqueta de unidad. (10 veces el logaritmo de la relación de intensidad de energía)

2. Recolección y almacenamiento de sonido

El muestreo se refiere al proceso de convertir cantidades continuas en el dominio del tiempo o del espacio en cantidades discretas. .

El muestreo de sonido generalmente utiliza equipos como un micrófono para convertir la señal de sonido en una señal eléctrica, y luego convierte la señal eléctrica en una serie de números binarios (señales digitales) representados por 1 y 0 a través de un analógico. Convertidor a digital.

Muestreamos el sonido decenas de miles de veces por segundo y obtenemos decenas de miles de números binarios ordenados en orden cronológico. Entonces convertimos los sonidos cambiantes en números binarios que la computadora puede almacenar y reconocer.

Si el audio se expresa en forma de imagen, la imagen queda de la siguiente manera: (El eje horizontal es el tiempo, el eje vertical es la amplitud y las dos imágenes representan los canales izquierdo y derecho respectivamente. Dado que la frecuencia del sonido es muy alta, la señal en la imagen no es sinusoidal, sino sólida)

2.1 Frecuencia de muestreo

La frecuencia de muestreo se refiere al número de veces que el dispositivo de grabación. Muestrea la señal de sonido en un segundo. Cuanto mayor sea la frecuencia de muestreo, más realista y natural será la reproducción del sonido.

Las frecuencias de muestreo actuales son 8KHZ, 22,05KHz, 44,1KHz y 48KHz.

8KHZ es la calidad de sonido de las llamadas telefónicas, 22,05 KHz es la calidad de sonido de la radio FM y 44,1KHz es la calidad de sonido teórica del CD. 48 KHz es la frecuencia de muestreo más alta que el oído humano puede distinguir.

Comprensión intuitiva: Los sonidos continuos son los siguientes

Un sonido

Muestreamos en intervalos de tiempo iguales.

Finalmente, nuestro audio muestreado real es el siguiente.

Como se puede observar en la siguiente figura, cuanto mayor sea la frecuencia de muestreo, mejor será la calidad del sonido que obtendremos.

2.2 bits de cuantificación

No podemos obtener la intensidad del sonido en todo momento, por lo que el sonido se muestrea discretamente en intervalos de tiempo iguales. De manera similar, los datos muestreados no pueden ser infinitamente precisos. Por ejemplo, el número es 63,222, que no se puede almacenar en una computadora. Por tanto, los datos muestreados también son discretos.

El número de bits de cuantificación es otro parámetro del archivo de audio. Cuanto mayor sea el número de bits de cuantificación, mayor será la calidad del sonido. Los bits de cuantificación más utilizados son 8, 16 y 32.

El número de cuantificación se refiere al uso de varios números binarios para almacenar datos muestreados. El número de bits de cuantificación es 8, lo que significa que los datos se almacenan como un número binario de 8 bits, como 000101111.

Siguiendo con el ejemplo anterior, hay una onda de sonido sinusoidal. Supongamos que el bit de cuantificación es 3, es decir, los datos almacenados son solo 000/001/010/011/100/1065438.

Ahora sigue siendo un muestreo equidistante, pero los puntos de muestreo solo pueden caer en la línea roja más cercana.

En este momento, el valor de la ordenada de cada punto es sólo la tercera potencia de 2, es decir, sólo 8 es posible.

Como se puede ver en la figura siguiente, cuanto mayor sea el número de bits de cuantificación, mejor será el efecto de sonido.

Además, cabe señalar que los datos almacenados con diferentes bits de cuantificación no se pueden comparar directamente.

Por ejemplo, el número decimal 111 almacenado en bits de cuantificación de 4 bits es 15, y el número decimal 100000 almacenado en bits de cuantificación de 8 bits es 64. No es por el 64 gt15 que este último hace más ruido que el primero. En lugar de ello, deberían dividirse por su rango total y compararse.

El primero es más ruidoso que el segundo.

2.3?Número de canal

El canal de audio se divide en canal mono y canal dual.

Mono significa que los oídos izquierdo y derecho escuchan el mismo sonido.

La información que escuchan los dos oídos a través de los dos canales es diferente. Cuando el tiempo del sonido, la frecuencia de muestreo y la velocidad de bits son los mismos, el espacio de almacenamiento de un archivo de dos canales es el doble que el de un archivo mono. Pero dará a la gente una sensación de espacio. Los canales duales se utilizan a menudo en juegos y películas para lograr el efecto de "escuchar el sonido e identificar la ubicación".

Los ejemplos de sonido son los siguientes:

3. ¿Por qué la voz de cada persona es diferente?

3.1 Principios de la vocalización humana

Cuando los pulmones exhalan aire, cuando el flujo de aire pasa a través de la glotis estrecha, la mucosa de las cuerdas vocales fluctuará como ondas, haciendo que el medio aéreo cercano vibre. para formar una densa La onda es la onda sonora. Estas ondas sonoras emitirán sonidos y amplificarán el volumen en la garganta, la boca, la cavidad nasal y los senos nasales, y luego se verán afectadas por órganos como los labios, los dientes y la lengua, y se modificarán en los sonidos que todos pronuncian todos los días. Si la voz de una persona sólo se basa en la vibración de las cuerdas vocales y no tiene una cavidad para amplificar el sonido, el sonido será muy pequeño. * Además de amplificar el sonido, la * cavidad también absorbe el ruido, lo que hace que la calidad del sonido sea más ideal.

Las cuerdas vocales son como las cuerdas de un violín, que pueden cambiar la frecuencia (es decir, el tono) del sonido ajustando la tensión y la longitud. La tensión se ve afectada por la capa muscular de las cuerdas vocales y el tamaño de la glotis. A medida que la glotis se hace más pequeña, la tensión en las cuerdas vocales aumenta, produciendo sonidos de mayor frecuencia. Además, la longitud de las cuerdas vocales de hombres y mujeres será diferente. Los hombres miden entre 17 y 25 mm y las mujeres entre 12,5 y 17 a 25 mm. Los niños y las mujeres tienen cuerdas vocales más cortas que vibran más rápido y producen sonidos más agudos; las cuerdas vocales de los hombres son más largas y gruesas, lo que podría explicar por qué el hombre adulto promedio tiene una voz más baja y tiene más dificultades para producir notas altas.

3.2 ¿Qué determina las características de la voz de cada persona?

Las diferencias de tono, intensidad, duración y timbre determinan las diferencias en la voz de cada persona.

Tono: El tono está determinado por la frecuencia fundamental.

Frecuencia fundamental: corresponde a la velocidad de vibración de las cuerdas vocales y representa el tono del sonido. Cuanto mayor sea la frecuencia fundamental, más rápido vibrarán las cuerdas vocales y más agudo será el sonido. En términos generales, en un espectro de voz limpio (sin rugidos, sin mezcla con otros sonidos), el pico obvio más bajo representa la frecuencia fundamental, y el pico correspondiente al múltiplo entero de la frecuencia fundamental es el armónico producido por su vibración. La frecuencia fundamental suele estar representada por un valor de frecuencia (f) o un valor de período (t).

Tono: El tono está determinado por los armónicos.

Sobretonos: Excepto el tono, que es el sonido más largo producido por todo el cuerpo sonoro, todas las partes del objeto (la mitad, un tercio, un cuarto, etc.) producen sobretonos, armónicos La longitud de onda suele ser una fracción entera del tono (como λ/2, λ/3, λ/4, etc.) La combinación de armónicos determina un sonido específico, que puede hacer que las personas sientan claramente la intensidad del tono. .

Materiales de referencia:

1. Principios del audio digital/Archivos/208

2. La estructura y el principio de producción del sonido de las cuerdas vocales, /p/64594731

ript>