Introducción
Voicebox es una caja de herramientas de procesamiento de voz que incluye rutinas de MATLAB, la mayoría de las cuales fueron desarrolladas por el Imperial College of Electrical and Electronic Engineering, Exhibition Road, London SW7. 2BT, Reino Unido Escrito por Mike Brooks. Varias rutinas requieren MATLAB V5.
Esta rutina está disponible como un archivo tar comprimido o un archivo ZIP y tiene licencia en GNU según los términos del contrato.
Envíe cualquier comentario, sugerencia, informe de error, etc. a mike.brookes @ ic.ac.uk
Directorio
Entrada/salida de archivos de audio
Leer y escribir WAV y otros formatos de archivos de voz
Tabla de frecuencias
Conversión entre tablas de frecuencias Hertz, Mel, ERB y MIDI
Transformada de Fourier/Coseno discreto/Transformada de Hartley
Varias transformaciones de correlación
p>Generación de números aleatorios
Generar vectores aleatorios y señales de ruido.
Distancia vectorial
Calcula la distancia entre listas de vectores.
Análisis del lenguaje
Estimación del nivel de actividad, expresado como espectrograma
Análisis LPC del habla
Procedimiento de codificación predictiva lineal
Síntesis de voz
Patrón de forma de onda glotal
Mejora del habla
Resta de ruido espectral
Codificación del habla
Pulso Modulación de código, cuantificación vectorial.
Reconocimiento de voz
Aprobación de procesamiento frontal
Funciones de utilidad
Funciones prácticas diversas
Entrada de archivos de audio /salida
Las rutinas se pueden leer y, en algunos casos, escribir en varios formatos de archivo:
Sufijo de lectura y escritura
readwav writewav .WAV, etc. . Estas rutinas permiten cualquier número de canales y también pueden manejar PCM lineal (cualquier precisión hasta 32 bits), PCM normal y PCM de madera. Los archivos grandes se pueden leer y escribir en partes pequeñas.
Pregunta complementaria: readhtk writehtk. HTK liquid es una caja de herramientas de Markov oculta por entropía para leer y escribir archivos de formas de onda.
readsfs. Soporte autónomo para la documentación del Speech Archiving System, por Mark Harkwal en UCL.
lee el archivo con formato de dominio móvil .NIST (incluido timit).
readaif.Formato de archivo de intercambio de audio AIF utilizado por los usuarios de Mac.
Reconstrucción de frecuencias a gran escala
La mesa Mel se basa en la percepción humana de un campo de fútbol de onda sinusoidal. La escala y frecuencia de esta rutina de conversión entre mel2frq y frq2mel están en Hz.
ERB, a gran escala, se basa en un ancho de banda rectangular equivalente. Las rutinas erb2frq y frq2erb convierten el tamaño y la frecuencia de la placa de reentrenamiento entre velocidades en Hz.
Utilizando el estándar MIDI, también se estipula claramente que C suma 60 al número de semitono. Esta rutina se utiliza para convertir entre frq2midi y midi2frq, y entre rangos de frecuencias musicales y Hertz. Además del resultado, Frq2midi también detecta el formato de caracteres en los nombres. Midi2frq puede utilizar ejercicios de la misma escala; de lo contrario, la escala pitagórica es solo una nota.