Busque archivos de cuadro de voz para el reconocimiento de voz.

Voice Processing Toolbox para MATLAB

Introducción

Voicebox es una caja de herramientas de procesamiento de voz que incluye rutinas de MATLAB, la mayoría de las cuales fueron desarrolladas por el Imperial College of Electrical and Electronic Engineering, Exhibition Road, London SW7. 2BT, Reino Unido Escrito por Mike Brooks. Varias rutinas requieren MATLAB V5.

Esta rutina está disponible como un archivo tar comprimido o un archivo ZIP y tiene licencia en GNU según los términos del contrato.

Envíe cualquier comentario, sugerencia, informe de error, etc. a mike.brookes @ ic.ac.uk

Directorio

Entrada/salida de archivos de audio

Leer y escribir WAV y otros formatos de archivos de voz

Tabla de frecuencias

Conversión entre tablas de frecuencias Hertz, Mel, ERB y MIDI

Transformada de Fourier/Coseno discreto/Transformada de Hartley

Varias transformaciones de correlación

p>

Generación de números aleatorios

Generar vectores aleatorios y señales de ruido.

Distancia vectorial

Calcula la distancia entre listas de vectores.

Análisis del lenguaje

Estimación del nivel de actividad, expresado como espectrograma

Análisis LPC del habla

Procedimiento de codificación predictiva lineal

Síntesis de voz

Patrón de forma de onda glotal

Mejora del habla

Resta de ruido espectral

Codificación del habla

Pulso Modulación de código, cuantificación vectorial.

Reconocimiento de voz

Aprobación de procesamiento frontal

Funciones de utilidad

Funciones prácticas diversas

Entrada de archivos de audio /salida

Las rutinas se pueden leer y, en algunos casos, escribir en varios formatos de archivo:

Sufijo de lectura y escritura

readwav writewav .WAV, etc. . Estas rutinas permiten cualquier número de canales y también pueden manejar PCM lineal (cualquier precisión hasta 32 bits), PCM normal y PCM de madera. Los archivos grandes se pueden leer y escribir en partes pequeñas.

Pregunta complementaria: readhtk writehtk. HTK liquid es una caja de herramientas de Markov oculta por entropía para leer y escribir archivos de formas de onda.

readsfs. Soporte autónomo para la documentación del Speech Archiving System, por Mark Harkwal en UCL.

lee el archivo con formato de dominio móvil .NIST (incluido timit).

readaif.Formato de archivo de intercambio de audio AIF utilizado por los usuarios de Mac.

Reconstrucción de frecuencias a gran escala

La mesa Mel se basa en la percepción humana de un campo de fútbol de onda sinusoidal. La escala y frecuencia de esta rutina de conversión entre mel2frq y frq2mel están en Hz.

ERB, a gran escala, se basa en un ancho de banda rectangular equivalente. Las rutinas erb2frq y frq2erb convierten el tamaño y la frecuencia de la placa de reentrenamiento entre velocidades en Hz.

Utilizando el estándar MIDI, también se estipula claramente que C suma 60 al número de semitono. Esta rutina se utiliza para convertir entre frq2midi y midi2frq, y entre rangos de frecuencias musicales y Hertz. Además del resultado, Frq2midi también detecta el formato de caracteres en los nombres. Midi2frq puede utilizar ejercicios de la misma escala; de lo contrario, la escala pitagórica es solo una nota.