Introducción y detalles de la transmisión de audio

Introducción a los antecedentes de la investigación

Durante mucho tiempo, los datos de audio en sí mismos son solo un flujo binario opaco representado por una serie de símbolos no semánticos que carecen de la descripción de la organización estructurada. y la semántica de alto nivel de los tipos de sonido, brindando audio El procesamiento y análisis en profundidad de señales trae muchas dificultades, lo que limita en gran medida aplicaciones como el reconocimiento automático de voz (ASR) y la recuperación de audio basada en contenido (CBAR). Cómo extraer información estructurada de tipos de audio a partir de señales de flujo de audio continuo, dividirlas en segmentos de audio de una sola categoría según diferentes tipos acústicos, como habla, música y sonidos ambientales, y marcar la posición del punto de división y la información del tipo de cada segmento de audio. Es decir, la clasificación de flujo de audio continuo es una tecnología clave y una premisa básica para resolver problemas como el procesamiento, análisis y recuperación en profundidad de información de audio. También es una herramienta poderosa para ayudar en la segmentación y clasificación automática de señales de video. y tiene amplias perspectivas de aplicación. Información estructurada

La información estructurada del tipo de audio proporcionada por la clasificación de flujo de audio continuo es la base para establecer un índice de base de datos de audio y realizar la asociación de unidades estructurales de bajo nivel con unidades estructurales semánticas de alto nivel. La tecnología CBAR generalmente analiza la estructura y la semántica de las transmisiones de audio, extrae información semántica de alto nivel de diferentes tipos de señales de audio, como extraer palabras clave de partes del discurso y establecer su organización estructurada e indexación para hacer que las transmisiones de audio "desordenadas" se vuelvan "organizadas". " para facilitar la recuperación y navegación del usuario. Se puede ver que si no se conocen la categoría de sonido y la información de ubicación contenida en el flujo de audio, es imposible extraer semántica de alto nivel. Introducción relacionada

La tecnología de clasificación de flujo de audio continuo se puede utilizar como una herramienta auxiliar eficaz para la segmentación y clasificación automática de secuencias de vídeo. Debido a las limitaciones del desarrollo tecnológico, las computadoras no pueden "comprender" el contenido de los videos basándose únicamente en las tecnologías de procesamiento de imágenes y videos existentes. La precisión de la segmentación de las tomas de video no es alta y las unidades de la historia no se pueden clasificar según el contenido. Si se utiliza tecnología de clasificación de flujo de audio continuo para segmentar el audio correspondiente al flujo de video, se usa tecnología de reconocimiento de voz más práctica para realizar el reconocimiento de voz en la parte del habla y se usa tecnología madura de recuperación de texto completo para procesar los resultados del reconocimiento de voz y extraer El resumen de texto puede resolver mejor estos problemas. El conocimiento en el campo de la edición de audio y video y algunas reglas básicas nos dicen que si el tipo de audio correspondiente a la transmisión de video no cambia, no es necesario segmentar el video correspondiente. Por lo tanto, al segmentar adecuadamente el flujo de audio, se puede mejorar enormemente la eficiencia de la segmentación y la precisión del video.

Además, la tecnología de clasificación de flujo de audio continuo también se puede utilizar en campos como la comprensión del contenido de audio (Audio Content Understanding), la monitorización de audio (Audio Surveillance) y el análisis de escenas de audio (Audio Scene Analysis). En resumen, las características de los datos de audio en sí y las limitaciones de las tecnologías existentes limitan el procesamiento posterior del flujo de audio. Sin embargo, la tecnología de clasificación continua del flujo de audio puede resolver bien este problema y proporcionar estructuración del flujo de audio y análisis y análisis en profundidad. información de audio. La utilización proporciona una base sólida. Tecnología de clasificación

El uso de tecnología de clasificación de flujo de audio continuo puede proporcionar un único segmento de voz para ASR, que es uno de los requisitos previos para la aplicación práctica de los sistemas de reconocimiento de voz existentes. Los sistemas de reconocimiento continuo de voz existentes tienen requisitos extremadamente estrictos para las señales de voz de entrada. Generalmente no pueden incluir otros tipos de sonidos como música y sonidos ambientales, y deben tener una alta relación señal-ruido. ASR requiere la transcripción automática de transmisiones de audio de la vida real, como transmisiones de noticias, cine y televisión, conferencias, discursos, etc., y genera una "transcripción" que contiene contenido semántico, ubicación y otra información. Sabemos que las transmisiones de audio enumeradas anteriormente generalmente se componen de voz y otros tipos de sonidos. Si no están segmentadas previamente y se eliminan las partes que no son de voz, definitivamente tendrá un impacto grave en el rendimiento del sistema de reconocimiento de voz. .

Definición de medios de transmisión

Los medios de transmisión se refieren a medios continuos basados ​​en el tiempo que utilizan tecnología de transmisión en Internet. Se trata de archivos de audio, video o multimedia transmitidos a través de Internet.

La clave es la tecnología de transmisión por secuencias. La transmisión por secuencias se refiere principalmente al término general para la tecnología que transmite medios (como video y audio) a través de Internet. Su significado específico es transmitir programas de audio y video a una sola PC a través de Internet.

Existen dos métodos para implementar el streaming: streaming en tiempo real y streaming progresivo. Formatos comúnmente utilizados

Los formatos de transmisión de audio comunes en Internet incluyen principalmente el formato *.RA de American Realneork Company y el formato *.WMA de Microsoft Corporation. También existe un formato American Apple*. Se utiliza principalmente en campos profesionales. Entre estos tres formatos, el formato MOV tiene la mejor calidad de sonido, especialmente en términos de MIDI. Admite sonidos GS y GM, y el efecto de reproducción es obviamente mejor que el del reproductor multimedia de Windows. A continuación te daré una explicación detallada presentando las características de estos formatos:

Formato RealAudio

Este es un producto veterano de la compañía estadounidense RealNeork y es actualmente el medio de streaming más popular. tecnología en Internet. Muchas estaciones de música de Internet y sitios de vídeo a la carta lo utilizan. RealMedia incluye tres tipos de archivos: RealAudio (archivos de sonido), RealVideo (archivos de vídeo) y RealFlash (animación vectorial).

Formato QuickTime

QuickTime, al igual que RealMedia, es totalmente compatible con Mac y PC. Con la misma velocidad de red y tamaño de archivo, su calidad de audio y video es la mejor. Consta de tres partes diferentes: formato de archivo QuickTime Movie (película), capa de abstracción de medios QuickTime y sistema de servicio de medios integrado QuickTime.

Formato Windows Media Audio

WMA (Windows Media Audio) es un reproductor pesado de Microsoft. Su predecesor es Netshow de Microsoft. Tiene una sólida experiencia y también lo utilizan muchos usuarios de Windows. Lo más familiar para los lectores es que su tecnología principal es ASF (Formato de transmisión avanzado, formato de transmisión avanzado). El formato ASF admite cualquier método de codificación de compresión/descompresión y puede utilizar cualquier protocolo de transmisión de red subyacente. Tiene una gran flexibilidad en comparación con los estándares de compresión como MPEG, y agrega la función de scripts de comando de control, lo que reduce el volumen de datos pero el archivo. -Enfoque de calidad para la distribución de contenidos multimedia en streaming.

Aunque FLASH, que es popular en Internet, es una tecnología de animación vectorial, también puede contener información de sonido y también admite transmisión. Los archivos FLASH de alta calidad en formato SWF tienen sonidos más destacados y tamaños de archivo más pequeños. También hay sitios web de música que utilizan esta tecnología. Al escuchar, es necesario instalar un complemento FLASH. Teniendo en cuenta la velocidad de Internet en 2013, se puede instalar un complemento FLASH de unos cientos de KB en poco tiempo. Luego podrás disfrutar de la música en formato SWF. Protocolo de transferencia de medios en streaming

En los navegadores, nuestras direcciones comunes comienzan con: y ftp:. Los servidores web también pueden manejar archivos multimedia en streaming a través de protocolos, pero el diseño del servidor web en sí no puede entregar archivos multimedia en streaming de manera eficiente.

La transmisión de medios debe ocupar un flujo de paquetes ininterrumpido y permanecer conectado al servidor durante mucho tiempo. Si hay demasiados visitantes en línea para mirar al mismo tiempo, el rendimiento se reducirá considerablemente. Para resolver este problema, los archivos multimedia de transmisión tienen su propio conjunto de protocolos.

1. Protocolo de transmisión en tiempo real (RTSP): es un estándar de página web abierto establecido con la ayuda de RealNeorks para transmitir medios de transmisión. Aunque debe utilizar un servidor especial llamado RealServer, RTSP puede mejorar la calidad de la transmisión de vídeos, mejorar la eficiencia de la transmisión y proporcionar mejores capacidades de procesamiento de alto tráfico.

Si su ISP tiene un servicio RealServer, se recomienda utilizar RealServer en lugar de un servidor web para entregar archivos multimedia en streaming.

2. MMS (Protocolo Media Server, MMS): Es un protocolo de transmisión en formato streaming definido por Microsoft.

3. Protocolo de transmisión en tiempo real (Protocolo Theatre Server, RTP): Este es un protocolo de transmisión utilizado para flujos de datos multimedia en Internet. RTP se define como trabajar en condiciones de transmisión uno a uno o uno a muchos. Su propósito es proporcionar información de tiempo y lograr la sincronización de la transmisión. En términos simples, es un servidor WEB en la red.

4. Protocolo de reserva de recursos (RSVP). Dado que los flujos de datos de audio y video son más sensibles a los retrasos de la red que los datos tradicionales, se debe transmitir información de audio y video de alta calidad a través de la red. requisitos, se requieren otras condiciones más. RSVP es un protocolo de reserva de recursos en Internet que se está desarrollando. RSVP se utiliza para reservar una parte de los recursos de la red (es decir, ancho de banda).

Estos protocolos reemplazan a ftp, pero son como mms:61.139.25.41/quake, comenzando con MMS o RTSP, etc. Reproductor

Cada uno de los tres formatos anteriores tiene su propio reproductor, son RealPlayer, QuickTime Player y Windows Media Player.

1. RealPlayer

El formato Real tiene una alta relación de compresión y buenas capacidades de compresión y transmisión. Es especialmente adecuado para reproducción en línea o transmisión en vivo en línea. El formato tiene la calidad más baja, pero los archivos también son los más pequeños. Los usuarios de redes de baja velocidad (no usuarios de ADSL y de redes de banda ancha) también pueden disfrutar fácilmente de programas de vídeo en línea. El reproductor RealPlay también es muy cómodo de usar. El consumo de recursos del sistema se sitúa entre los otros dos, lo que lo convierte en la mejor opción para usuarios con una configuración baja. Con la excelente tecnología de ReaNeorks, ha ocupado más de la mitad del mercado de transmisión de video y audio en línea bajo demanda.

2. QuickTime Player

QuickTime Player puede proporcionar flujo de información digital en tiempo real, flujo de trabajo y funciones de reproducción de archivos a través de Internet. La calidad de los archivos QuickTime es extremadamente alta. La desventaja es que los archivos son relativamente grandes. Por supuesto, las imágenes de alta definición y alta calidad a menudo significan archivos más grandes y más tiempo de transmisión. Debido a esto, QuickTime sólo se puede utilizar en Internet para algunos programas de video que requieren presentaciones de alta definición, como anuncios multimedia, demostraciones de productos y videos de alta definición. Es un poco difícil mirar en lugares donde la velocidad de Internet no es fluida y QuickTime Player consume muchos recursos del sistema, por lo que es mejor que su máquina esté equipada con una buena configuración. tener una computadora de alto rendimiento con una CPU rápida y mayor memoria.

La última versión de QuickTime PLAYER ahora es 5.0. Tenga en cuenta que QuickTime Player no es gratuito. Puede descargarlo desde la página de inicio de Apple.

3. Reproductor de Windows Media

Para el reproductor WMA, simplemente use el Reproductor de Windows Media que viene con Windows. Una característica importante de la música en formato WMA es que no requiere un reproductor adicional. Lo puedes encontrar en "Inicio-Programas-Archivos afiliados-Entretenimiento". Su software de producción, publicación y reproducción también está integrado con Windows NT/2000/9x. Lo que es aún más poderoso es que Windows Media ha agregado funciones de protección de derechos de autor, que pueden limitar el tiempo de reproducción, los tiempos de reproducción e incluso los sistemas operativos, etc. un problema para la piratería. Esto es una bendición para los asediados editores audiovisuales. Los archivos WindowsMedia son más grandes que los archivos RealMedia y pueden lograr resultados más rápidos y fluidos que QuichTime durante la reproducción en línea.

Función de transmisión

La función de transmisión de audio se utiliza para reproducir música digital que es demasiado grande para colocarla en la estructura SAMPLE normal. Esto también se debe a que estos archivos son demasiado grandes y desea cargar los datos necesarios cada uno. parte del tiempo, o quieres hacer algo inteligente, como generar formas de onda voladoras.

AUDIOSTREAM *play_audio_stream(int len, bits, stereo, freq, vol, pan);

Esta función crea una nueva secuencia de audio y comienza a reproducirse. La longitud es el tamaño de cada búfer de transporte (sonido muestreado), que debe ser de al menos 2 K: los búfer más grandes son más económicos y requieren menos actualizaciones, pero hay más búfer entre el momento en que proporcionas los datos y el momento en que realmente se reproducen. El parámetro de bits debe ser 8 o 16, freq es la frecuencia de muestreo de los datos y los valores de volumen y panorama usan el mismo rango de 0-255 que la rutina de reproducción de sonido muestreado normal. Si una vez que comienza la reproducción, desea realizar ajustes. el tono, el volumen o el audio. Para el valor panorámico de una transmisión, puede usar las funciones regulares voice_*(), tomando stream->voice como parámetro. Los datos de sonido muestreados siempre están en formato sin firmar y la forma de onda estéreo consta de muestras alternas izquierda/derecha.

void s_audio_stream(AUDIOSTREAM *stream);

Destruye una transmisión de audio cuando ya no sea necesaria

void *get_audio_stream_buffer(AUDIOSTREAM *stream); /p>

Mientras se reproduce la transmisión de audio, debe llamar a esta función a intervalos regulares para proporcionar el siguiente búfer de datos de sonido muestreados (cuanto más pequeño sea el búfer, con más frecuencia se debe llamar). La transmisión de audio todavía tiene más que reproducir, por lo que no tienes que hacer nada. Si se devuelve un valor, es la posición en la que se reproducirá el siguiente búfer, y debes cargar la cantidad adecuada de sonidos muestreados (como hayas especificado al crear la transmisión) en esa dirección, por ejemplo, si lo fread() desde el disco Cargar en archivo. Después de llenar el búfer con datos, llame a free_audio_stream_buffer() para que los nuevos datos estén disponibles. Tenga en cuenta que esta función no se puede llamar desde un identificador de reloj.

void free_audio_stream_buffer(AUDIOSTREAM *stream);

Llame a esta función después de get_audio_stream_buffer() y devuelva una dirección no NULL para indicar que ha cargado un nuevo sonido de muestra en esa dirección. , los datos están listos para ser reproducidos. Transmisión de audio

Durante el Salón Internacional de Electrónica de Consumo (CES) de 2007 en Las Vegas, STMicroelectronics (ST) demostró una aplicación portátil práctica que utiliza una interfaz Bluetooth, una interfaz de infrarrojos y tecnología Sound Terminal. Los productos futuros de Sound Terminal incluyen ASSP (Productos estándar de aplicaciones específicas) que integran estas y otras interfaces.

"Sound Terminal" es un concepto de transmisión de audio digital propuesto por ST. Su propósito es brindar alta calidad de sonido, bajo consumo de energía y bajo costo de fabricación a campos de aplicaciones populares y de rápido crecimiento, como los planos. televisores de panel, productos inalámbricos y sistemas de audio personales. El alto nivel de integración de una solución de paquete único, combinado con capacidades de procesamiento de flujo digital puro desde la fuente de sonido hasta el altavoz, brinda la posibilidad de diseñar un sistema de sonido compacto, de alta eficiencia y de bajo costo.

Los productos iniciales de la familia de productos Sound Terminal incluyen una serie de sistemas de audio de un solo chip de alta calidad, como los que ya están en el mercado para alta potencia (20-80W), potencia media (10- 20W) y de baja potencia (menos de 1,5W) STA326 y STA323, estos productos integran monolíticamente un procesador de audio digital, un controlador de amplificador digital y una etapa de salida de potencia digital DDX.

La potencia de salida de STA326 puede controlar dos canales de 30 W o un canal de 60 W. A través del control digital, es fácil configurar el producto en varios modos de salida diferentes. El producto tiene una variedad de opciones de procesamiento y ecualización, incluido el canal por canal; 4 filtros de segundo orden programables de 28 bits y controles de graves/agudos. Los modos preestablecidos para diversas condiciones de escucha pueden acortar el tiempo de desarrollo del software y simplificar el proceso de diseño del producto.

Al tratarse de un flujo totalmente digital, el procesamiento de la señal en la cadena de amplificación no requiere un conversor analógico a digital, por lo que se trata de una solución de bajo coste para garantizar la calidad general del audio, con una señal- Relación ruido (SNR) de hasta 100 dB y amplio rango dinámico. El prototipo del chip Sound Terminal se ha desarrollado con éxito. El amplificador que utiliza la tecnología de modulación digital (FFX) de ST con derechos de propiedad intelectual independientes es un ejemplo de un producto orientado a la portabilidad. La eficiencia de amplificación del chip alcanza el 94%, ubicándose entre las más altas. en el mercado actual; puede proporcionar "energía de audio sin calor" para sistemas portátiles, lo que ayuda a extender en gran medida la vida útil de la batería y también reduce en gran medida el tamaño del radiador, lo que hace posible el diseño avanzado de productos.

El procesamiento digital incorporado es particularmente útil para mejorar la calidad del sonido y adaptar las funciones a aplicaciones de audio específicas, por ejemplo, a medida que los diseños de televisores de pantalla plana se vuelven más delgados, los parlantes se vuelven más pequeños y las propiedades acústicas del chasis; se vuelve más pequeño Cuanto menos ideal es, más importante es corregir la señal de audio.

Además, la tecnología Digital Streaming es ideal para la integración con interfaces de audio para altavoces inalámbricos y auriculares inalámbricos que utilizan tecnologías de infrarrojos difusos, Bluetooth Wireless 2.0 EDR (Enhanced Data Rate), WiFi y UWB (Ultra Wideband).

/body>