Documentos técnicos 3D a simple vista

La tecnología 3D a simple vista tiene las ventajas de un pequeño volumen de datos, una alta eficiencia de transmisión, un ajuste adaptativo del contenido de la pantalla y una buena interactividad del usuario. El siguiente es mi artículo sobre la tecnología 3D a simple vista. ¡Los padres interesados ​​pueden echar un vistazo!

Investigación sobre la tecnología de vídeo estereoscópico 3D a simple vista y con vistas múltiples basada en un mapa de profundidad

Resumen: la tecnología de vídeo estereoscópico 3D está recibiendo cada vez más atención, pero actualmente la mayoría de los sistemas de vídeo 3D requieren Se requieren gafas especiales para ver el efecto tridimensional, o se requiere que el público mire desde un ángulo fijo. El sistema de vídeo estereoscópico 3D de múltiples puntos de vista puede evitar las dos limitaciones anteriores y obtener la mejor experiencia de visualización 3D. Actualmente, la investigación de vídeo estereoscópico 3D más avanzada del mundo se centra en la tecnología de vídeo estereoscópico 3D de múltiples puntos de vista basada en mapas de profundidad. Este artículo estudia varios vínculos técnicos clave de un sistema de video estéreo 3D a simple vista con múltiples puntos de vista basado en mapas de profundidad, incluida la extracción de mapas de profundidad, la síntesis de puntos de vista virtuales y la síntesis de video con múltiples puntos de vista, y realiza los experimentos de simulación correspondientes. A juzgar por los resultados experimentales, el sistema de vídeo estereoscópico 3D a simple vista con múltiples puntos de vista basado en mapas de profundidad tiene las ventajas de un volumen de datos pequeño, una alta eficiencia de transmisión, un ajuste adaptativo del contenido de la pantalla y una buena interactividad del usuario.

Palabras clave: vídeo estereoscópico 3D a simple vista; mapa de profundidad; TV 3D

En la actualidad, la tecnología de vídeo estereoscópico 3D ha atraído cada vez más atención. Entre ellas, principalmente la tecnología 3D convencional. incluye video estereoscópico binocular (incluidos datos de video desde dos puntos de vista) y video estereoscópico de múltiples puntos de vista (incluidos datos de video desde más de ocho puntos de vista). El video estereoscópico binocular se puede dividir en dos tipos: visualización con anteojos y visualización estereoscópica binocular a simple vista. El primero debe usar anteojos polarizados, lo que genera inconvenientes para la visualización, y el segundo requiere que los espectadores miren desde un ángulo fijo. Cuando varias personas miran el mismo monitor al mismo tiempo, la mayoría de los espectadores no pueden obtener la mejor posición de visualización, lo que afecta en gran medida la experiencia de visualización. Para la tecnología de video estereoscópico de múltiples vistas, dado que la misma pantalla estereoscópica 3D a simple vista puede proporcionar contenido desde múltiples perspectivas al mismo tiempo, los espectadores pueden mirar desde cualquier ángulo libre, lo que mejora en gran medida la comodidad de visualización. Por lo tanto, el vídeo estéreo multivista se ha convertido en la corriente principal de la investigación tecnológica actual. Sin embargo, en comparación con el vídeo estereoscópico binocular, el volumen de datos del vídeo estereoscópico de múltiples puntos de vista se ha duplicado, lo que genera inconvenientes para el almacenamiento y la transmisión. La tecnología de vídeo estereoscópico de múltiples puntos de vista basada en mapas de profundidad tiene la ventaja de un pequeño volumen de datos, por lo que se ha convertido en la solución de vídeo estereoscópico de múltiples puntos de vista con mayor potencial. Este artículo realiza una investigación en profundidad sobre algunas tecnologías clave de la tecnología de video tridimensional de múltiples puntos de vista basada en mapas de profundidad y realiza los experimentos de simulación correspondientes. Los capítulos de este artículo están organizados de la siguiente manera: la Sección 2 presenta la arquitectura general de un sistema estéreo 3D de múltiples puntos de vista basado en mapas de profundidad, la Sección 3 presenta la extracción de mapas de profundidad, la Sección 4 presenta la generación de puntos de vista virtuales, la Sección 5 presenta el video de múltiples puntos de vista Síntesis, Sección 6 La sección resume el texto completo.

1. Marco de sistema de vídeo tridimensional multipunto de vista basado en mapa de profundidad.

El marco técnico del sistema de vídeo estereoscópico 3D multipunto basado en mapas de profundidad se muestra en la Figura 1. Primero necesitas capturar la secuencia de video original. Aunque el sistema final de visualización estereoscópica de múltiples vistas a simple vista requiere contenido de video desde 9 o más puntos de vista, la etapa de filmación de la secuencia de video original real solo necesita capturar videos desde 2 o 3 puntos de vista. Esto se debe a que la tecnología de generación de puntos de vista virtuales basada en el mapa de profundidad puede generar videos de puntos de vista virtuales desde múltiples puntos de vista (9 puntos de vista en este artículo) en el extremo del decodificador. Por lo tanto, la tecnología de video estereoscópico de múltiples puntos de vista basada en el mapa de profundidad tiene ventajas. de pequeño volumen de datos y fácil transmisión.

Una vez filmada la secuencia de vídeo original, es necesario extraer el mapa de profundidad y calcular los parámetros de la cámara. La calidad del mapa de profundidad extraído en este paso determina directamente la calidad del vídeo del punto de vista virtual generado posteriormente. Después de completar los pasos anteriores, es necesario comprimirlo, codificarlo y transmitirlo al extremo de decodificación a través de la red. Después de decodificar los datos, el decodificador generará puntos de vista virtuales basados ​​en el mapa de profundidad. Los datos de video originales de 2 a 3 puntos de vista se convertirán en datos de video de 9 puntos de vista. Los datos de video de 9 puntos de vista obtenidos no se pueden reproducir directamente en una pantalla estereoscópica 3D de múltiples puntos de vista a simple vista, por lo que la síntesis de video de múltiples puntos de vista debe realizarse en la estructura de rejilla 3D utilizada por la pantalla.

En los capítulos siguientes de este artículo, se presentarán en detalle la extracción de mapas de profundidad, la generación de puntos de vista virtuales y la síntesis de video de múltiples puntos de vista, y se llevarán a cabo los experimentos de simulación correspondientes.

En segundo lugar, extracción del mapa de profundidad

2.1 Introducción al mapa de profundidad

El mapa de profundidad es una imagen en escala de grises (que se muestra en la Figura 2-b), y el valor de la escala de grises El rango es 0-255. El valor de la escala de grises se puede convertir con la información de profundidad de la escena para obtener el valor de profundidad, que se puede utilizar en aplicaciones prácticas de sistemas de vídeo estereoscópico.

Los píxeles del mapa de profundidad son valores de escala de grises 0-255. Como se mencionó anteriormente, los mapas de profundidad se utilizan principalmente para la generación de puntos de vista virtuales. En este proceso, utilizamos el valor de profundidad real, por lo que debemos establecer una relación de conversión para convertir el valor de escala de grises del píxel en el mapa de profundidad al valor de profundidad real:

En la fórmula (1) , z es el valor de profundidad que necesitamos durante el proceso de generación del punto de vista virtual, V representa el valor de gris del píxel en la imagen de profundidad en la Figura 2-b, Znear y Zfar representan respectivamente la profundidad más cercana y la profundidad más lejana en la escena capturada por el vídeo, que ambos valores deben medirse durante la filmación de la secuencia de vídeo original.

2.2 Extracción de mapas de profundidad basada en coincidencia de bloques

Utiliza dos cámaras colocadas una al lado de la otra para capturar la misma escena y obtener dos imágenes. Para obtener un mapa de profundidad de una imagen, debe emparejar píxeles con otra imagen. Después de hacer coincidir los píxeles, obtendrá la disparidad de cada píxel entre las dos imágenes. La relación entre el valor de profundidad y el valor de disparidad es la siguiente:

donde z es el valor de profundidad requerido y d es el. Vista obtenida después de la coincidencia de píxeles. La diferencia, f es la distancia focal de la cámara y b es la distancia de referencia entre las dos cámaras. Por lo tanto, utilizando el valor de disparidad d, se puede obtener fácilmente el valor de profundidad z. Pero la clave es obtener valores de disparidad precisos, por lo que se requiere una coincidencia precisa de píxeles. Pero, de hecho, debido a las diferencias en los parámetros de exposición de diferentes cámaras, incluso si se toma la misma escena, todavía hay diferencias de brillo entre los píxeles, por lo que utilizamos el método de coincidencia de bloques de imágenes para mejorar la solidez de la coincidencia de píxeles hasta cierto punto. En este experimento, se utilizan bloques de imágenes de tamaño 3?3. Cabe señalar que, de forma predeterminada, la secuencia de video original se graba con dos cámaras estrictamente paralelas horizontalmente, por lo que solo se realizan búsquedas horizontales al hacer coincidir bloques de imágenes, y no verticales. se realiza la búsqueda. Todo el proceso de extracción del mapa de profundidad se muestra en la Figura 3.

El mapa de profundidad extraído de la secuencia de vídeo de múltiples vistas proporcionada por la organización internacional de estándares de vídeo MPEG se muestra en la Figura 4.

Tercero, generación de puntos de vista virtuales

La tecnología de generación de puntos de vista virtuales [2] puede proyectar los píxeles en los puntos de vista izquierdo y derecho en cualquier posición entre los dos puntos de vista, generando así una cámara que es Originalmente no es una cámara. Se toma la imagen de video del punto de vista virtual (como se muestra en la Figura 5), ​​lo que requiere el mapa de profundidad y los parámetros de la cámara de los puntos de vista izquierdo y derecho. Esta tecnología utiliza principalmente un algoritmo de proyección 3D para encontrar puntos correspondientes entre dos planos de imagen. El proceso específico consiste en proyectar un punto en un plano de imagen a un sistema de coordenadas mundial tridimensional y luego proyectar el punto desde el sistema de coordenadas mundial tridimensional a otro plano de coordenadas de imagen.

Para cualquier punto p0 dado, las coordenadas son (u0, V0), que se ubica en el plano de la imagen v0. Si desea encontrar las coordenadas (u1, V1) del punto correspondiente P1 y su punto de cambio está en el plano de la imagen v1, entonces el cálculo de todo el proceso de proyección tridimensional es el siguiente:

Aquí, Z es del mundo 3D. La distancia desde un punto en el sistema de coordenadas hasta la cámara a lo largo del eje Z del sistema de coordenadas de la cámara, p es la matriz de proyección correspondiente. La matriz de proyección P consta de la matriz interna de la cámara K, la matriz de rotación R y la matriz de traslación t. La descripción específica de P es la siguiente: ¿Dónde K es 3? La matriz triangular superior de 3 consta de la distancia focal f. parámetro de inclinación? Consta de puntos teóricos (u', v') en la posición de la cámara virtual. r y t describen la posición de la cámara en el espacio de coordenadas mundial.

A través de los pasos anteriores, se puede implementar inicialmente la síntesis de puntos de vista basada en mapas de profundidad.

Cuarto, síntesis de vídeo multivista

4.1 Principio de visualización estereoscópica 3D a simple vista

Para permitir a los espectadores experimentar el efecto estereoscópico 3D, el principio básico es permitir que sus ojos vean diferentes imágenes al mismo tiempo, logrando así un efecto tridimensional. El método más sencillo es usar gafas especiales, que pueden controlar a la fuerza lo que ves, pero esta solución trae grandes inconvenientes para el espectador (especialmente aquellos que usan gafas). La solución adoptada en este artículo es la visualización estereoscópica 3D a simple vista. El método de implementación principal es agregar una barrera de paralaje frente a la pantalla y controlar la dirección de salida de cada luz de píxel a través de la barrera, de modo que parte de la imagen solo ingrese al ojo izquierdo y parte de la imagen solo ingrese al ojo izquierdo. ojo derecho, formando así paralaje binocular y produciendo visión estereoscópica (Figura 6).

4.2 Síntesis de video de múltiples vistas

La estructura de barrera de paralaje 3D a simple vista utilizada en este artículo es relativamente compleja y puede controlar el contenido de la imagen de 9 puntos de vista a través de su cerca. que se pueden sintetizar las imágenes de 9 puntos de vista simultáneamente en un mismo monitor. Aunque el espectador sólo puede ver dos imágenes al mismo tiempo, el ángulo de visión de la pantalla aumenta considerablemente.

Para que coincida con la visualización de la valla ráster de 9 vistas, necesitamos reorganizar los píxeles RGB de la imagen de 9 vistas. La secuencia de reorganización se muestra en la Figura 7. Los números en la figura representan el número de puntos de vista. Si los valores RGB de las 9 imágenes de puntos de vista se reorganizan en el orden de la figura, se obtendrá una imagen estereoscópica con una resolución 9 veces mayor que la de cada imagen de puntos de vista original, que se puede reproducir a simple vista en múltiples puntos de vista. Pantalla 3D. La imagen estereoscópica compuesta de imágenes de 9 puntos de vista se muestra en la Figura 8 (el efecto estereoscópico solo se puede ver en la pantalla estereoscópica de rejilla de 9 puntos de vista a simple vista).

Conclusión

La tecnología de vídeo estereoscópico de múltiples vistas basada en mapas de profundidad es actualmente un tema de investigación candente en vídeo estereoscópico tridimensional. Esta tecnología no requiere el uso de gafas de vídeo estereoscópicas 3D especiales y tiene las ventajas de un volumen total de datos pequeño y un ángulo de visión amplio. Este artículo lleva a cabo un estudio en profundidad de varias tecnologías clave de un sistema de video estereoscópico 3D a simple vista con múltiples puntos de vista basado en mapas de profundidad, incluida la extracción de mapas de profundidad, la síntesis de puntos de vista virtuales y la síntesis de video de múltiples puntos de vista, y realiza los experimentos de simulación correspondientes.

Referencia

[1] M? ller, k; Merck, pág. Zweigende; "Representación de vídeo tridimensional utilizando mapas de profundidad", Actas del IEEE, Volumen 99, Número 4, Páginas 643-656, abril de 2065438+01

[2] En Jiki-Niya, p; Kopel, M; Dr. Doshkov; K. Muller; Zweigende; "Representación de vídeo tridimensional y síntesis de textura avanzada basada en imágenes de profundidad", Multimedia, IEEE Transactions, volumen 13, número 3, páginas 453-465, junio de 2011

[3] Müller, k; Merck, pág. "Desafíos de la estandarización del vídeo 3D", Comunicaciones visuales y procesamiento de imágenes (VCIP), IEEE 2011, volumen, páginas 1-4, 6-9 de noviembre de 2011

[4] Sourimant, g; y método eficiente para calcular mapas de profundidad para videos de múltiples vistas", 3D TV-Conference: The True Vision-Capture, Transmission and Display of 3D Video (3D TV-CON), 2010, vol., págs. 1-4, junio 7-9, 2010

[5] Hopf, K; "Pantallas autoestereoscópicas que brindan condiciones de visualización cómodas y alta telepresencia", Circuitos y sistemas para tecnología de video, IEEE Transactions, Volumen 10, Número 3, Páginas 359- 365, abril de 2000

Haga clic en la página siguiente para obtener más detalles> & gt& gtDocumento técnico sobre 3D a simple vista