![]() |
|||||
![]() |
Año
15 Número
59 Julio de 2002
Los humanos somos seres visuales. Interpretamos el mundo que nos rodea a través de imágenes que vemos con nuestros ojos. Somos capaces de percibir dichas imágenes y los objetos que las componen en tres dimensiones: alto, ancho y profundidad, y de ello se deriva el famoso nombre 3D. Esta habilidad se llama visión estéreo y es la razón por la cual podemos distinguir con precisión la posición, la forma y el tamaño de todo aquello que nos rodea. Además, también es la manera en que pensamos y nos comunicamos. Cuando comunicamos un mensaje, queremos que las personas vean lo que hemos imaginado. Constantemente estamos tratando de comunicar nuestras ideas en maneras más ricas y exactas, y es debido a esta razón que nuestra sociedad es cada vez más intensa visualmente. No importa si nos encontramos trabajando en la mecánica de un avión, aprendiendo química, jugando fútbol o vendiendo refrescos; en cualquiera de estos casos necesitamos comunicar información visualmente. Hoy en día, esa comunicación se hace en formatos planos en dos dimensiones (2D) que no comunican fielmente la complejidad del mundo en 3D, la cual percibimos en forma natural. La habilidad de desplegar imágenes reales en 3DÑes decir, que el usuario final vea una imagen flotar afuera de la pantallaÑpermite que un arquitecto trabaje en sus diseños como si ya estuvieran construidos, que una compañía entrene a un ingeniero nuevo sin tener que incurrir en costosos errores físicos, que un desarrollador le dé el máximo impacto gráfico a los videojuegos. Asimismo, hace que nuestros clientes jamás olviden el logotipo de nuestra empresa. Ver imágenes en 3D permite que las personas se comuniquen fielmente y de manera natural [1]. Esta tesis busca convertir imágenes en 2D a un formato estéreo 3D con un mínimo de condiciones previas. La intención final es que la conversión de 2D a 3D se pueda aplicar directamente usando las técnicas y tecnologías actuales de captura y despliegue de imágenes y, en especial, video.
La visión estéreo 3D se da cuando se hacen llegar dos imágenes un poco diferentes al cerebro: una perspectiva del ojo izquierdo y otra del ojo derecho. La diferencia horizontal entre cada perspectiva se llama paralaje y se debe a la distancia que existe entre el ojo izquierdo y el derecho, llamada distancia interocular, que usualmente es entre los 6.5 y 7 cm. Estas dos perspectivas son fusionadas por el cerebro en una sola imagen que expresa fielmente el mundo en 3D (Figura 1). Dicha visión es un sentido llamado estereopsis, que percibimos como profundidad y nos permite saber cuáles objetos están cerca y cuáles están lejos. Hoy en día existen sistemas de televisión que permiten desplegar imágenes en 3D, por ejemplo, el sistema de televisión estereoscópica [2]. Como se mencionó anteriormente, para generar una imagen estéreo 3D se requiere de dos puntos de vista correspondientes a los dos ojos humanos. En el estándar de televisión NTSC (National Television Systems Committee) un cuadro de imagen está compuesto por dos campos entrelazados: un campo compuesto únicamente por líneas impares y otro por líneas pares que, al ser entrelazados, forman un cuadro completo de 525 líneas. Aprovechando esta característica de la señal de televisión, el sistema utiliza dos puntos de vista (como en la visión humana) usando dos cámaras. La salida de las cámaras son dos señales de video sincronizadas de la misma escena desde diferentes puntos de vista. El sistema toma un campo (campo de líneas impares) de una cámara (ojo izquierdo) y lo despliega en la pantalla de la televisión y después el segundo campo (líneas pares) de la otra cámara (ojo derecho) y así completa un cuadro entrelazado de video en 3D (Figura 2).
Figura 2 Una vez desplegada la imagen en 3D sobre la pantalla de la televisión, es necesario que los ojos del observador vean la perspectiva que les corresponde. Para ello el observador utiliza unos lentes de cristal líquido que son polarizados a un estado transparente o negro permitiendo que sólo un ojo vea a la vez. De esta manera, cuando la perspectiva izquierda está desplegándose en la pantalla, el ojo derecho está tapado y la imagen sólo llega al ojo izquierdo. De la misma manera, cuando la perspectiva derecha se está desplegando, el ojo izquierdo está tapado y la imagen sólo llega al ojo derecho (Figura 2). En otras palabras, el sistema de televisión estereoscópica captura dos imágenes que contienen paralaje entre ellas. Dicho paralaje es interpretado por el cerebro como la relación de profundidad de los objetos que conforman las imágenes capturadas por las cámaras (Figura 3).
Figura 3 Un sistema de conversión de imágenes de 2D a estéreo 3D toma una imagen en 2D capturada con una sola cámara y estima la relación de profundidad relativa de los objetos que componen la escena de la imagen, para después generar artificialmente dos imágenes con paralaje entre sí, correspondiente a dicha estimación de profundidad y a cada perspectiva, es decir, una perspectiva izquierda y una perspectiva derecha. Para lograr convertir una imagen de 2D a un formato en 3D, primero es necesario conocer la relación de profundidad de los objetos que componen la escena de la imagen, es decir, identificar qué objetos están enfrente, qué objetos están atrás y en qué orden. Al conocer esto, se puede saber qué paralaje corresponde a cada objeto de la imagen y mantener una coherencia al artificialmente generar las perspectivas derecha e izquierda para ver la imagen en 3D. Una imagen (Figura 4) es una matriz de valores que representan intensidades de luz y color. A cada elemento de la matriz se le llama pixel. Una estimación de profundidad ideal de una imagen en 2D es una matriz cuyos elementos representan la posición de profundidad del pixel correspondiente de la imagen; dicha matriz también es conocida como un mapa de profundidad.
Figura 4 Para esto, se propone primero hacer un mapa de profundidad de baja resolución el cual describe por cada elemento de la matriz la profundidad estimada de un bloque de 16 X 16 pixeles de la imagen. Dicho mapa de profundidad se calcula haciendo una transformada wavelet de cada bloque y contando los coeficientes diferentes de cero [3]. Una cuenta de coeficientes grande (valores cercanos a 256) indica que el bloque de pixeles de la imagen está en una posición hacia enfrente de los objetos que componen la escena y valores bajos (valores cercanos a 1) indican que el bloque de pixeles de la imagen está en una posición hacia atrás de los objetos que componen la escena (Figura 5).
Figura 5 El siguiente paso es aumentar la resolución del mapa de profundidad por bloques a una resolución a nivel pixel. Para ello, se utiliza un algoritmo de identificación de contornos para separar en secciones que corresponden a los objetos de la imagen y, usando la medición de profundidad anterior por bloques, llegar a la resolución deseada; cada elemento del mapa de profundidad es una medida de profundidad relativa de su correspondiente pixel en la imagen. Esto se hace usando un análisis de cada contorno y midiendo su enfoque a través de la estimación de su regularidad Lipschitz de la transformada wavelet [4] (Figura 6).
Figura 6 Una vez que se tiene un mapa de profundidad confiable, lo único que resta hacer es artificialmente generar una perspectiva izquierda y una perspectiva derecha de manera que el paralaje artificial esté en función del mapa de profundidad estimado de la imagen. Para esto se propone un nuevo algoritmo que permite evitar problemas de oclusión [5]. Se inicia por determinar qué secciones son componentes del fondo de la imagen y se colocan en las perspectivas artificiales con un paralaje de expansión según la perspectiva correspondiente. Después, se colocan las secciones más cercanas de la misma manera hasta llegar al objeto frontal (Figura 7).
Figura 7 De esta manera, el algoritmo propuesto genera artificialmente de una imagen en 2D, las perspectivas necesarias para ver la escena en 3D, de tal forma que los objetos que se encuentran en la parte frontal de la escena dan una sensación al observador de salirse de la pantalla, mientras que los objetos que se encuentran en el fondo dan la impresión de estar detrás de la pantalla donde se proyectan las imágenes. Bibliografía [1]. Sergio Aguirre Valencia. 3D Technology Ð Innouva Technologies Business Plan. Innouva Technologies de México, S.A. de C.V.. Abril 2001. [2]. Sergio Aguirre Valencia, César Centeno Arriaga, Carlos Alejandro Covarrubias Valadez y Ricardo Guzmán Navarro. Sistema de Televisión Estereoscópica Ð IMPI 9810676. Instituto Mexicano de la Propiedad Industrial (IMPI). Diciembre 1998. Patente Mexicana. [3]. Bryan Usevitch. A tutorial on modern lossy wavelet image compression: Foundations of JPEG 2000. IEEE Signal Processing Magazine, September 2001. [4]. Stephane Mallat y Sifen Song. Characterization of signals from multiscale edges. IEEE Transactions on Pattern Analysis and Machine Intelligence. Vol. 14, Num. 7. Julio 1992. [5]. Philip Harman. An architecture for Digital 3D Broadcasting. Digital Dynamic Depth. (www.ddd.com/abouts/articles/3dbroadcasting.asp). Sergio Aguirre Valencia recibió el grado de Maestro en Ciencias en Ingeniería Electrónica con especialidad en Sistemas Electrónicos en mayo de 2002 del Tec de Monterrey, Campus Monterrey. Es fundador de la empresa, Innouva Technologies de México. El Dr. Ramón Rodríguez Dagnino, profesor del Centro de Electrónica y Telecomunicaciones, fue asesor de esta tesis.
|
||||