Detalles del modelado fotográfico
Según nuestra investigación de seguimiento a largo plazo sobre campos técnicos relacionados en el país y en el extranjero, existen algunas instituciones internacionales como Microsoft, Autodesk, la Universidad de Stanford, el MIT, etc. Reconstrucción rápida de formas tridimensionales a partir de imágenes. Hay buenos resultados de investigación en este campo, pero son sólo resultados de investigaciones de laboratorio y aún no se pueden comercializar. Microsoft alguna vez proporcionó servicios de reconstrucción 3D basados en imágenes en Internet, pero debido a la gran cantidad de visitas de usuarios y la mala tecnología, no pudo realizar servicios técnicos pesados, por lo que rápidamente cerró los servidores correspondientes. Actualmente se han vendido a nivel internacional sistemas de reconstrucción 3D basados en imágenes, como por ejemplo la empresa canadiense FOTO3D. Sin embargo, requiere mucha interacción manual y tiene altos requisitos en cuanto al entorno de disparo y la precisión de disparo, por lo que el reconocimiento del mercado no es alto.
En China, a excepción de instituciones como la Universidad de Pekín, la Universidad de Tsinghua, el Instituto de Automatización de la Academia China de Ciencias, la Universidad de Beihang, la Universidad Politécnica de Hong Kong, la Universidad de Ciencia y Tecnología de Beijing y la Compañía Everbright, esta La tecnología se encuentra casi en la etapa académica y hay poca investigación sustancial y profunda. En términos de comercialización y productización, solo existen las plataformas Autodesk 123D Catch y Beike Everbright 3DCloud. Sin embargo, los enfoques de investigación de estas instituciones de investigación científica son diferentes. Por ejemplo, la Universidad de Beihang se centra principalmente en la investigación de escenas virtuales utilizadas en el campo militar, y la Universidad Politécnica de Hong Kong se centra principalmente en la investigación de síntesis facial tridimensional.
2. Características técnicas
Si el objeto se digitaliza tridimensionalmente se obtiene un modelo tridimensional del mismo. En la actualidad, existen generalmente tres métodos para construir modelos 3D:
1) Modelado por software 3D:
Hay muchos programas de modelado excelentes disponibles en el mercado, entre los que se encuentra el conocido uno es 3DMAX, Maya, etc. Son similares en que a través de una serie de operaciones geométricas como traslación, rotación, estiramiento y operaciones booleanas, algunos elementos geométricos básicos, como cubos, esferas, etc., se utilizan para construir escenas geométricas complejas. Este método requiere que el operador tenga un amplio conocimiento profesional y sea competente en el uso de software de modelado. La operación es compleja y el ciclo es largo. El modelo 3D del componente final no es muy realista. Generalmente se utiliza en juegos, diseño de animación y diseño arquitectónico como arquitectura, y pertenece a la categoría de diseño.
2) Modelado con instrumentos y equipos:
El escáner 3D también se llama digitalizador tridimensional. En la actualidad, los escáneres 3D utilizan principalmente láser, luz estructurada y otras tecnologías para obtener información de coordenadas 3D a través de la retroalimentación de la luz emitida, mientras que el color de la textura se obtiene básicamente a través de la cámara del dispositivo. Este método requiere equipos de hardware costosos, como escáneres 3D, y debido a las limitaciones de la tecnología en sí, algunos materiales y colores se ven afectados por la absorción de la luz por reflexión o refracción, lo que genera muchas lagunas en el modelo 3D resultante y el escaneo no se puede realizar. terminado. Los ejemplos incluyen cabello humano, ropa oscura y objetos transparentes. Además, actualmente los escáneres 3D solo pueden obtener información de posición de los objetos, y la mayoría de las características de textura en la superficie del objeto requieren mucho trabajo manual, por lo que todo el proceso es costoso y requiere mucho tiempo. Debido a la alta precisión de la cuadrícula, se utiliza generalmente en la producción industrial, la restauración de reliquias culturales y otros campos, y pertenece al campo de la tecnología de reconstrucción tridimensional.
3) Modelado fotográfico (modelado basado en imágenes/vídeo):
El modelado y renderizado basado en imágenes (IBMR) es un campo de investigación muy activo en gráficos por ordenador. La tecnología IBMR tiene muchas ventajas únicas en comparación con el modelado y la representación tradicionales basados en geometría. La tecnología de modelado y renderizado basada en imágenes nos proporciona la forma más natural de lograr imágenes realistas. Al utilizar la tecnología IBMR, el modelado se vuelve más rápido y conveniente, y se puede obtener una alta velocidad de renderizado y un alto realismo. Los últimos avances de la investigación de IBMR han logrado muchos resultados fructíferos, que pueden cambiar fundamentalmente nuestra comprensión y concepto de los gráficos por computadora. Dado que la imagen en sí contiene información rica sobre la escena, es fácil obtener un modelo de escena fotorrealista a partir de la imagen. El objetivo principal del modelado basado en imágenes es recuperar la estructura geométrica tridimensional de una escena a partir de una imagen bidimensional. La recuperación de objetos tridimensionales a partir de imágenes bidimensionales pertenece originalmente a los gráficos por computadora y la visión por computadora. Los investigadores en gráficos por ordenador y visión por ordenador están ahora interesados en este campo debido a sus amplias perspectivas de aplicación. En comparación con el método tradicional de obtener modelos 3D utilizando software de modelado o escáneres 3D, el método de modelado basado en imágenes tiene las ventajas de un bajo costo, un fuerte sentido de la realidad y un alto grado de automatización, y tiene amplias perspectivas de aplicación. Este método es simple de operar, tiene un alto grado de automatización, bajo costo, textura y color realistas y no está limitado por el tiempo ni el espacio.
Por ejemplo, el 3DCloud doméstico se ejecuta en forma de nube. Siempre que cargue fotos en la nube, puede generar automáticamente un modelo 3D. Se utiliza principalmente en muchos campos de aplicación, como visualización 3D, impresión 3D, medios cinematográficos y televisivos, producción publicitaria, realidad virtual, etc. Debido a factores como el bajo costo, tiene buenas perspectivas de desarrollo futuro.
3. Principios técnicos
Calcular características tridimensionales y reconstruir escenas a partir de múltiples imágenes bidimensionales es un contenido de investigación importante en los campos de la visión por computadora y los gráficos. Ha habido muchos estudios relacionados. La calibración precisa de la cámara es muy importante para las tareas de reconstrucción 3D basadas en imágenes. Para aplicaciones que requieren una alta precisión de reconstrucción de modelos o escenas 3D y donde el entorno de disparo se puede personalizar según demanda, la tecnología de calibración fuera de línea generalmente puede satisfacer mejor las necesidades del usuario. Por el contrario, si necesita analizar y reconstruir escenas a partir de algunas imágenes o secuencias de video que no pueden personalizar el entorno o carecen de información de calibración, solo puede utilizar tecnología de calibración en línea.
En vista de la importancia de la tecnología de calibración de cámaras en la reconstrucción 3D, dividimos las tecnologías relacionadas en dos categorías: tecnología de reconstrucción 3D basada en la calibración de cámaras fuera de línea y tecnología de reconstrucción 3D basada en la calibración de cámaras en línea, y las detallamos. Se discuten respectivamente su historia de investigación, situación actual y tendencias de desarrollo.
① Tecnología de reconstrucción tridimensional basada en la calibración de cámaras fuera de línea.
La tecnología de calibración de cámara fuera de línea requiere parámetros internos y externos precisos de la cámara como entrada y premisa del algoritmo de reconstrucción. Actualmente, el algoritmo de calibración de cámaras fuera de línea más popular fue propuesto por Tsai en 1987 [Tsai 1987]. El método TSAI utiliza un objeto de calibración tridimensional con marcas de calibración especiales para planos que no son * para proporcionar la correspondencia entre los puntos de la imagen y sus puntos espaciales tridimensionales correspondientes para calcular los parámetros de calibración. Otro método práctico fue propuesto por Zhang en 1999 [Bouguet2007], que requiere la calibración de al menos dos vistas diferentes de una figura de calibración plana. La herramienta de calibración de cámaras de Caltech implementa eficazmente los dos métodos anteriores y se ha integrado en la biblioteca de algoritmos de visión OpenCV [OpenCV2004] de Intel. Mediante el algoritmo de calibración, se puede calcular la matriz de proyección de la cámara para proporcionar información de medición tridimensional de la escena. Se pueden lograr reconstrucciones medidas de niveles de transformación similares sin proporcionar los parámetros absolutos de traslación, rotación y escala de la escena real.
②Reconstrucción basada en imágenes
En la tecnología de reconstrucción basada en imágenes, se pueden considerar tanto la coincidencia de características escasas como la coincidencia de características densas, y generalmente deben seleccionarse en función del fondo y la escena de la aplicación. características. La detección de características es un paso crítico en el marco de reconstrucción precisa. Las características en el sentido tradicional se definen como áreas o ubicaciones de la imagen con grandes cambios de brillo o cromaticidad en al menos una dirección específica [Moravec1977]. Harris et al. utilizaron primeras derivadas para estimar los valores de correlación cruzada local [Harris1988]. Este método puede proporcionar resultados de detección sólidos, pero en algunos casos carece de precisión de localización. Beaudet et al. utilizan el producto del gradiente y la curvatura para caracterizar y detectar puntos de esquina [Beaudet1978]. El detector SUSAN propuesto por Smith et al. utiliza la información de tamaño, centro y momento del área característica para detectar puntos de esquina. El operador de detección de características invariantes de escala SIFT propuesto por Lowe es actualmente un algoritmo popular [SIFT2004]. La ventaja de SIFT es que puede extraer de manera efectiva características como la rotación y la escala hasta cierto punto, reduciendo así en gran medida la dependencia del algoritmo de detección de características del entorno y la calidad de la imagen. Koser et al. ampliaron aún más el concepto de características invariantes de perspectiva a partir de la idea de SIFT [Koser2007].
Después de la detección de características, generalmente se requiere la coincidencia de características entre múltiples vistas. El rendimiento del algoritmo de coincidencia de características se verá afectado por ruidos desconocidos en la imagen, como la distorsión de la lente, el entorno de iluminación, la oclusión de la escena, etc. Actualmente existen dos formas principales de resolver el problema de coincidencia. La primera idea es detectar registros de características en fotogramas clave y utilizar un algoritmo de seguimiento para rastrear ese conjunto de características en fotogramas posteriores. El algoritmo representativo es un algoritmo de seguimiento basado en flujo óptico como el algoritmo de Lucas-Kanade [Tomasi1991]. La segunda idea es detectar características de forma independiente en múltiples vistas y establecer pares de características coincidentes mediante la asociación de datos. Esto se puede lograr mediante un algoritmo de correlación de regiones simple [Zhang1995], o definiendo una función objetivo que describa la similitud y mediante varios medios. [Li1994].
Para ocasiones en las que se requiere una reconstrucción densa de escenas, también se requiere una coincidencia densa de múltiples vistas.
El rendimiento del algoritmo denso de coincidencia de vistas múltiples afecta directamente la calidad de la reconstrucción final. Cuando los puntos de muestreo de la imagen son lo suficientemente densos, se puede utilizar la tecnología de flujo óptico para simular el desplazamiento de píxeles o características entre imágenes adyacentes. La triangulación de estructuras 3D también se puede simular utilizando flujo óptico con información de correspondencia punto a punto. Bajo el supuesto de un muestreo espacial denso, el flujo óptico puede aproximarse efectivamente mediante desplazamientos propios de coeficientes [Zucchelli 2002].
Mediante la tecnología de corrección de imagen, las líneas epipolares correspondientes en las dos vistas se pueden ajustar para que sean horizontales y estén en la misma línea de escaneo horizontal, de modo que se pueda utilizar el algoritmo binocular tradicional basado en el paralaje horizontal para restaurar la profundidad. información. Dentro de este marco, se pueden utilizar campos aleatorios de Markov para modelar y algoritmos de optimización basados en la teoría de grafos se pueden utilizar para resolver problemas [Scharstein2002].
Reconstrucción basada en vóxeles
En los últimos años, con la rápida mejora de la velocidad informática y el rendimiento del almacenamiento, los métodos de representación de estructuras de escenas basados en volúmenes se han convertido en una realidad. Existen muchos métodos para recuperar datos de volumen de escenas a partir de secuencias de imágenes. Un enfoque común es recuperar el casco visual de un objeto en primer plano a partir de múltiples vistas como una aproximación reconstruida del objeto. En general, el tamaño del casco visual disminuye monótonamente a medida que aumenta el número de imágenes involucradas en el cálculo. Un método común es separar las áreas de primer plano y de fondo de cada imagen, proyectar el área de primer plano nuevamente en un espacio tridimensional y cruzarlas para obtener el casco visual [Szeliski93]. Snow propuso un algoritmo de ocupación de vóxeles para lograr una segmentación tridimensional mediante un algoritmo de corte de gráficos basado en etiquetas de vóxeles [Snow2000]. Para imágenes con características obvias de distinción de color, también se puede considerar el uso de compatibilidad de color, es decir, retener solo los vóxeles espaciales compatibles con el color para establecer restricciones para resolver información tridimensional [Seitz1999]. Para simplificar el corte espacial basado en la visibilidad, Seitz et al. propusieron restricciones de visibilidad ordenadas para las posiciones de las cámaras [Seitz1999]. Como mejora adicional del marco anterior, Prock propuso un esquema de sombreado de vóxeles de resolución múltiple [Prock1998], y Culbertson et al. propusieron un modelo de compatibilidad de color generalizado que puede calcular con precisión la visibilidad [Culbertson1999].
En comparación con la tecnología de reconstrucción basada en imágenes, la tecnología de reconstrucción basada en vóxeles no requiere coincidencia de características de visualización y puede manejar los problemas de oclusión de manera más efectiva, pero su posible desventaja es que consume una gran cantidad de memoria en un límite de tiempo determinado. la precisión de la reconstrucción. En algunos casos, las restricciones de visibilidad ordenadas son demasiado fuertes.
Reconstrucción basada en objetos
A diferencia de la idea de utilizar vóxeles para discretizar la escena en los algoritmos de reconstrucción basados en vóxeles, la tecnología de reconstrucción basada en objetos se centra en restaurar directamente las superficies de objetos en la escena. Faugeras et al. propusieron la reconstrucción de conjuntos de niveles como la primera tecnología de restauración tridimensional multivista orientada a objetos [Faugeras1998], que extendió el principio variacional de la restauración de profundidad a un problema de evolución de curvas que puede resolverse con conjuntos de niveles [Roberts 1996]. . El marco original para este trabajo tenía que asumir superficies difusamente reflectantes, y el trabajo posterior de Lin et al. debilitó este requisito, haciendo posible resolver el problema en entornos especulares y transparentes [Lin 2002].
③ Tecnología de reconstrucción tridimensional basada en la calibración online de la cámara.
En muchos casos, como por falta de equipo de calibración o cambio de parámetros de la cámara, no hay suficientes datos para admitir la calibración de la cámara fuera de línea, por lo que se necesita tecnología de calibración de cámara en línea para realizar la reconstrucción tridimensional de vistas múltiples de tales escenas. La principal diferencia entre los marcos de calibración en línea y fuera de línea radica en el método de calibrar la cámara o estimar los parámetros de la cámara. En la mayor parte de la literatura, la técnica de calibración fuera de línea se denomina autocalibración. Los métodos de autocalibración se pueden dividir aproximadamente en dos categorías: autocalibración basada en restricciones de escena y autocalibración basada en restricciones geométricas.
Autocalibración basada en restricciones de escena
Las restricciones de escena adecuadas a menudo pueden simplificar en gran medida la dificultad de la autocalibración. Por ejemplo, las líneas paralelas que están ampliamente presentes en edificios o escenas hechas por el hombre pueden ayudar a proporcionar información sobre puntos de fuga y líneas de fuga en tres direcciones ortogonales principales, y se pueden dar soluciones algebraicas o numéricas a los parámetros internos de la cámara basándose en ellas [Caprile1990]. Se puede resolver el punto de fuga votando y buscando el valor máximo. Barnard utilizó esferas gaussianas para construir el espacio de solución [Barnard 1983]. Quan, Lutton, Routher y otros ofrecen más estrategias de optimización [Quan 1989, Lutton 1994, Routher 2000].
La literatura [Quan1989] proporciona un algoritmo directo para buscar el espacio de soluciones, y el algoritmo mejorado proporcionado por Heuvel añade una condición de ortogonalidad forzada [Heuvel1998]. Caprile proporcionó un método de estimación de parámetros geométricos basado en tres puntos de fuga ortogonales principales, y Hartley utilizó curvas de calibración para calcular la distancia focal [Hartley2003]. Liebowitz et al. construyeron además las restricciones de la curva cuadrática absoluta desde la posición del punto de fuga y resolvieron la matriz de calibración mediante descomposición de Cox [Liebowitz1999].
Autocalibración basada en restricciones geométricas
La autocalibración basada en restricciones geométricas no requiere restricciones de escena externas y solo se basa en restricciones geométricas internas de múltiples vistas para completar la tarea de calibración. La teoría y el algoritmo de autocalibración utilizando superficies cuadráticas absolutas fueron propuestos por primera vez por Riggs [Riggs 1997]. La resolución de parámetros de cámara basados en la ecuación de Kruppa comenzó con el trabajo de Faugeras de Maybank [Faugeras 1992, Maybank 1992]. Hartley dio la matriz fundamental y dedujo otra derivación de la ecuación de Kruppa [Hartley1997]. La literatura [Sturm2000] llevó a cabo una discusión teórica sobre la incertidumbre de la ecuación de Kruppa. Se utilizan técnicas de autocalibración jerárquica para pasar de la reconstrucción proyectiva a la métrica [faugagers 1992]. Una de las principales dificultades de las técnicas de autocalibración es que no es ilimitada para ninguna imagen o secuencia de vídeo. De hecho, existen ciertas secuencias de movimiento o distribuciones de características espaciales que conducen a la degradación y soluciones singulares del marco de la solución de autocalibración. La literatura [Sturm1997] ofrece una discusión detallada y una clasificación de las situaciones de degradación. Para discusiones sobre la existencia de algunas situaciones especiales con solución y sus soluciones, consulte [Wilesde1996], etc.
4. Aplicaciones industriales
El modelo tridimensional del modelado fotográfico ha cumplido con los requisitos de la impresión 3D. La textura y el color del modelo son relativamente realistas, por lo que se utiliza ampliamente. .
1. Las aplicaciones de impresión 3D, especialmente las aplicaciones de estudio fotográfico de impresión 3D de retratos, tienen ventajas obvias, como colores brillantes y la combinación de conjuntos de cámaras para lograr captura instantánea y otras funciones. En comparación con los equipos de escaneo tridimensional existentes, tiene las ventajas de un bajo costo, una operación conveniente y un fuerte sentido de la realidad.
Aplicación de visualización 2.3D. La visualización 3D generalmente requiere archivos de modelo pequeños y texturas y colores realistas, por lo que se usa ampliamente en el comercio electrónico, medios publicitarios, producción 3D, realidad virtual, adaptación 3D y otros campos.
3. En otras aplicaciones, el modelado fotográfico puede generar rápidamente modelados de escenas grandes. Las fotografías obtenidas mediante fotografía aérea pueden generar rápidamente formas del terreno tridimensionales, que pueden usarse para mapas tridimensionales, estructuras militares y minas. y las mediciones de la pila de suelo esperan.