GenStereo: Auf dem Weg zur Open-World-Generierung von Stereo-Bildern und unüberwachter Bildzuordnung
GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching
March 17, 2025
Autoren: Feng Qiao, Zhexiao Xiong, Eric Xing, Nathan Jacobs
cs.AI
Zusammenfassung
Stereo-Bilder sind grundlegend für zahlreiche Anwendungen, einschließlich Extended-Reality (XR)-Geräten, autonomen Fahren und Robotik. Leider bleibt die Erfassung hochwertiger Stereo-Bilder aufgrund der präzisen Kalibrierungsanforderungen von Dual-Kamera-Setups und der Komplexität der Erstellung genauer, dichter Disparitätskarten eine Herausforderung. Bisherige Methoden zur Stereo-Bildgenerierung konzentrieren sich typischerweise entweder auf die visuelle Qualität für die Betrachtung oder die geometrische Genauigkeit für die Zuordnung, jedoch nicht auf beides. Wir stellen GenStereo vor, einen diffusionsbasierten Ansatz, der diese Lücke schließt. Die Methode umfasst zwei wesentliche Innovationen: (1) die Konditionierung des Diffusionsprozesses auf eine disparitätsbewusste Koordinaten-Einbettung und ein verzerrtes Eingabebild, wodurch eine präzisere Stereo-Ausrichtung als bei bisherigen Methoden ermöglicht wird, und (2) einen adaptiven Fusionsmechanismus, der das diffusionsgenerierte Bild intelligent mit einem verzerrten Bild kombiniert, wodurch sowohl der Realismus als auch die Disparitätskonsistenz verbessert werden. Durch umfangreiches Training auf 11 verschiedenen Stereo-Datensätzen zeigt GenStereo eine starke Generalisierungsfähigkeit. GenStereo erreicht Spitzenleistungen sowohl in der Stereo-Bildgenerierung als auch in unüberwachten Stereo-Zuordnungsaufgaben. Unser Framework eliminiert die Notwendigkeit komplexer Hardware-Setups und ermöglicht gleichzeitig die Generierung hochwertiger Stereo-Bilder, was es sowohl für reale Anwendungen als auch für unüberwachte Lernszenarien wertvoll macht. Die Projektseite ist unter https://qjizhi.github.io/genstereo verfügbar.
English
Stereo images are fundamental to numerous applications, including extended
reality (XR) devices, autonomous driving, and robotics. Unfortunately,
acquiring high-quality stereo images remains challenging due to the precise
calibration requirements of dual-camera setups and the complexity of obtaining
accurate, dense disparity maps. Existing stereo image generation methods
typically focus on either visual quality for viewing or geometric accuracy for
matching, but not both. We introduce GenStereo, a diffusion-based approach, to
bridge this gap. The method includes two primary innovations (1) conditioning
the diffusion process on a disparity-aware coordinate embedding and a warped
input image, allowing for more precise stereo alignment than previous methods,
and (2) an adaptive fusion mechanism that intelligently combines the
diffusion-generated image with a warped image, improving both realism and
disparity consistency. Through extensive training on 11 diverse stereo
datasets, GenStereo demonstrates strong generalization ability. GenStereo
achieves state-of-the-art performance in both stereo image generation and
unsupervised stereo matching tasks. Our framework eliminates the need for
complex hardware setups while enabling high-quality stereo image generation,
making it valuable for both real-world applications and unsupervised learning
scenarios. Project page is available at https://qjizhi.github.io/genstereoSummary
AI-Generated Summary