GenStereo: Auf dem Weg zur Open-World-Generierung von Stereo-Bildern und unüberwachter Bildzuordnung

Zusammenfassung

Stereo-Bilder sind grundlegend für zahlreiche Anwendungen, einschließlich Extended-Reality (XR)-Geräten, autonomen Fahren und Robotik. Leider bleibt die Erfassung hochwertiger Stereo-Bilder aufgrund der präzisen Kalibrierungsanforderungen von Dual-Kamera-Setups und der Komplexität der Erstellung genauer, dichter Disparitätskarten eine Herausforderung. Bisherige Methoden zur Stereo-Bildgenerierung konzentrieren sich typischerweise entweder auf die visuelle Qualität für die Betrachtung oder die geometrische Genauigkeit für die Zuordnung, jedoch nicht auf beides. Wir stellen GenStereo vor, einen diffusionsbasierten Ansatz, der diese Lücke schließt. Die Methode umfasst zwei wesentliche Innovationen: (1) die Konditionierung des Diffusionsprozesses auf eine disparitätsbewusste Koordinaten-Einbettung und ein verzerrtes Eingabebild, wodurch eine präzisere Stereo-Ausrichtung als bei bisherigen Methoden ermöglicht wird, und (2) einen adaptiven Fusionsmechanismus, der das diffusionsgenerierte Bild intelligent mit einem verzerrten Bild kombiniert, wodurch sowohl der Realismus als auch die Disparitätskonsistenz verbessert werden. Durch umfangreiches Training auf 11 verschiedenen Stereo-Datensätzen zeigt GenStereo eine starke Generalisierungsfähigkeit. GenStereo erreicht Spitzenleistungen sowohl in der Stereo-Bildgenerierung als auch in unüberwachten Stereo-Zuordnungsaufgaben. Unser Framework eliminiert die Notwendigkeit komplexer Hardware-Setups und ermöglicht gleichzeitig die Generierung hochwertiger Stereo-Bilder, was es sowohl für reale Anwendungen als auch für unüberwachte Lernszenarien wertvoll macht. Die Projektseite ist unter https://qjizhi.github.io/genstereo verfügbar.

English

Stereo images are fundamental to numerous applications, including extended reality (XR) devices, autonomous driving, and robotics. Unfortunately, acquiring high-quality stereo images remains challenging due to the precise calibration requirements of dual-camera setups and the complexity of obtaining accurate, dense disparity maps. Existing stereo image generation methods typically focus on either visual quality for viewing or geometric accuracy for matching, but not both. We introduce GenStereo, a diffusion-based approach, to bridge this gap. The method includes two primary innovations (1) conditioning the diffusion process on a disparity-aware coordinate embedding and a warped input image, allowing for more precise stereo alignment than previous methods, and (2) an adaptive fusion mechanism that intelligently combines the diffusion-generated image with a warped image, improving both realism and disparity consistency. Through extensive training on 11 diverse stereo datasets, GenStereo demonstrates strong generalization ability. GenStereo achieves state-of-the-art performance in both stereo image generation and unsupervised stereo matching tasks. Our framework eliminates the need for complex hardware setups while enabling high-quality stereo image generation, making it valuable for both real-world applications and unsupervised learning scenarios. Project page is available at https://qjizhi.github.io/genstereo

GenStereo: Auf dem Weg zur Open-World-Generierung von Stereo-Bildern und unüberwachter Bildzuordnung

GenStereo: Towards Open-World Generation of Stereo Images and Unsupervised Matching

Zusammenfassung

Summary

Support

Support