Bild als IMU: Schätzung der Kamerabewegung aus einem einzigen bewegungsunscharfen Bild

Zusammenfassung

In vielen Robotik- und VR/AR-Anwendungen verursachen schnelle Kamerabewegungen einen hohen Grad an Bewegungsunschärfe, was dazu führt, dass bestehende Methoden zur Kamerapositionsschätzung versagen. In dieser Arbeit schlagen wir ein neuartiges Framework vor, das Bewegungsunschärfe als wertvolle Information für die Bewegungsabschätzung nutzt, anstatt sie als unerwünschtes Artefakt zu behandeln. Unser Ansatz funktioniert, indem ein dichtes Bewegungsflussfeld und eine monokulare Tiefenkarte direkt aus einem einzigen bewegungsunscharfen Bild vorhergesagt werden. Anschließend ermitteln wir die momentane Kamerageschwindigkeit, indem wir ein lineares kleinstes Quadrate-Problem unter der Annahme kleiner Bewegungen lösen. Im Wesentlichen erzeugt unsere Methode eine IMU-ähnliche Messung, die schnelle und aggressive Kamerabewegungen robust erfasst. Um unser Modell zu trainieren, erstellen wir einen umfangreichen Datensatz mit realistischer synthetischer Bewegungsunschärfe, abgeleitet aus ScanNet++v2, und verfeinern unser Modell weiter, indem wir es end-to-end auf realen Daten mit unserer vollständig differenzierbaren Pipeline trainieren. Umfangreiche Auswertungen auf realen Benchmarks zeigen, dass unsere Methode state-of-the-art Schätzungen für die Winkel- und Translationsgeschwindigkeit erreicht und aktuelle Methoden wie MASt3R und COLMAP übertrifft.

English

In many robotics and VR/AR applications, fast camera motions cause a high level of motion blur, causing existing camera pose estimation methods to fail. In this work, we propose a novel framework that leverages motion blur as a rich cue for motion estimation rather than treating it as an unwanted artifact. Our approach works by predicting a dense motion flow field and a monocular depth map directly from a single motion-blurred image. We then recover the instantaneous camera velocity by solving a linear least squares problem under the small motion assumption. In essence, our method produces an IMU-like measurement that robustly captures fast and aggressive camera movements. To train our model, we construct a large-scale dataset with realistic synthetic motion blur derived from ScanNet++v2 and further refine our model by training end-to-end on real data using our fully differentiable pipeline. Extensive evaluations on real-world benchmarks demonstrate that our method achieves state-of-the-art angular and translational velocity estimates, outperforming current methods like MASt3R and COLMAP.

Bild als IMU: Schätzung der Kamerabewegung aus einem einzigen bewegungsunscharfen Bild

Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

Zusammenfassung

Summary

Support