Bild als IMU: Schätzung der Kamerabewegung aus einem einzigen bewegungsunscharfen Bild
Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image
March 21, 2025
Autoren: Jerred Chen, Ronald Clark
cs.AI
Zusammenfassung
In vielen Robotik- und VR/AR-Anwendungen verursachen schnelle Kamerabewegungen einen hohen Grad an Bewegungsunschärfe, was dazu führt, dass bestehende Methoden zur Kamerapositionsschätzung versagen. In dieser Arbeit schlagen wir ein neuartiges Framework vor, das Bewegungsunschärfe als wertvolle Information für die Bewegungsabschätzung nutzt, anstatt sie als unerwünschtes Artefakt zu behandeln. Unser Ansatz funktioniert, indem ein dichtes Bewegungsflussfeld und eine monokulare Tiefenkarte direkt aus einem einzigen bewegungsunscharfen Bild vorhergesagt werden. Anschließend ermitteln wir die momentane Kamerageschwindigkeit, indem wir ein lineares kleinstes Quadrate-Problem unter der Annahme kleiner Bewegungen lösen. Im Wesentlichen erzeugt unsere Methode eine IMU-ähnliche Messung, die schnelle und aggressive Kamerabewegungen robust erfasst. Um unser Modell zu trainieren, erstellen wir einen umfangreichen Datensatz mit realistischer synthetischer Bewegungsunschärfe, abgeleitet aus ScanNet++v2, und verfeinern unser Modell weiter, indem wir es end-to-end auf realen Daten mit unserer vollständig differenzierbaren Pipeline trainieren. Umfangreiche Auswertungen auf realen Benchmarks zeigen, dass unsere Methode state-of-the-art Schätzungen für die Winkel- und Translationsgeschwindigkeit erreicht und aktuelle Methoden wie MASt3R und COLMAP übertrifft.
English
In many robotics and VR/AR applications, fast camera motions cause a high
level of motion blur, causing existing camera pose estimation methods to fail.
In this work, we propose a novel framework that leverages motion blur as a rich
cue for motion estimation rather than treating it as an unwanted artifact. Our
approach works by predicting a dense motion flow field and a monocular depth
map directly from a single motion-blurred image. We then recover the
instantaneous camera velocity by solving a linear least squares problem under
the small motion assumption. In essence, our method produces an IMU-like
measurement that robustly captures fast and aggressive camera movements. To
train our model, we construct a large-scale dataset with realistic synthetic
motion blur derived from ScanNet++v2 and further refine our model by training
end-to-end on real data using our fully differentiable pipeline. Extensive
evaluations on real-world benchmarks demonstrate that our method achieves
state-of-the-art angular and translational velocity estimates, outperforming
current methods like MASt3R and COLMAP.Summary
AI-Generated Summary