ChatPaper.aiChatPaper

Immagine come IMU: Stimare il Movimento della Fotocamera da una Singola Immagine con Mosso

Image as an IMU: Estimating Camera Motion from a Single Motion-Blurred Image

March 21, 2025
Autori: Jerred Chen, Ronald Clark
cs.AI

Abstract

In molte applicazioni robotiche e di realtà virtuale/aumentata, i movimenti rapidi della telecamera causano un elevato livello di sfocatura da movimento, portando i metodi esistenti di stima della posa della telecamera a fallire. In questo lavoro, proponiamo un nuovo framework che sfrutta la sfocatura da movimento come un'indicazione ricca per la stima del movimento, anziché trattarla come un artefatto indesiderato. Il nostro approccio funziona prevedendo un campo di flusso del movimento denso e una mappa di profondità monoculare direttamente da una singola immagine sfocata dal movimento. Successivamente, recuperiamo la velocità istantanea della telecamera risolvendo un problema di minimi quadrati lineari sotto l'assunzione di piccoli movimenti. In sostanza, il nostro metodo produce una misurazione simile a quella di un IMU che cattura in modo robusto movimenti rapidi e aggressivi della telecamera. Per addestrare il nostro modello, abbiamo costruito un dataset su larga scala con sfocatura da movimento sintetica realistica derivata da ScanNet++v2 e abbiamo ulteriormente affinato il nostro modello addestrandolo end-to-end su dati reali utilizzando la nostra pipeline completamente differenziabile. Valutazioni estensive su benchmark del mondo reale dimostrano che il nostro metodo raggiunge stime all'avanguardia per la velocità angolare e traslazionale, superando i metodi attuali come MASt3R e COLMAP.
English
In many robotics and VR/AR applications, fast camera motions cause a high level of motion blur, causing existing camera pose estimation methods to fail. In this work, we propose a novel framework that leverages motion blur as a rich cue for motion estimation rather than treating it as an unwanted artifact. Our approach works by predicting a dense motion flow field and a monocular depth map directly from a single motion-blurred image. We then recover the instantaneous camera velocity by solving a linear least squares problem under the small motion assumption. In essence, our method produces an IMU-like measurement that robustly captures fast and aggressive camera movements. To train our model, we construct a large-scale dataset with realistic synthetic motion blur derived from ScanNet++v2 and further refine our model by training end-to-end on real data using our fully differentiable pipeline. Extensive evaluations on real-world benchmarks demonstrate that our method achieves state-of-the-art angular and translational velocity estimates, outperforming current methods like MASt3R and COLMAP.

Summary

AI-Generated Summary

PDF62March 27, 2025