Easi3R: Stima del Movimento Disaccoppiato da DUSt3R Senza Addestramento
Easi3R: Estimating Disentangled Motion from DUSt3R Without Training
March 31, 2025
Autori: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
cs.AI
Abstract
I recenti progressi in DUSt3R hanno consentito una stima robusta di nuvole dense di punti e parametri della fotocamera per scene statiche, sfruttando architetture di rete Transformer e supervisione diretta su dataset 3D su larga scala. Al contrario, la scala limitata e la diversità dei dataset 4D disponibili rappresentano un importante collo di bottiglia per l'addestramento di un modello 4D altamente generalizzabile. Questo vincolo ha spinto i metodi 4D convenzionali a perfezionare modelli 3D su dati video dinamici scalabili con ulteriori prior geometrici come il flusso ottico e le profondità. In questo lavoro, seguiamo un percorso opposto e introduciamo Easi3R, un metodo semplice ma efficiente per la ricostruzione 4D che non richiede addestramento. Il nostro approccio applica l'adattamento dell'attenzione durante l'inferenza, eliminando la necessità di pre-addestramento da zero o di perfezionamento della rete. Abbiamo scoperto che i livelli di attenzione in DUSt3R codificano intrinsecamente informazioni ricche sul movimento della fotocamera e degli oggetti. Disaccoppiando attentamente queste mappe di attenzione, otteniamo una segmentazione accurata delle regioni dinamiche, una stima della posa della fotocamera e una ricostruzione della mappa densa di punti 4D. Esperimenti estesi su video dinamici del mondo reale dimostrano che il nostro adattamento dell'attenzione leggero supera significativamente i precedenti metodi all'avanguardia che sono stati addestrati o perfezionati su ampi dataset dinamici. Il nostro codice è pubblicamente disponibile per scopi di ricerca all'indirizzo https://easi3r.github.io/.
English
Recent advances in DUSt3R have enabled robust estimation of dense point
clouds and camera parameters of static scenes, leveraging Transformer network
architectures and direct supervision on large-scale 3D datasets. In contrast,
the limited scale and diversity of available 4D datasets present a major
bottleneck for training a highly generalizable 4D model. This constraint has
driven conventional 4D methods to fine-tune 3D models on scalable dynamic video
data with additional geometric priors such as optical flow and depths. In this
work, we take an opposite path and introduce Easi3R, a simple yet efficient
training-free method for 4D reconstruction. Our approach applies attention
adaptation during inference, eliminating the need for from-scratch pre-training
or network fine-tuning. We find that the attention layers in DUSt3R inherently
encode rich information about camera and object motion. By carefully
disentangling these attention maps, we achieve accurate dynamic region
segmentation, camera pose estimation, and 4D dense point map reconstruction.
Extensive experiments on real-world dynamic videos demonstrate that our
lightweight attention adaptation significantly outperforms previous
state-of-the-art methods that are trained or finetuned on extensive dynamic
datasets. Our code is publicly available for research purpose at
https://easi3r.github.io/Summary
AI-Generated Summary