Orient Anything: Apprendimento della stima robusta dell'orientamento degli oggetti dalla resa dei modelli 3D
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models
December 24, 2024
Autori: Zehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao
cs.AI
Abstract
L'orientamento è un attributo chiave degli oggetti, fondamentale per comprendere la loro posizione spaziale e disposizione nelle immagini. Tuttavia, le soluzioni pratiche per una stima accurata dell'orientamento da un'unica immagine rimangono poco esplorate. In questo lavoro, presentiamo Orient Anything, il primo modello esperto e fondamentale progettato per stimare l'orientamento degli oggetti in un'immagine singola e libera. A causa della scarsità di dati etichettati, proponiamo di estrarre conoscenza dal mondo 3D. Sviluppando un flusso di lavoro per annotare la faccia frontale degli oggetti 3D e generare immagini da visualizzazioni casuali, raccogliamo 2 milioni di immagini con precise annotazioni sull'orientamento. Per sfruttare appieno il dataset, progettiamo un obiettivo di addestramento robusto che modella l'orientamento 3D come distribuzioni di probabilità di tre angoli e prevede l'orientamento dell'oggetto adattando queste distribuzioni. Inoltre, adottiamo diverse strategie per migliorare il trasferimento da sintetico a reale. Il nostro modello raggiunge un'accuratezza di stima dell'orientamento all'avanguardia sia nelle immagini generate che in quelle reali e mostra un'eccezionale capacità di zero-shot in vari scenari. Inoltre, il nostro modello potenzia molte applicazioni, come la comprensione e la generazione di concetti spaziali complessi e l'aggiustamento della posa degli oggetti 3D.
English
Orientation is a key attribute of objects, crucial for understanding their
spatial pose and arrangement in images. However, practical solutions for
accurate orientation estimation from a single image remain underexplored. In
this work, we introduce Orient Anything, the first expert and foundational
model designed to estimate object orientation in a single- and free-view image.
Due to the scarcity of labeled data, we propose extracting knowledge from the
3D world. By developing a pipeline to annotate the front face of 3D objects and
render images from random views, we collect 2M images with precise orientation
annotations. To fully leverage the dataset, we design a robust training
objective that models the 3D orientation as probability distributions of three
angles and predicts the object orientation by fitting these distributions.
Besides, we employ several strategies to improve synthetic-to-real transfer.
Our model achieves state-of-the-art orientation estimation accuracy in both
rendered and real images and exhibits impressive zero-shot ability in various
scenarios. More importantly, our model enhances many applications, such as
comprehension and generation of complex spatial concepts and 3D object pose
adjustment.Summary
AI-Generated Summary