何でも方向を向ける:3Dモデルのレンダリングから頑健な物体方向推定を学習する
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models
December 24, 2024
著者: Zehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao
cs.AI
要旨
オブジェクトの方向は、画像内での空間的な姿勢や配置を理解するために重要な属性です。ただし、単一の画像から正確な方向推定を行うための実用的なソリューションは未だに未開拓の領域です。本研究では、単一および自由視点の画像でオブジェクトの方向を推定するために設計された初の専門的かつ基礎的なモデルである「Orient Anything」を紹介します。ラベル付きデータが不足しているため、3次元世界から知識を抽出することを提案します。3Dオブジェクトの正面を注釈付けし、ランダムな視点から画像をレンダリングするパイプラインを開発することで、正確な方向の注釈が付いた200万枚の画像を収集します。データセットを十分に活用するために、3つの角度の確率分布として3D方向をモデリングし、これらの分布に適合させてオブジェクトの方向を予測する堅牢なトレーニング目的を設計します。さらに、合成から実際の画像への転送を改善するためにいくつかの戦略を採用します。当モデルは、レンダリングされた画像と実際の画像の両方で最先端の方向推定精度を達成し、さまざまなシナリオで印象的なゼロショット能力を示します。さらに重要なことに、当モデルは、複雑な空間概念の理解と生成、および3Dオブジェクトの姿勢調整など、多くのアプリケーションを向上させます。
English
Orientation is a key attribute of objects, crucial for understanding their
spatial pose and arrangement in images. However, practical solutions for
accurate orientation estimation from a single image remain underexplored. In
this work, we introduce Orient Anything, the first expert and foundational
model designed to estimate object orientation in a single- and free-view image.
Due to the scarcity of labeled data, we propose extracting knowledge from the
3D world. By developing a pipeline to annotate the front face of 3D objects and
render images from random views, we collect 2M images with precise orientation
annotations. To fully leverage the dataset, we design a robust training
objective that models the 3D orientation as probability distributions of three
angles and predicts the object orientation by fitting these distributions.
Besides, we employ several strategies to improve synthetic-to-real transfer.
Our model achieves state-of-the-art orientation estimation accuracy in both
rendered and real images and exhibits impressive zero-shot ability in various
scenarios. More importantly, our model enhances many applications, such as
comprehension and generation of complex spatial concepts and 3D object pose
adjustment.Summary
AI-Generated Summary