ChatPaper.aiChatPaper

아무 것이나 방향을 잡다: 3D 모델 렌더링으로부터 견고한 물체 방향 추정 학습

Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models

December 24, 2024
저자: Zehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao
cs.AI

초록

방향은 객체의 주요 속성으로, 이미지 내에서의 공간 자세와 배열을 이해하는 데 중요합니다. 그러나 단일 이미지로부터 정확한 방향 추정을 위한 실용적인 솔루션은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 단일 및 자유 시점 이미지에서 객체 방향을 추정하는 데 특화된 최초의 전문적이고 기본적인 모델인 Orient Anything을 소개합니다. 레이블이 부족한 상황에서, 3D 세계로부터 지식을 추출하는 것을 제안합니다. 3D 객체의 전면을 주석 달하고 임의의 시점에서 이미지를 렌더링하여, 정확한 방향 주석이 달린 2백만 장의 이미지를 수집합니다. 데이터셋을 완전히 활용하기 위해, 우리는 3개의 각도에 대한 확률 분포로 3D 방향을 모델링하고, 이러한 분포를 적합시켜 객체 방향을 예측하는 견고한 훈련 목표를 설계합니다. 게다가, 합성에서 실제로의 전이를 개선하기 위해 여러 전략을 도입합니다. 우리의 모델은 렌더링된 이미지와 실제 이미지 모두에서 최첨단 방향 추정 정확도를 달성하며, 다양한 시나리오에서 인상적인 제로샷 능력을 보여줍니다. 더 중요한 것은, 우리의 모델이 복잡한 공간 개념의 이해와 생성, 그리고 3D 객체 자세 조정과 같은 많은 응용 프로그램을 향상시킵니다.
English
Orientation is a key attribute of objects, crucial for understanding their spatial pose and arrangement in images. However, practical solutions for accurate orientation estimation from a single image remain underexplored. In this work, we introduce Orient Anything, the first expert and foundational model designed to estimate object orientation in a single- and free-view image. Due to the scarcity of labeled data, we propose extracting knowledge from the 3D world. By developing a pipeline to annotate the front face of 3D objects and render images from random views, we collect 2M images with precise orientation annotations. To fully leverage the dataset, we design a robust training objective that models the 3D orientation as probability distributions of three angles and predicts the object orientation by fitting these distributions. Besides, we employ several strategies to improve synthetic-to-real transfer. Our model achieves state-of-the-art orientation estimation accuracy in both rendered and real images and exhibits impressive zero-shot ability in various scenarios. More importantly, our model enhances many applications, such as comprehension and generation of complex spatial concepts and 3D object pose adjustment.

Summary

AI-Generated Summary

PDF204December 30, 2024