Orientar Qualquer Coisa: Aprendizado de Estimação Robusta de Orientação de Objetos a partir da Renderização de Modelos 3D
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models
December 24, 2024
Autores: Zehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao
cs.AI
Resumo
A orientação é um atributo fundamental dos objetos, crucial para compreender sua posição espacial e disposição em imagens. No entanto, soluções práticas para a estimativa precisa de orientação a partir de uma única imagem ainda são pouco exploradas. Neste trabalho, apresentamos Orient Anything, o primeiro modelo especializado e fundamental projetado para estimar a orientação de objetos em uma imagem única e de visualização livre. Devido à escassez de dados rotulados, propomos extrair conhecimento do mundo 3D. Ao desenvolver um pipeline para anotar a face frontal de objetos 3D e renderizar imagens a partir de visualizações aleatórias, coletamos 2 milhões de imagens com anotações de orientação precisas. Para aproveitar totalmente o conjunto de dados, projetamos um objetivo de treinamento robusto que modela a orientação 3D como distribuições de probabilidade de três ângulos e prevê a orientação do objeto ajustando essas distribuições. Além disso, empregamos várias estratégias para melhorar a transferência de sintético para real. Nosso modelo alcança uma precisão de estimativa de orientação de última geração em imagens renderizadas e reais e demonstra uma impressionante capacidade de zero-shot em vários cenários. Mais importante ainda, nosso modelo aprimora muitas aplicações, como compreensão e geração de conceitos espaciais complexos e ajuste de pose de objetos 3D.
English
Orientation is a key attribute of objects, crucial for understanding their
spatial pose and arrangement in images. However, practical solutions for
accurate orientation estimation from a single image remain underexplored. In
this work, we introduce Orient Anything, the first expert and foundational
model designed to estimate object orientation in a single- and free-view image.
Due to the scarcity of labeled data, we propose extracting knowledge from the
3D world. By developing a pipeline to annotate the front face of 3D objects and
render images from random views, we collect 2M images with precise orientation
annotations. To fully leverage the dataset, we design a robust training
objective that models the 3D orientation as probability distributions of three
angles and predicts the object orientation by fitting these distributions.
Besides, we employ several strategies to improve synthetic-to-real transfer.
Our model achieves state-of-the-art orientation estimation accuracy in both
rendered and real images and exhibits impressive zero-shot ability in various
scenarios. More importantly, our model enhances many applications, such as
comprehension and generation of complex spatial concepts and 3D object pose
adjustment.Summary
AI-Generated Summary