Orientar Qualquer Coisa: Aprendizado de Estimação Robusta de Orientação de Objetos a partir da Renderização de Modelos 3D

Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models

December 24, 2024

Autores: Zehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao

cs.AI

Resumo

A orientação é um atributo fundamental dos objetos, crucial para compreender sua posição espacial e disposição em imagens. No entanto, soluções práticas para a estimativa precisa de orientação a partir de uma única imagem ainda são pouco exploradas. Neste trabalho, apresentamos Orient Anything, o primeiro modelo especializado e fundamental projetado para estimar a orientação de objetos em uma imagem única e de visualização livre. Devido à escassez de dados rotulados, propomos extrair conhecimento do mundo 3D. Ao desenvolver um pipeline para anotar a face frontal de objetos 3D e renderizar imagens a partir de visualizações aleatórias, coletamos 2 milhões de imagens com anotações de orientação precisas. Para aproveitar totalmente o conjunto de dados, projetamos um objetivo de treinamento robusto que modela a orientação 3D como distribuições de probabilidade de três ângulos e prevê a orientação do objeto ajustando essas distribuições. Além disso, empregamos várias estratégias para melhorar a transferência de sintético para real. Nosso modelo alcança uma precisão de estimativa de orientação de última geração em imagens renderizadas e reais e demonstra uma impressionante capacidade de zero-shot em vários cenários. Mais importante ainda, nosso modelo aprimora muitas aplicações, como compreensão e geração de conceitos espaciais complexos e ajuste de pose de objetos 3D.

English

Orientation is a key attribute of objects, crucial for understanding their spatial pose and arrangement in images. However, practical solutions for accurate orientation estimation from a single image remain underexplored. In this work, we introduce Orient Anything, the first expert and foundational model designed to estimate object orientation in a single- and free-view image. Due to the scarcity of labeled data, we propose extracting knowledge from the 3D world. By developing a pipeline to annotate the front face of 3D objects and render images from random views, we collect 2M images with precise orientation annotations. To fully leverage the dataset, we design a robust training objective that models the 3D orientation as probability distributions of three angles and predicts the object orientation by fitting these distributions. Besides, we employ several strategies to improve synthetic-to-real transfer. Our model achieves state-of-the-art orientation estimation accuracy in both rendered and real images and exhibits impressive zero-shot ability in various scenarios. More importantly, our model enhances many applications, such as comprehension and generation of complex spatial concepts and 3D object pose adjustment.

Summary

AI-Generated Summary

Visão Geral do Artigo

Contribuição Principal

Introdução do Orient Anything, o primeiro modelo especializado e fundamental para estimar a orientação de objetos em imagens de visão única e livre.
Proposta de um pipeline para anotar a face frontal de objetos 3D e renderizar imagens a partir de visões aleatórias, gerando 2M de imagens com anotações precisas de orientação.
Desenvolvimento de um objetivo de treinamento robusto que modela a orientação 3D como distribuições de probabilidade de três ângulos.
Estratégias para melhorar a transferência de dados sintéticos para reais.

Contexto de Pesquisa

A orientação é um atributo crucial para entender a pose espacial e o arranjo de objetos em imagens.
Soluções práticas para estimar a orientação a partir de uma única imagem ainda são pouco exploradas.
Falta de dados anotados para treinamento de modelos de estimativa de orientação.

Palavras-chave

Estimativa de Orientação
Renderização 3D
Transferência Sintético-Real
Modelos de Visão Computacional

Fundamento

Lacuna de Pesquisa

A falta de dados anotados com informações de orientação dificulta o desenvolvimento de modelos precisos.
Métodos existentes, como o Omni3D, são limitados a domínios específicos e não generalizam bem para cenários diversos.

Desafios Técnicos

Dificuldade em convergir modelos que regridem diretamente os valores dos ângulos de orientação.
Domínio diferente entre imagens renderizadas e reais, exigindo estratégias de transferência eficazes.

Abordagens Anteriores

Omni3D: Unifica dados de detecção 3D, mas é restrito a cenas de interiores e ruas.
Modelos avançados de visão e linguagem (VLMs) como GPT-4o e Gemini têm dificuldades em compreender a orientação básica de objetos.

Metodologia

Arquitetura Técnica

Pipeline para anotação automática da face frontal de objetos 3D e renderização de imagens a partir de visões aleatórias.
Modelo treinado para prever distribuições de probabilidade dos ângulos de orientação (polar, azimute e rotação).

Detalhes de Implementação

Uso de modelos pré-treinados como DINOv2 para inicialização do encoder visual.
Estratégias de aumento de dados, como recorte aleatório, para simular oclusões e melhorar a generalização.

Pontos de Inovação

Reformulação da tarefa de regressão contínua para um problema de classificação discreta, seguido de ajuste de distribuição de probabilidade.
Incorporação de conhecimento prévio do mundo real através de inicialização com modelos pré-treinados.

Resultados

Configuração Experimental

Treinamento de modelos em três escalas (ViT-S, ViT-B, ViT-L) com inicialização DINOv2.
Avaliação em imagens renderizadas e reais, com métricas como erro absoluto e precisão dentro de tolerâncias específicas.

Principais Descobertas

O Orient Anything alcança precisão state-of-the-art em imagens renderizadas e reais.
Demonstra capacidade impressionante de generalização zero-shot em diversos cenários.
Melhora aplicações como compreensão e geração de conceitos espaciais complexos e ajuste de pose 3D.

Limitações

Desempenho inferior em objetos com orientação ambígua ou muito pequenos.
Dependência de segmentação para isolar objetos em imagens com múltiplos elementos.

Aplicações

Compreensão Espacial

Uso do Orient Anything para resolver problemas de orientação em questões de raciocínio espacial.
Integração com LLMs para melhorar a precisão em tarefas de entendimento de orientação.

Geração Espacial

Avaliação de modelos de geração de imagens (como DALL-E 3 e FLUX) para verificar a conformidade com condições de orientação e perspectiva.

Ajuste de Pose 3D

Votação robusta para determinar a orientação de modelos 3D a partir de múltiplas visões, útil para ajustar poses de objetos 3D.

Conclusão

O Orient Anything é uma abordagem prática para estimar a orientação de objetos a partir de imagens únicas.
O pipeline de anotação e renderização permite a geração de grandes volumes de dados com anotações precisas.
A tarefa de ajuste de distribuição de probabilidade melhora a robustez e a generalização do modelo.
O modelo demonstra capacidade zero-shot impressionante em imagens reais e pode ser usado como ferramenta fundamental para aplicações de compreensão e geração espacial.

Artigos em Destaque

DeepSeek-R1: Incentivizando a Capacidade de Raciocínio em LLMs via Aprendizado por Reforço
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang•Jan 22, 2025•3735

Relatório Técnico do Qwen2.5
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan Qiu•Dec 19, 2024•36311

MiniMax-01: Dimensionamento de Modelos de Fundação com Atenção Relâmpago
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu•Jan 14, 2025•2836