Embodied-Reasoner: Sinergia tra Ricerca Visiva, Ragionamento e Azione per Compiti Interattivi di Embodiment
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks
March 27, 2025
Autori: Wenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang
cs.AI
Abstract
I recenti progressi nei modelli di pensiero profondo hanno dimostrato capacità di ragionamento notevoli in compiti matematici e di programmazione. Tuttavia, la loro efficacia in domini incarnati, che richiedono un'interazione continua con l'ambiente attraverso traiettorie intervallate da immagini e azioni, rimane in gran parte inesplorata. Presentiamo Embodied Reasoner, un modello che estende il ragionamento in stile o1 a compiti di ricerca interattivi incarnati. A differenza del ragionamento matematico, che si basa principalmente sulla deduzione logica, gli scenari incarnati richiedono comprensione spaziale, ragionamento temporale e un'autoriflessione continua basata sulla storia delle interazioni. Per affrontare queste sfide, sintetizziamo 9,3k traiettorie coerenti Osservazione-Pensiero-Azione contenenti 64k immagini interattive e 90k processi di pensiero diversificati (analisi, ragionamento spaziale, riflessione, pianificazione e verifica). Sviluppiamo una pipeline di addestramento in tre fasi che migliora progressivamente le capacità del modello attraverso l'apprendimento per imitazione, l'autoesplorazione tramite campionamento per rifiuto e l'autocorrezione tramite ottimizzazione della riflessione. La valutazione mostra che il nostro modello supera significativamente i modelli avanzati di ragionamento visivo, ad esempio supera OpenAI o1, o3-mini e Claude-3.7 rispettivamente del +9%, 24% e +13%. L'analisi rivela che il nostro modello presenta meno ricerche ripetute e inconsistenze logiche, con vantaggi particolari in compiti complessi a lungo termine. Anche negli ambienti del mondo reale si dimostra la nostra superiorità, con meno casi di ricerche ripetute e inconsistenze logiche.
English
Recent advances in deep thinking models have demonstrated remarkable
reasoning capabilities on mathematical and coding tasks. However, their
effectiveness in embodied domains which require continuous interaction with
environments through image action interleaved trajectories remains largely
-unexplored. We present Embodied Reasoner, a model that extends o1 style
reasoning to interactive embodied search tasks. Unlike mathematical reasoning
that relies primarily on logical deduction, embodied scenarios demand spatial
understanding, temporal reasoning, and ongoing self-reflection based on
interaction history. To address these challenges, we synthesize 9.3k coherent
Observation-Thought-Action trajectories containing 64k interactive images and
90k diverse thinking processes (analysis, spatial reasoning, reflection,
planning, and verification). We develop a three-stage training pipeline that
progressively enhances the model's capabilities through imitation learning,
self-exploration via rejection sampling, and self-correction through reflection
tuning. The evaluation shows that our model significantly outperforms those
advanced visual reasoning models, e.g., it exceeds OpenAI o1, o3-mini, and
Claude-3.7 by +9\%, 24\%, and +13\%. Analysis reveals our model exhibits fewer
repeated searches and logical inconsistencies, with particular advantages in
complex long-horizon tasks. Real-world environments also show our superiority
while exhibiting fewer repeated searches and logical inconsistency cases.Summary
AI-Generated Summary