RIG: Sinergetica tra Ragionamento e Immaginazione nelle Politiche Generaliste End-to-End
RIG: Synergizing Reasoning and Imagination in End-to-End Generalist Policy
March 31, 2025
Autori: Zhonghan Zhao, Wenwei Zhang, Haian Huang, Kuikun Liu, Jianfei Gao, Gaoang Wang, Kai Chen
cs.AI
Abstract
Ragionare prima di agire e immaginare potenziali esiti (cioè, modelli del mondo) sono elementi essenziali per agenti incarnati che operano in ambienti complessi e aperti. Tuttavia, i lavori precedenti incorporano solo una di queste capacità in un agente end-to-end o integrano più modelli specializzati in un sistema di agenti, limitando l'efficienza di apprendimento e la generalizzazione della politica. Pertanto, questo articolo rappresenta il primo tentativo di sinergizzare Ragionamento e Immaginazione in una politica Generalista end-to-end, denominata RIG. Per addestrare RIG in modo end-to-end, costruiamo una pipeline di dati che integra e arricchisce progressivamente il contenuto dell'immaginazione e del ragionamento nelle traiettorie raccolte da agenti esistenti. L'apprendimento congiunto del ragionamento e della generazione dell'immagine successiva modella esplicitamente la correlazione intrinseca tra ragionamento, azione e dinamiche degli ambienti, dimostrando così un miglioramento di oltre 17 volte nell'efficienza del campionamento e nella generalizzazione rispetto ai lavori precedenti. Durante l'inferenza, RIG prima ragiona sulla prossima azione, produce un'azione potenziale e poi prevede gli esiti dell'azione, offrendo all'agente l'opportunità di rivedere e autocorreggersi in base all'immaginazione prima di compiere azioni reali. I risultati sperimentali mostrano che la sinergia tra ragionamento e immaginazione non solo migliora la robustezza, la generalizzazione e l'interoperabilità della politica generalista, ma consente anche lo scaling al momento del test per migliorare le prestazioni complessive.
English
Reasoning before action and imagining potential outcomes (i.e., world models)
are essential for embodied agents operating in complex open-world environments.
Yet, prior work either incorporates only one of these abilities in an
end-to-end agent or integrates multiple specialized models into an agent
system, limiting the learning efficiency and generalization of the policy.
Thus, this paper makes the first attempt to synergize Reasoning and Imagination
in an end-to-end Generalist policy, termed RIG. To train RIG in an end-to-end
manner, we construct a data pipeline that progressively integrates and enriches
the content of imagination and reasoning in the trajectories collected from
existing agents. The joint learning of reasoning and next image generation
explicitly models the inherent correlation between reasoning, action, and
dynamics of environments, and thus exhibits more than 17times sample
efficiency improvements and generalization in comparison with previous works.
During inference, RIG first reasons about the next action, produces potential
action, and then predicts the action outcomes, which offers the agent a chance
to review and self-correct based on the imagination before taking real actions.
Experimental results show that the synergy of reasoning and imagination not
only improves the robustness, generalization, and interoperability of
generalist policy but also enables test-time scaling to enhance overall
performance.Summary
AI-Generated Summary