InteractVLM: Ragionamento sull'Interazione 3D a partire da Modelli Fondamentali 2D
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models
April 7, 2025
Autori: Sai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas
cs.AI
Abstract
Introduciamo InteractVLM, un metodo innovativo per stimare i punti di contatto 3D su corpi umani e oggetti a partire da singole immagini in contesti reali, consentendo una ricostruzione accurata delle interazioni uomo-oggetto in 3D. Questa sfida è complessa a causa di occlusioni, ambiguità di profondità e forme di oggetti estremamente variabili. I metodi esistenti si basano su annotazioni di contatto 3D raccolte tramite costosi sistemi di motion capture o laboriose etichettature manuali, limitando scalabilità e generalizzazione. Per superare queste limitazioni, InteractVLM sfrutta la vasta conoscenza visiva dei grandi modelli visione-linguaggio (VLMs), affinati con dati limitati di contatto 3D. Tuttavia, applicare direttamente questi modelli non è banale, poiché ragionano solo in 2D, mentre il contatto uomo-oggetto è intrinsecamente 3D. Introduciamo quindi un modulo Render-Localize-Lift che: (1) incorpora le superfici 3D del corpo e degli oggetti nello spazio 2D tramite rendering multi-vista, (2) addestra un nuovo modello di localizzazione multi-vista (MV-Loc) per inferire i contatti in 2D, e (3) li eleva a 3D. Inoltre, proponiamo un nuovo task chiamato Semantic Human Contact estimation, in cui le previsioni di contatto umano sono esplicitamente condizionate sulla semantica degli oggetti, consentendo una modellazione più ricca delle interazioni. InteractVLM supera i lavori esistenti nella stima dei contatti e facilita anche la ricostruzione 3D da un'immagine in contesto reale. Codice e modelli sono disponibili su https://interactvlm.is.tue.mpg.de.
English
We introduce InteractVLM, a novel method to estimate 3D contact points on
human bodies and objects from single in-the-wild images, enabling accurate
human-object joint reconstruction in 3D. This is challenging due to occlusions,
depth ambiguities, and widely varying object shapes. Existing methods rely on
3D contact annotations collected via expensive motion-capture systems or
tedious manual labeling, limiting scalability and generalization. To overcome
this, InteractVLM harnesses the broad visual knowledge of large Vision-Language
Models (VLMs), fine-tuned with limited 3D contact data. However, directly
applying these models is non-trivial, as they reason only in 2D, while
human-object contact is inherently 3D. Thus we introduce a novel
Render-Localize-Lift module that: (1) embeds 3D body and object surfaces in 2D
space via multi-view rendering, (2) trains a novel multi-view localization
model (MV-Loc) to infer contacts in 2D, and (3) lifts these to 3D.
Additionally, we propose a new task called Semantic Human Contact estimation,
where human contact predictions are conditioned explicitly on object semantics,
enabling richer interaction modeling. InteractVLM outperforms existing work on
contact estimation and also facilitates 3D reconstruction from an in-the wild
image. Code and models are available at https://interactvlm.is.tue.mpg.de.Summary
AI-Generated Summary