Feature4X: Collegare Qualsiasi Video Monoculare all'Intelligenza Artificiale Agente 4D con Campi di Caratteristiche Gaussiani Versatili
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
March 26, 2025
Autori: Shijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi
cs.AI
Abstract
I recenti progressi nei modelli 2D e multimodali hanno ottenuto un successo notevole sfruttando l'addestramento su larga scala su estesi dataset. Tuttavia, estendere questi risultati per abilitare interazioni libere e operazioni semantiche di alto livello con scene 3D/4D complesse rimane una sfida. Questa difficoltà deriva dalla limitata disponibilità di dataset 3D/4D o multi-vista su larga scala e annotati, che sono cruciali per compiti di visione e linguaggio generalizzabili come la segmentazione open-vocabulary e basata su prompt, l'editing guidato dal linguaggio e il visual question answering (VQA). In questo articolo, introduciamo Feature4X, un framework universale progettato per estendere qualsiasi funzionalità da un modello di visione 2D al regno 4D, utilizzando solo input video monoculare, ampiamente disponibile da contenuti generati dagli utenti. La "X" in Feature4X rappresenta la sua versatilità, abilitando qualsiasi compito attraverso una distillazione adattabile di campi di feature 4D condizionati dal modello. Al centro del nostro framework c'è una strategia di ottimizzazione dinamica che unifica molteplici capacità del modello in una singola rappresentazione. Inoltre, per quanto ne sappiamo, Feature4X è il primo metodo a distillare e sollevare le feature dei modelli di video foundation (ad esempio SAM2, InternVideo2) in un campo di feature 4D esplicito utilizzando Gaussian Splatting. I nostri esperimenti mostrano la segmentazione di qualsiasi cosa in nuove viste, l'editing geometrico e di aspetto della scena, e il VQA libero attraverso tutti i passaggi temporali, potenziati da LLM in cicli di feedback. Questi progressi ampliano lo spettro delle applicazioni AI agentiche fornendo una base per sistemi scalabili, consapevoli del contesto e dello spazio-tempo, capaci di interazioni immersive con scene dinamiche 4D.
English
Recent advancements in 2D and multimodal models have achieved remarkable
success by leveraging large-scale training on extensive datasets. However,
extending these achievements to enable free-form interactions and high-level
semantic operations with complex 3D/4D scenes remains challenging. This
difficulty stems from the limited availability of large-scale, annotated 3D/4D
or multi-view datasets, which are crucial for generalizable vision and language
tasks such as open-vocabulary and prompt-based segmentation, language-guided
editing, and visual question answering (VQA). In this paper, we introduce
Feature4X, a universal framework designed to extend any functionality from 2D
vision foundation model into the 4D realm, using only monocular video input,
which is widely available from user-generated content. The "X" in Feature4X
represents its versatility, enabling any task through adaptable,
model-conditioned 4D feature field distillation. At the core of our framework
is a dynamic optimization strategy that unifies multiple model capabilities
into a single representation. Additionally, to the best of our knowledge,
Feature4X is the first method to distill and lift the features of video
foundation models (e.g. SAM2, InternVideo2) into an explicit 4D feature field
using Gaussian Splatting. Our experiments showcase novel view segment anything,
geometric and appearance scene editing, and free-form VQA across all time
steps, empowered by LLMs in feedback loops. These advancements broaden the
scope of agentic AI applications by providing a foundation for scalable,
contextually and spatiotemporally aware systems capable of immersive dynamic 4D
scene interaction.Summary
AI-Generated Summary