Feature4X: Brückenschlag von beliebigen monokularen Videos zu 4D-agentenbasierten KI-Systemen mit vielseitigen Gaußschen Merkmalfeldern
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
March 26, 2025
Autoren: Shijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi
cs.AI
Zusammenfassung
Jüngste Fortschritte bei 2D- und multimodalen Modellen haben bemerkenswerte Erfolge erzielt, indem sie groß angelegtes Training auf umfangreichen Datensätzen nutzten. Die Übertragung dieser Erfolge zur Ermöglichung freier Interaktionen und hochwertiger semantischer Operationen mit komplexen 3D/4D-Szenen bleibt jedoch eine Herausforderung. Diese Schwierigkeit ergibt sich aus der begrenzten Verfügbarkeit groß angelegter, annotierter 3D/4D- oder Multi-View-Datensätze, die für generalisierbare Vision- und Sprachaufgaben wie Open-Vocabulary- und Prompt-basierte Segmentierung, sprachgesteuerte Bearbeitung und visuelle Fragebeantwortung (VQA) entscheidend sind. In diesem Artikel stellen wir Feature4X vor, ein universelles Framework, das entwickelt wurde, um jede Funktionalität von 2D-Vision-Foundation-Modellen in den 4D-Bereich zu erweitern, wobei nur monokulare Videoeingaben verwendet werden, die weit verbreitet aus nutzergenerierten Inhalten verfügbar sind. Das „X“ in Feature4X repräsentiert seine Vielseitigkeit, die jede Aufgabe durch anpassbare, modellkonditionierte 4D-Feature-Field-Destillation ermöglicht. Im Kern unseres Frameworks liegt eine dynamische Optimierungsstrategie, die mehrere Modellfähigkeiten in einer einzigen Repräsentation vereint. Darüber hinaus ist Feature4X, soweit uns bekannt ist, die erste Methode, die die Features von Video-Foundation-Modellen (z. B. SAM2, InternVideo2) in ein explizites 4D-Feature-Field mittels Gaussian Splatting destilliert und hebt. Unsere Experimente zeigen neuartige Ansätze zur Segmentierung aus beliebigen Blickwinkeln, geometrische und optische Szenenbearbeitung sowie freie VQA über alle Zeitschritte hinweg, unterstützt durch LLMs in Feedback-Schleifen. Diese Fortschritte erweitern den Anwendungsbereich agentenbasierter KI, indem sie eine Grundlage für skalierbare, kontextuell und raumzeitlich bewusste Systeme schaffen, die in der Lage sind, immersive dynamische 4D-Szeneninteraktionen zu ermöglichen.
English
Recent advancements in 2D and multimodal models have achieved remarkable
success by leveraging large-scale training on extensive datasets. However,
extending these achievements to enable free-form interactions and high-level
semantic operations with complex 3D/4D scenes remains challenging. This
difficulty stems from the limited availability of large-scale, annotated 3D/4D
or multi-view datasets, which are crucial for generalizable vision and language
tasks such as open-vocabulary and prompt-based segmentation, language-guided
editing, and visual question answering (VQA). In this paper, we introduce
Feature4X, a universal framework designed to extend any functionality from 2D
vision foundation model into the 4D realm, using only monocular video input,
which is widely available from user-generated content. The "X" in Feature4X
represents its versatility, enabling any task through adaptable,
model-conditioned 4D feature field distillation. At the core of our framework
is a dynamic optimization strategy that unifies multiple model capabilities
into a single representation. Additionally, to the best of our knowledge,
Feature4X is the first method to distill and lift the features of video
foundation models (e.g. SAM2, InternVideo2) into an explicit 4D feature field
using Gaussian Splatting. Our experiments showcase novel view segment anything,
geometric and appearance scene editing, and free-form VQA across all time
steps, empowered by LLMs in feedback loops. These advancements broaden the
scope of agentic AI applications by providing a foundation for scalable,
contextually and spatiotemporally aware systems capable of immersive dynamic 4D
scene interaction.Summary
AI-Generated Summary