ChatPaper.aiChatPaper

OTTER: Ein Vision-Sprache-Handlung-Modell mit textbewusster visueller Merkmalsextraktion

OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

March 5, 2025
Autoren: Huang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel
cs.AI

Zusammenfassung

Vision-Language-Action (VLA)-Modelle zielen darauf ab, robotische Aktionen basierend auf visuellen Beobachtungen und Sprachanweisungen vorherzusagen. Bestehende Ansätze erfordern das Feinabstimmen vortrainierter Vision-Language-Modelle (VLMs), da visuelle und sprachliche Merkmale unabhängig voneinander in nachgelagerte Policies eingespeist werden, was die vortrainierten semantischen Ausrichtungen beeinträchtigt. Wir schlagen OTTER vor, eine neuartige VLA-Architektur, die diese bestehenden Ausrichtungen durch explizite, textbewusste Extraktion visueller Merkmale nutzt. Anstatt alle visuellen Merkmale zu verarbeiten, extrahiert und übergibt OTTER selektiv nur die aufgabenrelevanten visuellen Merkmale, die semantisch mit der Sprachanweisung ausgerichtet sind, an den Policy-Transformer. Dies ermöglicht es OTTER, die vortrainierten Vision-Language-Encoder eingefroren zu lassen. Dadurch bewahrt und nutzt OTTER das umfangreiche semantische Verständnis, das durch groß angelegtes Vortraining erlernt wurde, und ermöglicht starke Zero-Shot-Generalisierungsfähigkeiten. In Simulations- und realen Experimenten übertrifft OTTER bestehende VLA-Modelle deutlich und zeigt eine starke Zero-Shot-Generalisierung auf neue Objekte und Umgebungen. Video, Code, Checkpoints und Datensatz: https://ottervla.github.io/.
English
Vision-Language-Action (VLA) models aim to predict robotic actions based on visual observations and language instructions. Existing approaches require fine-tuning pre-trained visionlanguage models (VLMs) as visual and language features are independently fed into downstream policies, degrading the pre-trained semantic alignments. We propose OTTER, a novel VLA architecture that leverages these existing alignments through explicit, text-aware visual feature extraction. Instead of processing all visual features, OTTER selectively extracts and passes only task-relevant visual features that are semantically aligned with the language instruction to the policy transformer. This allows OTTER to keep the pre-trained vision-language encoders frozen. Thereby, OTTER preserves and utilizes the rich semantic understanding learned from large-scale pre-training, enabling strong zero-shot generalization capabilities. In simulation and real-world experiments, OTTER significantly outperforms existing VLA models, demonstrating strong zeroshot generalization to novel objects and environments. Video, code, checkpoints, and dataset: https://ottervla.github.io/.

Summary

AI-Generated Summary

PDF12March 12, 2025