OTTER: Ein Vision-Sprache-Handlung-Modell mit textbewusster visueller Merkmalsextraktion
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction
March 5, 2025
Autoren: Huang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel
cs.AI
Zusammenfassung
Vision-Language-Action (VLA)-Modelle zielen darauf ab, robotische Aktionen basierend auf visuellen Beobachtungen und Sprachanweisungen vorherzusagen. Bestehende Ansätze erfordern das Feinabstimmen vortrainierter Vision-Language-Modelle (VLMs), da visuelle und sprachliche Merkmale unabhängig voneinander in nachgelagerte Policies eingespeist werden, was die vortrainierten semantischen Ausrichtungen beeinträchtigt. Wir schlagen OTTER vor, eine neuartige VLA-Architektur, die diese bestehenden Ausrichtungen durch explizite, textbewusste Extraktion visueller Merkmale nutzt. Anstatt alle visuellen Merkmale zu verarbeiten, extrahiert und übergibt OTTER selektiv nur die aufgabenrelevanten visuellen Merkmale, die semantisch mit der Sprachanweisung ausgerichtet sind, an den Policy-Transformer. Dies ermöglicht es OTTER, die vortrainierten Vision-Language-Encoder eingefroren zu lassen. Dadurch bewahrt und nutzt OTTER das umfangreiche semantische Verständnis, das durch groß angelegtes Vortraining erlernt wurde, und ermöglicht starke Zero-Shot-Generalisierungsfähigkeiten. In Simulations- und realen Experimenten übertrifft OTTER bestehende VLA-Modelle deutlich und zeigt eine starke Zero-Shot-Generalisierung auf neue Objekte und Umgebungen. Video, Code, Checkpoints und Datensatz: https://ottervla.github.io/.
English
Vision-Language-Action (VLA) models aim to predict robotic actions based on
visual observations and language instructions. Existing approaches require
fine-tuning pre-trained visionlanguage models (VLMs) as visual and language
features are independently fed into downstream policies, degrading the
pre-trained semantic alignments. We propose OTTER, a novel VLA architecture
that leverages these existing alignments through explicit, text-aware visual
feature extraction. Instead of processing all visual features, OTTER
selectively extracts and passes only task-relevant visual features that are
semantically aligned with the language instruction to the policy transformer.
This allows OTTER to keep the pre-trained vision-language encoders frozen.
Thereby, OTTER preserves and utilizes the rich semantic understanding learned
from large-scale pre-training, enabling strong zero-shot generalization
capabilities. In simulation and real-world experiments, OTTER significantly
outperforms existing VLA models, demonstrating strong zeroshot generalization
to novel objects and environments. Video, code, checkpoints, and dataset:
https://ottervla.github.io/.Summary
AI-Generated Summary