TransAgent: Overdracht van Vision-Language Foundation-modellen met Heterogene Agent Samenwerking
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration
October 16, 2024
Auteurs: Yiwei Guo, Shaobin Zhuang, Kunchang Li, Yu Qiao, Yali Wang
cs.AI
Samenvatting
Vision-language foundation modellen (zoals CLIP) hebben onlangs hun kracht getoond in transfer learning, dankzij grootschalige voorafgaande training van afbeelding-tekst. Echter, de gegevens van het doeldomein in de downstream taken kunnen sterk verschillen van de voorafgaande training, wat het moeilijk maakt voor zo'n enkel model om goed te generaliseren. Als alternatief bestaat er een breed scala aan expertmodellen die gediversifieerde visuele en/of taalkundige kennis bevatten, vooraf getraind op verschillende modaliteiten, taken, netwerken en datasets. Helaas zijn deze modellen "geïsoleerde agenten" met heterogene structuren, en hoe hun kennis te integreren voor het generaliseren van CLIP-achtige modellen is nog niet volledig onderzocht. Om deze kloof te overbruggen, stellen we een algemeen en beknopt TransAgent-framework voor, dat de kennis van de geïsoleerde agenten op een geünificeerde manier overbrengt, en CLIP effectief begeleidt om te generaliseren met kennisdistantiëring van meerdere bronnen. Met zo'n onderscheidend framework werken we flexibel samen met 11 heterogene agenten om vision-language foundation modellen te versterken, zonder verdere kosten in de inferentiefase. Uiteindelijk behaalt onze TransAgent state-of-the-art prestaties op 11 visuele herkenningsdatasets. Onder dezelfde low-shot instelling presteert het beter dan de populaire CoOp met gemiddeld ongeveer 10%, en 20% op EuroSAT dat grote domeinverschuivingen bevat.
English
Vision-language foundation models (such as CLIP) have recently shown their
power in transfer learning, owing to large-scale image-text pre-training.
However, target domain data in the downstream tasks can be highly different
from the pre-training phase, which makes it hard for such a single model to
generalize well. Alternatively, there exists a wide range of expert models that
contain diversified vision and/or language knowledge pre-trained on different
modalities, tasks, networks, and datasets. Unfortunately, these models are
"isolated agents" with heterogeneous structures, and how to integrate their
knowledge for generalizing CLIP-like models has not been fully explored. To
bridge this gap, we propose a general and concise TransAgent framework, which
transports the knowledge of the isolated agents in a unified manner, and
effectively guides CLIP to generalize with multi-source knowledge distillation.
With such a distinct framework, we flexibly collaborate with 11 heterogeneous
agents to empower vision-language foundation models, without further cost in
the inference phase. Finally, our TransAgent achieves state-of-the-art
performance on 11 visual recognition datasets. Under the same low-shot setting,
it outperforms the popular CoOp with around 10% on average, and 20% on EuroSAT
which contains large domain shifts.Summary
AI-Generated Summary