TransAgent: Overdracht van Vision-Language Foundation-modellen met Heterogene Agent Samenwerking

Samenvatting

Vision-language foundation modellen (zoals CLIP) hebben onlangs hun kracht getoond in transfer learning, dankzij grootschalige voorafgaande training van afbeelding-tekst. Echter, de gegevens van het doeldomein in de downstream taken kunnen sterk verschillen van de voorafgaande training, wat het moeilijk maakt voor zo'n enkel model om goed te generaliseren. Als alternatief bestaat er een breed scala aan expertmodellen die gediversifieerde visuele en/of taalkundige kennis bevatten, vooraf getraind op verschillende modaliteiten, taken, netwerken en datasets. Helaas zijn deze modellen "geïsoleerde agenten" met heterogene structuren, en hoe hun kennis te integreren voor het generaliseren van CLIP-achtige modellen is nog niet volledig onderzocht. Om deze kloof te overbruggen, stellen we een algemeen en beknopt TransAgent-framework voor, dat de kennis van de geïsoleerde agenten op een geünificeerde manier overbrengt, en CLIP effectief begeleidt om te generaliseren met kennisdistantiëring van meerdere bronnen. Met zo'n onderscheidend framework werken we flexibel samen met 11 heterogene agenten om vision-language foundation modellen te versterken, zonder verdere kosten in de inferentiefase. Uiteindelijk behaalt onze TransAgent state-of-the-art prestaties op 11 visuele herkenningsdatasets. Onder dezelfde low-shot instelling presteert het beter dan de populaire CoOp met gemiddeld ongeveer 10%, en 20% op EuroSAT dat grote domeinverschuivingen bevat.

English

Vision-language foundation models (such as CLIP) have recently shown their power in transfer learning, owing to large-scale image-text pre-training. However, target domain data in the downstream tasks can be highly different from the pre-training phase, which makes it hard for such a single model to generalize well. Alternatively, there exists a wide range of expert models that contain diversified vision and/or language knowledge pre-trained on different modalities, tasks, networks, and datasets. Unfortunately, these models are "isolated agents" with heterogeneous structures, and how to integrate their knowledge for generalizing CLIP-like models has not been fully explored. To bridge this gap, we propose a general and concise TransAgent framework, which transports the knowledge of the isolated agents in a unified manner, and effectively guides CLIP to generalize with multi-source knowledge distillation. With such a distinct framework, we flexibly collaborate with 11 heterogeneous agents to empower vision-language foundation models, without further cost in the inference phase. Finally, our TransAgent achieves state-of-the-art performance on 11 visual recognition datasets. Under the same low-shot setting, it outperforms the popular CoOp with around 10% on average, and 20% on EuroSAT which contains large domain shifts.

TransAgent: Overdracht van Vision-Language Foundation-modellen met Heterogene Agent Samenwerking

TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration

Samenvatting

Support