TransAgent: 이질적 에이전트 협업을 통한 비전-언어 기반 모델 전이
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration
October 16, 2024
저자: Yiwei Guo, Shaobin Zhuang, Kunchang Li, Yu Qiao, Yali Wang
cs.AI
초록
비전-언어 기반 모델(예: CLIP)은 최근 대규모 이미지-텍스트 사전 훈련 덕분에 전이 학습에서 그 힘을 보여주고 있다. 그러나 하위 작업에서의 대상 도메인 데이터는 사전 훈련 단계와 매우 다를 수 있어 이러한 단일 모델이 잘 일반화하기 어렵게 만든다. 대신, 서로 다른 모달리티, 작업, 네트워크 및 데이터셋에서 사전 훈련된 다양한 비전 및/또는 언어 지식을 포함하는 다양한 전문 모델이 존재한다. 유감스럽게도, 이러한 모델은 이질적인 구조를 가진 "고립된 에이전트"이며, 이러한 지식을 통합하여 CLIP와 같은 모델을 일반화하는 방법이 완전히 탐구되지 않았다. 이 간극을 메우기 위해, 우리는 고립된 에이전트의 지식을 통일된 방식으로 전달하고, 다중 소스 지식 증류를 통해 CLIP가 일반화되도록 효과적으로 안내하는 일반적이고 간결한 TransAgent 프레임워크를 제안한다. 이러한 독특한 프레임워크로 우리는 11개의 이질적 에이전트와 유연하게 협업하여 비전-언어 기반 모델을 강화하며, 추론 단계에서 추가 비용 없이 최첨단 성능을 달성한다. 마지막으로, 우리의 TransAgent는 11개의 시각 인식 데이터셋에서 최고 수준의 성능을 달성한다. 동일한 저샷 설정에서 인기 있는 CoOp보다 평균적으로 약 10% 이상, 그리고 큰 도메인 이동을 포함하는 EuroSAT에서는 약 20% 우수한 성과를 보인다.
English
Vision-language foundation models (such as CLIP) have recently shown their
power in transfer learning, owing to large-scale image-text pre-training.
However, target domain data in the downstream tasks can be highly different
from the pre-training phase, which makes it hard for such a single model to
generalize well. Alternatively, there exists a wide range of expert models that
contain diversified vision and/or language knowledge pre-trained on different
modalities, tasks, networks, and datasets. Unfortunately, these models are
"isolated agents" with heterogeneous structures, and how to integrate their
knowledge for generalizing CLIP-like models has not been fully explored. To
bridge this gap, we propose a general and concise TransAgent framework, which
transports the knowledge of the isolated agents in a unified manner, and
effectively guides CLIP to generalize with multi-source knowledge distillation.
With such a distinct framework, we flexibly collaborate with 11 heterogeneous
agents to empower vision-language foundation models, without further cost in
the inference phase. Finally, our TransAgent achieves state-of-the-art
performance on 11 visual recognition datasets. Under the same low-shot setting,
it outperforms the popular CoOp with around 10% on average, and 20% on EuroSAT
which contains large domain shifts.Summary
AI-Generated Summary