R2-T2: Перенаправление во время тестирования для мультимодальных смесей экспертов
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts
February 27, 2025
Авторы: Zhongyang Li, Ziyue Li, Tianyi Zhou
cs.AI
Аннотация
В крупных мультимодальных моделях (LMMs) восприятие немодальных данных
(например, визуальных представлений) обычно не соответствует мощным
возможностям рассуждения больших языковых моделей (LLMs), что снижает
производительность LMMs на сложных задачах. Этот недостаток недавно был
устранен путем замены визуального кодировщика на смесь экспертов (MoE),
которая предоставляет богатые, многоуровневые и разнообразные представления,
необходимые для различных задач. Производительность мультимодальной MoE
во многом зависит от маршрутизатора, который перевзвешивает и смешивает
представления различных экспертов для каждого входного образца. Однако мы
обнаружили, что маршрутизатор, обученный сквозным методом, не всегда
вырабатывает оптимальные веса маршрутизации для каждого тестового образца.
Чтобы устранить этот разрыв, мы предлагаем новый и эффективный метод
"Повторная маршрутизация во время тестирования" (R2-T2), который локально
оптимизирует вектор весов маршрутизации во время тестирования, перемещая его
в сторону векторов правильно предсказанных образцов в окрестности тестового
образца. Мы предлагаем три стратегии R2-T2 с различными целями оптимизации
и пространствами поиска соседей. R2-T2 последовательно и значительно улучшает
производительность современных LMMs на сложных бенчмарках для различных
задач, не обучая параметры базовой модели.
English
In large multimodal models (LMMs), the perception of non-language modalities
(e.g., visual representations) is usually not on par with the large language
models (LLMs)' powerful reasoning capabilities, deterring LMMs' performance on
challenging downstream tasks. This weakness has been recently mitigated by
replacing the vision encoder with a mixture-of-experts (MoE), which provides
rich, multi-granularity, and diverse representations required by diverse
downstream tasks. The performance of multimodal MoE largely depends on its
router, which reweights and mixes the representations of different experts for
each input. However, we find that the end-to-end trained router does not always
produce the optimal routing weights for every test sample. To bridge the gap,
we propose a novel and efficient method "Re-Routing in Test-Time(R2-T2) that
locally optimizes the vector of routing weights in test-time by moving it
toward those vectors of the correctly predicted samples in a neighborhood of
the test sample. We propose three R2-T2 strategies with different optimization
objectives and neighbor-search spaces. R2-T2 consistently and greatly improves
state-of-the-art LMMs' performance on challenging benchmarks of diverse tasks,
without training any base-model parameters.Summary
AI-Generated Summary