ChatPaper.aiChatPaper

Обучение метрического расстояния авторегрессивным мультимодальным базовым моделям

Teaching Metric Distance to Autoregressive Multimodal Foundational Models

March 4, 2025
Авторы: Jiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu
cs.AI

Аннотация

По мере того как крупные языковые модели выходят за рамки обработки естественного языка и охватывают такие области, как математика, мультимодальное понимание и воплощенные агенты, токены всё чаще отражают метрические отношения, а не чисто лингвистический смысл. Мы представляем DIST2Loss — дистанционно-ориентированную структуру, предназначенную для обучения авторегрессивных дискретных моделей с использованием предопределенных дистанционных отношений между выходными токенами. В основе DIST2Loss лежит преобразование непрерывных распределений экспоненциального семейства, полученных из встроенных метрик расстояния, в дискретные категориальные цели оптимизации, совместимые с архитектурами моделей. Этот подход позволяет моделям изучать и сохранять значимые дистанционные отношения в процессе генерации токенов, оставаясь совместимыми с существующими архитектурами. Эмпирические оценки демонстрируют устойчивое улучшение производительности в различных мультимодальных приложениях, включая визуальное заземление, роботизированное манипулирование, генеративное моделирование вознаграждений и генерацию изображений с использованием векторно-квантованных признаков. Эти улучшения особенно заметны в условиях ограниченного объема обучающих данных, что подчеркивает эффективность DIST2Loss в условиях ограниченных ресурсов.
English
As large language models expand beyond natural language to domains such as mathematics, multimodal understanding, and embodied agents, tokens increasingly reflect metric relationships rather than purely linguistic meaning. We introduce DIST2Loss, a distance-aware framework designed to train autoregressive discrete models by leveraging predefined distance relationships among output tokens. At its core, DIST2Loss transforms continuous exponential family distributions derived from inherent distance metrics into discrete, categorical optimization targets compatible with the models' architectures. This approach enables the models to learn and preserve meaningful distance relationships during token generation while maintaining compatibility with existing architectures. Empirical evaluations show consistent performance gains in diverse multimodal applications, including visual grounding, robotic manipulation, generative reward modeling, and image generation using vector-quantized features. These improvements are pronounced in cases of limited training data, highlighting DIST2Loss's effectiveness in resource-constrained settings.

Summary

AI-Generated Summary

PDF32March 5, 2025