DICEPTION: Обобщенная модель диффузии для визуальных восприятий.
DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks
February 24, 2025
Авторы: Canyu Zhao, Mingyu Liu, Huanyi Zheng, Muzhi Zhu, Zhiyue Zhao, Hao Chen, Tong He, Chunhua Shen
cs.AI
Аннотация
Наша основная цель здесь - создать хорошую обобщенную модель восприятия, способную решать несколько задач в пределах выделенных вычислительных ресурсов и обучающих данных. Для достижения этой цели мы прибегаем к моделям диффузии текста в изображение, предварительно обученным на миллиардах изображений. Наши исчерпывающие метрики оценки демонстрируют, что DICEPTION успешно справляется с несколькими задачами восприятия, достигая производительности на уровне передовых моделей. Мы достигаем результатов на уровне SAM-vit-h, используя всего лишь 0,06% их данных (например, 600 тыс. против 1 млрд. пиксельно размеченных изображений). Вдохновленный работой Ванга и др., DICEPTION формулирует результаты различных задач восприятия с использованием цветового кодирования; и мы показываем, что стратегия присвоения случайных цветов различным экземплярам является очень эффективной как для сегментации объектов, так и для семантической сегментации. Объединение различных задач восприятия как условной генерации изображения позволяет нам полностью использовать предварительно обученные модели текста в изображение. Таким образом, DICEPTION может быть эффективно обучен за счет порядков меньших затрат по сравнению с традиционными моделями, обученными с нуля. При адаптации нашей модели к другим задачам, требуется только тонкая настройка на столь же небольшом количестве, как 50 изображений и 1% ее параметров. DICEPTION предоставляет ценные идеи и более перспективное решение для обобщенных моделей визуального восприятия.
English
Our primary goal here is to create a good, generalist perception model that
can tackle multiple tasks, within limits on computational resources and
training data. To achieve this, we resort to text-to-image diffusion models
pre-trained on billions of images. Our exhaustive evaluation metrics
demonstrate that DICEPTION effectively tackles multiple perception tasks,
achieving performance on par with state-of-the-art models. We achieve results
on par with SAM-vit-h using only 0.06% of their data (e.g., 600K vs. 1B
pixel-level annotated images). Inspired by Wang et al., DICEPTION formulates
the outputs of various perception tasks using color encoding; and we show that
the strategy of assigning random colors to different instances is highly
effective in both entity segmentation and semantic segmentation. Unifying
various perception tasks as conditional image generation enables us to fully
leverage pre-trained text-to-image models. Thus, DICEPTION can be efficiently
trained at a cost of orders of magnitude lower, compared to conventional models
that were trained from scratch. When adapting our model to other tasks, it only
requires fine-tuning on as few as 50 images and 1% of its parameters. DICEPTION
provides valuable insights and a more promising solution for visual generalist
models.Summary
AI-Generated Summary