ChatPaper.aiChatPaper

Unicorn: Sintesi di Dati Solo Testo per l'Addestramento di Modelli di Visione e Linguaggio

Unicorn: Text-Only Data Synthesis for Vision Language Model Training

March 28, 2025
Autori: Xiaomin Yu, Pengxiang Ding, Wenjie Zhang, Siteng Huang, Songyang Gao, Chengwei Qin, Kejian Wu, Zhaoxin Fan, Ziyue Qiao, Donglin Wang
cs.AI

Abstract

L'addestramento di modelli visione-linguaggio (VLMs) richiede tipicamente coppie immagine-testo su larga scala e di alta qualità, ma la raccolta o la sintesi di tali dati è costosa. Al contrario, i dati testuali sono abbondanti ed economici, sollevando la domanda: è possibile sintetizzare dati multimodali di alta qualità esclusivamente dal testo? Per affrontare questa sfida, proponiamo un framework di sintesi dati multimodale integrato in tre fasi, che genera due dataset: Unicorn-1.2M e Unicorn-471K-Instruction. Nella Fase 1: Sintesi di Dati di Didascalie Diversificate, costruiamo 1.2 milioni di didascalie semanticamente diversificate e di alta qualità espandendo semi di didascalie sparse utilizzando modelli linguistici di grandi dimensioni (LLMs). Nella Fase 2: Generazione di Dati per l'Instruction-Tuning, elaboriamo ulteriormente 471.000 didascalie in compiti di instruction-tuning multi-turn per supportare ragionamenti complessi. Infine, nella Fase 3: Trasferimento di Rappresentazione Modale, queste rappresentazioni testuali delle didascalie vengono trasformate in rappresentazioni visive, producendo rappresentazioni di immagini sintetiche diversificate. Questo processo in tre fasi ci permette di costruire Unicorn-1.2M per il pre-training e Unicorn-471K-Instruction per l'instruction-tuning, senza fare affidamento su immagini reali. Eliminando la dipendenza da immagini reali mantenendo qualità e diversità dei dati, il nostro framework offre una soluzione economica e scalabile per l'addestramento di VLMs. Il codice è disponibile all'indirizzo https://github.com/Yu-xm/Unicorn.git.
English
Training vision-language models (VLMs) typically requires large-scale, high-quality image-text pairs, but collecting or synthesizing such data is costly. In contrast, text data is abundant and inexpensive, prompting the question: can high-quality multimodal training data be synthesized purely from text? To tackle this, we propose a cross-integrated three-stage multimodal data synthesis framework, which generates two datasets: Unicorn-1.2M and Unicorn-471K-Instruction. In Stage 1: Diverse Caption Data Synthesis, we construct 1.2M semantically diverse high-quality captions by expanding sparse caption seeds using large language models (LLMs). In Stage 2: Instruction-Tuning Data Generation, we further process 471K captions into multi-turn instruction-tuning tasks to support complex reasoning. Finally, in Stage 3: Modality Representation Transfer, these textual captions representations are transformed into visual representations, resulting in diverse synthetic image representations. This three-stage process enables us to construct Unicorn-1.2M for pretraining and Unicorn-471K-Instruction for instruction-tuning, without relying on real images. By eliminating the dependency on real images while maintaining data quality and diversity, our framework offers a cost-effective and scalable solution for VLMs training. Code is available at https://github.com/Yu-xm/Unicorn.git.

Summary

AI-Generated Summary

PDF382April 1, 2025