ChatPaper.aiChatPaper

HermesFlow: 다중 모달 이해와 생성 간의 간극을 원활하게 메우다

HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

February 17, 2025
저자: Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui
cs.AI

초록

자가회귀 패러다임의 놀라운 성공은 다양한 모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 중요한 발전을 이루었으며, Show-o, Transfusion, Emu3와 같은 강력한 모델들이 통합 이미지 이해와 생성에서 주목할만한 진전을 이루었습니다. 우리는 처음으로 MLLMs의 이해 능력이 일반적으로 생성 능력보다 강하며 두 가지 사이에 상당한 격차가 있다는 공통 현상을 발견했습니다. 이 통찰력을 기반으로, 우리는 이해와 생성 사이의 격차를 원활하게 교량짓는 간단하면서도 일반적인 프레임워크인 HermesFlow를 제안합니다. 구체적으로, 우리는 동질 데이터를 입력으로 삼아 이해와 생성의 동질 선호 데이터를 선별합니다. Pair-DPO와 자가 대결 반복 최적화를 통해 HermesFlow는 동질 선호 데이터를 사용하여 다모달 이해와 생성을 효과적으로 조정합니다. 광범위한 실험은 우리의 방법이 이전 방법에 비해 상당한 우위를 보이며, 특히 다모달 이해와 생성 간의 격차를 줄이는 데 뛰어난 성과를 거뒀음을 보여줍니다. 이러한 발견은 HermesFlow의 잠재력을 강조하며, 다음 세대 다모달 기초 모델을 위한 일반적인 조정 프레임워크로서의 가능성을 강조합니다. 코드: https://github.com/Gen-Verse/HermesFlow
English
The remarkable success of the autoregressive paradigm has made significant advancement in Multimodal Large Language Models (MLLMs), with powerful models like Show-o, Transfusion and Emu3 achieving notable progress in unified image understanding and generation. For the first time, we uncover a common phenomenon: the understanding capabilities of MLLMs are typically stronger than their generative capabilities, with a significant gap between the two. Building on this insight, we propose HermesFlow, a simple yet general framework designed to seamlessly bridge the gap between understanding and generation in MLLMs. Specifically, we take the homologous data as input to curate homologous preference data of both understanding and generation. Through Pair-DPO and self-play iterative optimization, HermesFlow effectively aligns multimodal understanding and generation using homologous preference data. Extensive experiments demonstrate the significant superiority of our approach over prior methods, particularly in narrowing the gap between multimodal understanding and generation. These findings highlight the potential of HermesFlow as a general alignment framework for next-generation multimodal foundation models. Code: https://github.com/Gen-Verse/HermesFlow

Summary

AI-Generated Summary

PDF162February 18, 2025