미미르: 정확한 텍스트 이해를 위한 비디오 확산 모델 개선
Mimir: Improving Video Diffusion Models for Precise Text Understanding
December 4, 2024
저자: Shuai Tan, Biao Gong, Yutong Feng, Kecheng Zheng, Dandan Zheng, Shuwei Shi, Yujun Shen, Jingdong Chen, Ming Yang
cs.AI
초록
비디오 생성에서 텍스트는 서술적 성격으로 인해 주요 제어 신호 역할을 합니다. 텍스트 설명을 비디오 클립으로 렌더링하기 위해 현재의 비디오 확산 모델은 텍스트 인코더에서 특징을 빌려오지만 텍스트 이해력이 제한되어 있습니다. 대형 언어 모델(LLMs)의 최근 성공은 디코더 전용 트랜스포머의 강점을 보여주며, 이는 텍스트-비디오(T2V) 생성에 세 가지 명확한 이점을 제공합니다. 즉, 우수한 확장성으로 인한 정확한 텍스트 이해, 입력 텍스트를 넘어 상상력을 제공하는 다음 토큰 예측에 의해 활성화된 상상력, 그리고 사용자 관심사를 우선시하는 유연성을 통한 지시 조정입니다. 그러나 두 가지 다른 텍스트 모델링 패러다임에서 발생하는 특징 분포 격차로 인해 LLMs의 직접적인 사용이 확립된 T2V 모델에서 어려움을 겪고 있습니다. 본 연구는 Mimir라는 엔드-투-엔드 훈련 프레임워크를 통해 이 도전에 대처합니다. 이 프레임워크는 텍스트 인코더와 LLMs의 출력을 조화시키기 위해 신중하게 설계된 토큰 퓨저를 특징으로 합니다. 이러한 설계는 T2V 모델이 학습된 비디오 사전을 완전히 활용하면서 LLMs의 텍스트 관련 능력을 최대한 활용할 수 있도록 합니다. 광범위한 양적 및 질적 결과는 Mimir이 뛰어난 텍스트 이해력을 갖춘 고품질 비디오를 생성하는 데 효과적임을 입증하며, 특히 짧은 캡션을 처리하고 움직임을 관리할 때 뛰어난 성과를 보여줍니다. 프로젝트 페이지: https://lucaria-academy.github.io/Mimir/
English
Text serves as the key control signal in video generation due to its
narrative nature. To render text descriptions into video clips, current video
diffusion models borrow features from text encoders yet struggle with limited
text comprehension. The recent success of large language models (LLMs)
showcases the power of decoder-only transformers, which offers three clear
benefits for text-to-video (T2V) generation, namely, precise text understanding
resulting from the superior scalability, imagination beyond the input text
enabled by next token prediction, and flexibility to prioritize user interests
through instruction tuning. Nevertheless, the feature distribution gap emerging
from the two different text modeling paradigms hinders the direct use of LLMs
in established T2V models. This work addresses this challenge with Mimir, an
end-to-end training framework featuring a carefully tailored token fuser to
harmonize the outputs from text encoders and LLMs. Such a design allows the T2V
model to fully leverage learned video priors while capitalizing on the
text-related capability of LLMs. Extensive quantitative and qualitative results
demonstrate the effectiveness of Mimir in generating high-quality videos with
excellent text comprehension, especially when processing short captions and
managing shifting motions. Project page:
https://lucaria-academy.github.io/Mimir/Summary
AI-Generated Summary