비디오 저자: 장문 형식 비디오 생성을 향하여
VideoAuteur: Towards Long Narrative Video Generation
January 10, 2025
저자: Junfei Xiao, Feng Cheng, Lu Qi, Liangke Gui, Jiepeng Cen, Zhibei Ma, Alan Yuille, Lu Jiang
cs.AI
초록
최근 비디오 생성 모델들은 몇 초 동안 지속되는 고품질 비디오 클립을 생성하는 데 융통성 있는 결과를 보여주었습니다. 그러나 이러한 모델들은 명확하고 정보 전달력 있는 사건을 전달하는 긴 시퀀스를 생성하는 데 어려움을 겪으며, 일관된 내러티브를 지원하는 능력이 제한됩니다. 본 논문에서는 쿠킹 분야에서 장편 내러티브 생성을 발전시키기 위해 설계된 대규모 쿠킹 비디오 데이터셋을 제시합니다. 우리는 제안한 데이터셋의 시각적 충실도와 텍스트 캡션 정확도를 최신 비전-언어 모델(VLMs)과 비디오 생성 모델을 사용하여 검증합니다. 또한 시각적 및 의미적 일관성을 향상시키기 위해 장편 내러티브 비디오 디렉터를 소개하고, 시각적 임베딩을 조정하여 전체 비디오 품질을 향상시키는 역할을 강조합니다. 우리의 방법은 텍스트와 이미지 임베딩을 비디오 생성 프로세스 내에서 통합하는 파인튜닝 기술을 통해 시각적으로 상세하고 의미적으로 일치하는 핵심 프레임을 생성하는 데 상당한 개선을 보여줍니다. 프로젝트 페이지: https://videoauteur.github.io/
English
Recent video generation models have shown promising results in producing
high-quality video clips lasting several seconds. However, these models face
challenges in generating long sequences that convey clear and informative
events, limiting their ability to support coherent narrations. In this paper,
we present a large-scale cooking video dataset designed to advance long-form
narrative generation in the cooking domain. We validate the quality of our
proposed dataset in terms of visual fidelity and textual caption accuracy using
state-of-the-art Vision-Language Models (VLMs) and video generation models,
respectively. We further introduce a Long Narrative Video Director to enhance
both visual and semantic coherence in generated videos and emphasize the role
of aligning visual embeddings to achieve improved overall video quality. Our
method demonstrates substantial improvements in generating visually detailed
and semantically aligned keyframes, supported by finetuning techniques that
integrate text and image embeddings within the video generation process.
Project page: https://videoauteur.github.io/Summary
AI-Generated Summary