ChatPaper.aiChatPaper

FLOAT: 음성 주도 대화형 초상화를 위한 생성적 동작 잠재 흐름 매칭

FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait

December 2, 2024
저자: Taekyung Ki, Dongchan Min, Gyoungsu Chae
cs.AI

초록

확산 기반 생성 모델의 급속한 발전으로 초상 이미지 애니메이션이 높은 성과를 거두었습니다. 그러나 반복적인 샘플링 특성으로 인해 시간적으로 일관된 비디오 생성과 빠른 샘플링에 여전히 도전해야 합니다. 본 논문에서는 픽셀 기반 잠재 공간에서 학습된 움직임 잠재 공간으로 생성 모델링을 전환하여 효율적인 시간적 일관성 움직임을 설계하는 FLOAT라는 오디오 주도 대화형 초상 비디오 생성 방법을 제안합니다. 이를 위해 간단하면서도 효과적인 프레임별 조건부 메커니즘을 갖춘 트랜스포머 기반 벡터 필드 예측기를 도입합니다. 게다가, 우리의 방법은 음성 주도 감정 향상을 지원하여 표현적인 움직임을 자연스럽게 통합할 수 있습니다. 방대한 실험을 통해 우리의 방법이 시각적 품질, 움직임 충실도 및 효율성 측면에서 최신 오디오 주도 대화형 초상 방법을 능가한다는 것을 입증하였습니다.
English
With the rapid advancement of diffusion-based generative models, portrait image animation has achieved remarkable results. However, it still faces challenges in temporally consistent video generation and fast sampling due to its iterative sampling nature. This paper presents FLOAT, an audio-driven talking portrait video generation method based on flow matching generative model. We shift the generative modeling from the pixel-based latent space to a learned motion latent space, enabling efficient design of temporally consistent motion. To achieve this, we introduce a transformer-based vector field predictor with a simple yet effective frame-wise conditioning mechanism. Additionally, our method supports speech-driven emotion enhancement, enabling a natural incorporation of expressive motions. Extensive experiments demonstrate that our method outperforms state-of-the-art audio-driven talking portrait methods in terms of visual quality, motion fidelity, and efficiency.

Summary

AI-Generated Summary

PDF266December 3, 2024