ChatPaper.aiChatPaper

OmniHuman-1: 1단계 조건부 인간 애니메이션 모델의 확장에 대한 재고문

OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

February 3, 2025
저자: Gaojie Lin, Jianwen Jiang, Jiaqi Yang, Zerong Zheng, Chao Liang
cs.AI

초록

최근 몇 년간 엔드 투 엔드 인간 애니메이션, 예를 들어 오디오 주도 대화형 인간 생성은 주목할 만한 발전을 이루었습니다. 그러나 기존 방법은 여전히 대규모 일반 비디오 생성 모델로 확장하는 데 어려움을 겪어 실제 응용 프로그램에서의 잠재력을 제한하고 있습니다. 본 논문에서는 훈련 단계에서 모션 관련 조건을 혼합하여 데이터를 확장하는 Diffusion Transformer 기반 프레임워크인 OmniHuman을 제안합니다. 이를 위해 이러한 혼합 조건에 대한 두 가지 훈련 원칙을 소개하고, 해당 모델 아키텍처 및 추론 전략을 제시합니다. 이러한 설계는 OmniHuman이 데이터 기반 모션 생성을 완전히 활용하도록 하여 근본적으로 매우 현실적인 인간 비디오 생성을 달성하게 합니다. 더 중요한 것은 OmniHuman이 다양한 초상 콘텐츠(얼굴 초근접, 초상, 반신, 전신), 대화와 노래를 모두 지원하며, 인간-객체 상호작용과 어려운 몸의 자세를 처리하고 다양한 이미지 스타일을 수용한다는 것입니다. 기존 엔드 투 엔드 오디오 주도 방법과 비교했을 때, OmniHuman은 더 현실적인 비디오를 생성뿐만 아니라 입력에서 더 큰 유연성을 제공합니다. 또한 다중 주행 모드(오디오 주도, 비디오 주도 및 결합 주행 신호)를 지원합니다. 비디오 샘플은 ttfamily 프로젝트 페이지(https://omnihuman-lab.github.io)에서 제공됩니다.
English
End-to-end human animation, such as audio-driven talking human generation, has undergone notable advancements in the recent few years. However, existing methods still struggle to scale up as large general video generation models, limiting their potential in real applications. In this paper, we propose OmniHuman, a Diffusion Transformer-based framework that scales up data by mixing motion-related conditions into the training phase. To this end, we introduce two training principles for these mixed conditions, along with the corresponding model architecture and inference strategy. These designs enable OmniHuman to fully leverage data-driven motion generation, ultimately achieving highly realistic human video generation. More importantly, OmniHuman supports various portrait contents (face close-up, portrait, half-body, full-body), supports both talking and singing, handles human-object interactions and challenging body poses, and accommodates different image styles. Compared to existing end-to-end audio-driven methods, OmniHuman not only produces more realistic videos, but also offers greater flexibility in inputs. It also supports multiple driving modalities (audio-driven, video-driven and combined driving signals). Video samples are provided on the ttfamily project page (https://omnihuman-lab.github.io)

Summary

AI-Generated Summary

PDF18319February 4, 2025