ChatPaper.aiChatPaper

피포: 단일 이미지로부터 고해상도 다중 뷰 인간들

Pippo: High-Resolution Multi-View Humans from a Single Image

February 11, 2025
저자: Yash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov
cs.AI

초록

우리는 Pippo를 제시합니다. Pippo는 단일 캐주얼한 클릭 사진으로부터 사람의 1K 해상도 밀도 높은 회전 영상을 생성할 수 있는 생성 모델입니다. Pippo는 다중 뷰 확산 트랜스포머이며 추가 입력(예: 적합한 매개변수 모델 또는 입력 이미지의 카메라 매개변수)을 필요로하지 않습니다. 우리는 3B 인간 이미지에 대해 캡션 없이 Pippo를 사전 훈련하고 스튜디오에서 촬영된 인간들에 대해 중간 훈련 및 후반 훈련을 실시합니다. 중간 훈련 중에는 스튜디오 데이터셋을 빠르게 흡수하기 위해 저해상도로 여러 (최대 48) 뷰를 노이즈 제거하고 목표 카메라를 얕은 MLP를 사용하여 대략적으로 인코딩합니다. 후반 훈련 중에는 고해상도로 적은 수의 뷰를 노이즈 제거하고 픽셀 정렬된 컨트롤(예: 공간 앵커 및 플러커 레이)을 사용하여 3D 일관된 생성을 가능하게 합니다. 추론 단계에서는 Pippo가 훈련 중에 본 것보다 5배 이상의 뷰를 동시에 생성할 수 있도록 하는 주의 바이어싱 기술을 제안합니다. 마지막으로, 단일 이미지로부터의 다중 뷰 인간 생성에 있어서 Pippo가 기존 작업들을 능가하는 것을 보여주기 위해 개선된 메트릭을 소개합니다.
English
We present Pippo, a generative model capable of producing 1K resolution dense turnaround videos of a person from a single casually clicked photo. Pippo is a multi-view diffusion transformer and does not require any additional inputs - e.g., a fitted parametric model or camera parameters of the input image. We pre-train Pippo on 3B human images without captions, and conduct multi-view mid-training and post-training on studio captured humans. During mid-training, to quickly absorb the studio dataset, we denoise several (up to 48) views at low-resolution, and encode target cameras coarsely using a shallow MLP. During post-training, we denoise fewer views at high-resolution and use pixel-aligned controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent generations. At inference, we propose an attention biasing technique that allows Pippo to simultaneously generate greater than 5 times as many views as seen during training. Finally, we also introduce an improved metric to evaluate 3D consistency of multi-view generations, and show that Pippo outperforms existing works on multi-view human generation from a single image.

Summary

AI-Generated Summary

PDF102February 12, 2025