Pippo: Hochauflösende Multi-View Menschen aus einem einzigen Bild
Pippo: High-Resolution Multi-View Humans from a Single Image
February 11, 2025
Autoren: Yash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov
cs.AI
Zusammenfassung
Wir präsentieren Pippo, ein generatives Modell, das in der Lage ist, dichte 1K-Auflösungs-Videosequenzen einer Person aus einem einzigen zufällig aufgenommenen Foto zu erzeugen. Pippo ist ein Multi-View-Diffusions-Transformer und erfordert keine zusätzlichen Eingaben - z. B. ein angepasstes parametrisches Modell oder Kameraparameter des Eingabebildes. Wir trainieren Pippo vorab an 3 Milliarden menschlichen Bildern ohne Untertitel und führen während des Trainings in der Mitte und am Ende Multi-View-Operationen an Studioaufnahmen von Menschen durch. Während des mittleren Trainings absorbieren wir schnell den Studio-Datensatz, indem wir mehrere (bis zu 48) Ansichten in geringer Auflösung denoisieren und die Zielkameras grob mithilfe eines flachen MLP kodieren. Während des Endtrainings denoisieren wir weniger Ansichten in hoher Auflösung und verwenden pixelgenaue Steuerelemente (z. B. räumlicher Anker und Plücker-Rays), um konsistente 3D-Generierungen zu ermöglichen. Bei der Inferenz schlagen wir eine Aufmerksamkeitsverzerrungstechnik vor, die es Pippo ermöglicht, gleichzeitig mehr als 5-mal so viele Ansichten zu generieren wie während des Trainings gesehen. Schließlich führen wir auch eine verbesserte Metrik zur Bewertung der 3D-Konsistenz von Multi-View-Generierungen ein und zeigen, dass Pippo bestehende Arbeiten zur Multi-View-Menschengenerierung aus einem einzigen Bild übertrifft.
English
We present Pippo, a generative model capable of producing 1K resolution dense
turnaround videos of a person from a single casually clicked photo. Pippo is a
multi-view diffusion transformer and does not require any additional inputs -
e.g., a fitted parametric model or camera parameters of the input image. We
pre-train Pippo on 3B human images without captions, and conduct multi-view
mid-training and post-training on studio captured humans. During mid-training,
to quickly absorb the studio dataset, we denoise several (up to 48) views at
low-resolution, and encode target cameras coarsely using a shallow MLP. During
post-training, we denoise fewer views at high-resolution and use pixel-aligned
controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent
generations. At inference, we propose an attention biasing technique that
allows Pippo to simultaneously generate greater than 5 times as many views as
seen during training. Finally, we also introduce an improved metric to evaluate
3D consistency of multi-view generations, and show that Pippo outperforms
existing works on multi-view human generation from a single image.Summary
AI-Generated Summary