Pippo: Hochauflösende Multi-View Menschen aus einem einzigen Bild

Zusammenfassung

Wir präsentieren Pippo, ein generatives Modell, das in der Lage ist, dichte 1K-Auflösungs-Videosequenzen einer Person aus einem einzigen zufällig aufgenommenen Foto zu erzeugen. Pippo ist ein Multi-View-Diffusions-Transformer und erfordert keine zusätzlichen Eingaben - z. B. ein angepasstes parametrisches Modell oder Kameraparameter des Eingabebildes. Wir trainieren Pippo vorab an 3 Milliarden menschlichen Bildern ohne Untertitel und führen während des Trainings in der Mitte und am Ende Multi-View-Operationen an Studioaufnahmen von Menschen durch. Während des mittleren Trainings absorbieren wir schnell den Studio-Datensatz, indem wir mehrere (bis zu 48) Ansichten in geringer Auflösung denoisieren und die Zielkameras grob mithilfe eines flachen MLP kodieren. Während des Endtrainings denoisieren wir weniger Ansichten in hoher Auflösung und verwenden pixelgenaue Steuerelemente (z. B. räumlicher Anker und Plücker-Rays), um konsistente 3D-Generierungen zu ermöglichen. Bei der Inferenz schlagen wir eine Aufmerksamkeitsverzerrungstechnik vor, die es Pippo ermöglicht, gleichzeitig mehr als 5-mal so viele Ansichten zu generieren wie während des Trainings gesehen. Schließlich führen wir auch eine verbesserte Metrik zur Bewertung der 3D-Konsistenz von Multi-View-Generierungen ein und zeigen, dass Pippo bestehende Arbeiten zur Multi-View-Menschengenerierung aus einem einzigen Bild übertrifft.

English

We present Pippo, a generative model capable of producing 1K resolution dense turnaround videos of a person from a single casually clicked photo. Pippo is a multi-view diffusion transformer and does not require any additional inputs - e.g., a fitted parametric model or camera parameters of the input image. We pre-train Pippo on 3B human images without captions, and conduct multi-view mid-training and post-training on studio captured humans. During mid-training, to quickly absorb the studio dataset, we denoise several (up to 48) views at low-resolution, and encode target cameras coarsely using a shallow MLP. During post-training, we denoise fewer views at high-resolution and use pixel-aligned controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent generations. At inference, we propose an attention biasing technique that allows Pippo to simultaneously generate greater than 5 times as many views as seen during training. Finally, we also introduce an improved metric to evaluate 3D consistency of multi-view generations, and show that Pippo outperforms existing works on multi-view human generation from a single image.

Pippo: Hochauflösende Multi-View Menschen aus einem einzigen Bild

Pippo: High-Resolution Multi-View Humans from a Single Image

Zusammenfassung

Summary

Support

Support