Freisetzung des Vecset-Diffusionsmodells für schnelle Formgenerierung

Zusammenfassung

Die 3D-Formgenerierung hat durch die Entwicklung sogenannter „nativ“ 3D-Diffusionsmodelle, insbesondere durch das Vecset Diffusion Model (VDM), erheblich an Bedeutung gewonnen. Obwohl jüngste Fortschritte vielversprechende Ergebnisse bei der Erzeugung hochauflösender 3D-Formen gezeigt haben, kämpft VDM immer noch mit der Hochgeschwindigkeitsgenerierung. Die Herausforderungen bestehen nicht nur in der Beschleunigung der Diffusionsabtastung, sondern auch in der VAE-Decodierung in VDM, Bereiche, die in früheren Arbeiten nur unzureichend erforscht wurden. Um diese Herausforderungen zu bewältigen, präsentieren wir FlashVDM, ein systematisches Framework zur Beschleunigung sowohl von VAE als auch von DiT in VDM. Für DiT ermöglicht FlashVDM eine flexible Diffusionsabtastung mit nur 5 Inferenzschritten und vergleichbarer Qualität, was durch die Stabilisierung der Konsistenzdestillation mit unserer neu eingeführten Progressive Flow Distillation erreicht wird. Für VAE führen wir einen blitzschnellen Vecset-Decoder ein, der mit Adaptive KV Selection, Hierarchical Volume Decoding und Efficient Network Design ausgestattet ist. Durch die Nutzung der Lokalität des Vecsets und der Sparsität der Formoberfläche im Volumen reduziert unser Decoder drastisch die FLOPs und minimiert den gesamten Decodierungsaufwand. Wir wenden FlashVDM auf Hunyuan3D-2 an, um Hunyuan3D-2 Turbo zu erhalten. Durch systematische Evaluation zeigen wir, dass unser Modell bestehende Methoden zur schnellen 3D-Generierung deutlich übertrifft und dabei eine vergleichbare Leistung wie der State-of-the-Art erzielt, während die Inferenzzeit für die Rekonstruktion um mehr als das 45-fache und für die Generierung um das 32-fache reduziert wird. Code und Modelle sind verfügbar unter https://github.com/Tencent/FlashVDM.

English

3D shape generation has greatly flourished through the development of so-called "native" 3D diffusion, particularly through the Vecset Diffusion Model (VDM). While recent advancements have shown promising results in generating high-resolution 3D shapes, VDM still struggles with high-speed generation. Challenges exist because of difficulties not only in accelerating diffusion sampling but also VAE decoding in VDM, areas under-explored in previous works. To address these challenges, we present FlashVDM, a systematic framework for accelerating both VAE and DiT in VDM. For DiT, FlashVDM enables flexible diffusion sampling with as few as 5 inference steps and comparable quality, which is made possible by stabilizing consistency distillation with our newly introduced Progressive Flow Distillation. For VAE, we introduce a lightning vecset decoder equipped with Adaptive KV Selection, Hierarchical Volume Decoding, and Efficient Network Design. By exploiting the locality of the vecset and the sparsity of shape surface in the volume, our decoder drastically lowers FLOPs, minimizing the overall decoding overhead. We apply FlashVDM to Hunyuan3D-2 to obtain Hunyuan3D-2 Turbo. Through systematic evaluation, we show that our model significantly outperforms existing fast 3D generation methods, achieving comparable performance to the state-of-the-art while reducing inference time by over 45x for reconstruction and 32x for generation. Code and models are available at https://github.com/Tencent/FlashVDM.

Freisetzung des Vecset-Diffusionsmodells für schnelle Formgenerierung

Unleashing Vecset Diffusion Model for Fast Shape Generation

Zusammenfassung

Summary

Support