Freisetzung des Vecset-Diffusionsmodells für schnelle Formgenerierung
Unleashing Vecset Diffusion Model for Fast Shape Generation
March 20, 2025
Autoren: Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Fuyun Wang, Huiwen Shi, Xianghui Yang, Qinxiang Lin, Jinwei Huang, Yuhong Liu, Jie Jiang, Chunchao Guo, Xiangyu Yue
cs.AI
Zusammenfassung
Die 3D-Formgenerierung hat durch die Entwicklung sogenannter „nativ“ 3D-Diffusionsmodelle, insbesondere durch das Vecset Diffusion Model (VDM), erheblich an Bedeutung gewonnen. Obwohl jüngste Fortschritte vielversprechende Ergebnisse bei der Erzeugung hochauflösender 3D-Formen gezeigt haben, kämpft VDM immer noch mit der Hochgeschwindigkeitsgenerierung. Die Herausforderungen bestehen nicht nur in der Beschleunigung der Diffusionsabtastung, sondern auch in der VAE-Decodierung in VDM, Bereiche, die in früheren Arbeiten nur unzureichend erforscht wurden. Um diese Herausforderungen zu bewältigen, präsentieren wir FlashVDM, ein systematisches Framework zur Beschleunigung sowohl von VAE als auch von DiT in VDM. Für DiT ermöglicht FlashVDM eine flexible Diffusionsabtastung mit nur 5 Inferenzschritten und vergleichbarer Qualität, was durch die Stabilisierung der Konsistenzdestillation mit unserer neu eingeführten Progressive Flow Distillation erreicht wird. Für VAE führen wir einen blitzschnellen Vecset-Decoder ein, der mit Adaptive KV Selection, Hierarchical Volume Decoding und Efficient Network Design ausgestattet ist. Durch die Nutzung der Lokalität des Vecsets und der Sparsität der Formoberfläche im Volumen reduziert unser Decoder drastisch die FLOPs und minimiert den gesamten Decodierungsaufwand. Wir wenden FlashVDM auf Hunyuan3D-2 an, um Hunyuan3D-2 Turbo zu erhalten. Durch systematische Evaluation zeigen wir, dass unser Modell bestehende Methoden zur schnellen 3D-Generierung deutlich übertrifft und dabei eine vergleichbare Leistung wie der State-of-the-Art erzielt, während die Inferenzzeit für die Rekonstruktion um mehr als das 45-fache und für die Generierung um das 32-fache reduziert wird. Code und Modelle sind verfügbar unter https://github.com/Tencent/FlashVDM.
English
3D shape generation has greatly flourished through the development of
so-called "native" 3D diffusion, particularly through the Vecset Diffusion
Model (VDM). While recent advancements have shown promising results in
generating high-resolution 3D shapes, VDM still struggles with high-speed
generation. Challenges exist because of difficulties not only in accelerating
diffusion sampling but also VAE decoding in VDM, areas under-explored in
previous works. To address these challenges, we present FlashVDM, a systematic
framework for accelerating both VAE and DiT in VDM. For DiT, FlashVDM enables
flexible diffusion sampling with as few as 5 inference steps and comparable
quality, which is made possible by stabilizing consistency distillation with
our newly introduced Progressive Flow Distillation. For VAE, we introduce a
lightning vecset decoder equipped with Adaptive KV Selection, Hierarchical
Volume Decoding, and Efficient Network Design. By exploiting the locality of
the vecset and the sparsity of shape surface in the volume, our decoder
drastically lowers FLOPs, minimizing the overall decoding overhead. We apply
FlashVDM to Hunyuan3D-2 to obtain Hunyuan3D-2 Turbo. Through systematic
evaluation, we show that our model significantly outperforms existing fast 3D
generation methods, achieving comparable performance to the state-of-the-art
while reducing inference time by over 45x for reconstruction and 32x for
generation. Code and models are available at
https://github.com/Tencent/FlashVDM.Summary
AI-Generated Summary