ChatPaper.aiChatPaper

AnyDressing: 잠재 확산 모델을 통한 맞춤형 다복식 가상 드레싱

AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models

December 5, 2024
저자: Xinghui Li, Qichao Sun, Pengze Zhang, Fulong Ye, Zhichao Liao, Wanquan Feng, Songtao Zhao, Qian He
cs.AI

초록

텍스트 및 이미지 프롬프트에 기반을 둔 의상 중심 이미지 생성에 대한 최근 발전은 인상적입니다. 그러나 기존 방법은 다양한 의상 조합을 지원하지 않으며 텍스트 프롬프트의 충실성을 유지하면서 의상 세부 정보를 보존하는 데 어려움을 겪어 다양한 시나리오에서의 성능을 제한합니다. 본 논문에서는 새로운 작업인 Multi-Garment Virtual Dressing에 초점을 맞추고, 임의의 의상 조합 및 임의의 개인화된 텍스트 프롬프트에 조건을 걸어 캐릭터를 맞춤화하는 새로운 AnyDressing 방법을 제안합니다. AnyDressing은 GarmentsNet 및 DressingNet이라는 두 가지 주요 네트워크로 구성되어 있으며, 각각은 세부 의복 특징을 추출하고 맞춤화된 이미지를 생성하는 데 전념합니다. 구체적으로, 우리는 GarmentsNet 내의 Garment-Specific Feature Extractor라는 효율적이고 확장 가능한 모듈을 제안하여 의상 텍스처를 병렬로 개별적으로 인코딩합니다. 이 설계는 네트워크 효율성을 보장하면서 의상 혼동을 방지합니다. 한편, DressingNet 내의 Dressing-Attention 메커니즘과 새로운 Instance-Level Garment Localization Learning 전략을 설계하여 다중 의상 특징을 해당 영역에 정확하게 주입합니다. 이 접근 방식은 생성된 이미지에 다중 의상 텍스처 힌트를 효율적으로 통합하고 텍스트-이미지 일관성을 더욱 향상시킵니다. 게다가, 우리는 의상 강화 텍스처 학습 전략을 소개하여 의상의 세밀한 텍스처 세부 정보를 개선합니다. 잘 설계된 AnyDressing 덕분에 확산 모델의 커뮤니티 제어 확장과 쉽게 통합되어 합성 이미지의 다양성과 제어 가능성을 향상시킬 수 있습니다. 광범위한 실험 결과, AnyDressing이 최첨단 결과를 달성한다는 것을 보여줍니다.
English
Recent advances in garment-centric image generation from text and image prompts based on diffusion models are impressive. However, existing methods lack support for various combinations of attire, and struggle to preserve the garment details while maintaining faithfulness to the text prompts, limiting their performance across diverse scenarios. In this paper, we focus on a new task, i.e., Multi-Garment Virtual Dressing, and we propose a novel AnyDressing method for customizing characters conditioned on any combination of garments and any personalized text prompts. AnyDressing comprises two primary networks named GarmentsNet and DressingNet, which are respectively dedicated to extracting detailed clothing features and generating customized images. Specifically, we propose an efficient and scalable module called Garment-Specific Feature Extractor in GarmentsNet to individually encode garment textures in parallel. This design prevents garment confusion while ensuring network efficiency. Meanwhile, we design an adaptive Dressing-Attention mechanism and a novel Instance-Level Garment Localization Learning strategy in DressingNet to accurately inject multi-garment features into their corresponding regions. This approach efficiently integrates multi-garment texture cues into generated images and further enhances text-image consistency. Additionally, we introduce a Garment-Enhanced Texture Learning strategy to improve the fine-grained texture details of garments. Thanks to our well-craft design, AnyDressing can serve as a plug-in module to easily integrate with any community control extensions for diffusion models, improving the diversity and controllability of synthesized images. Extensive experiments show that AnyDressing achieves state-of-the-art results.

Summary

AI-Generated Summary

PDF232December 6, 2024