ChatPaper.aiChatPaper

MIDI: 단일 이미지에서 3D 장면 생성을 위한 다중 인스턴스 확산

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

December 4, 2024
저자: Zehuan Huang, Yuan-Chen Guo, Xingqiao An, Yunhan Yang, Yangguang Li, Zi-Xin Zou, Ding Liang, Xihui Liu, Yan-Pei Cao, Lu Sheng
cs.AI

초록

본 논문은 MIDI를 소개하는데, 이는 단일 이미지로부터 구성적인 3D 장면 생성을 위한 혁신적인 패러다임입니다. 기존의 재구성이나 검색 기술에 의존하는 방법이나 최근에 나온 단계별 객체 생성 방식과는 달리, MIDI는 사전 훈련된 이미지-3D 객체 생성 모델을 다중 사례 확산 모델로 확장하여 정확한 공간 관계와 높은 일반화 능력을 갖춘 여러 3D 사례를 동시에 생성할 수 있습니다. MIDI의 핵심은 새로운 다중 사례 주의 메커니즘을 포함하는데, 이는 복잡한 다단계 과정 없이 생성 과정 내에서 효과적으로 객체 간 상호 작용과 공간 일관성을 직접 포착합니다. 이 방법은 부분 객체 이미지와 전역 장면 컨텍스트를 입력으로 활용하여 3D 생성 중 객체 완성을 직접 모델링합니다. 훈련 중에 우리는 씬 수준의 제한된 데이터를 사용하여 3D 사례 간 상호 작용을 효과적으로 감독하면서, 정규화를 위해 단일 객체 데이터를 통합하여 사전 훈련된 일반화 능력을 유지합니다. MIDI는 이미지-장면 생성에서 최첨단 성능을 보여주며, 합성 데이터, 실제 장면 데이터, 그리고 텍스트-이미지 확산 모델에 의해 생성된 스타일화된 장면 이미지에 대한 평가를 통해 검증되었습니다.
English
This paper introduces MIDI, a novel paradigm for compositional 3D scene generation from a single image. Unlike existing methods that rely on reconstruction or retrieval techniques or recent approaches that employ multi-stage object-by-object generation, MIDI extends pre-trained image-to-3D object generation models to multi-instance diffusion models, enabling the simultaneous generation of multiple 3D instances with accurate spatial relationships and high generalizability. At its core, MIDI incorporates a novel multi-instance attention mechanism, that effectively captures inter-object interactions and spatial coherence directly within the generation process, without the need for complex multi-step processes. The method utilizes partial object images and global scene context as inputs, directly modeling object completion during 3D generation. During training, we effectively supervise the interactions between 3D instances using a limited amount of scene-level data, while incorporating single-object data for regularization, thereby maintaining the pre-trained generalization ability. MIDI demonstrates state-of-the-art performance in image-to-scene generation, validated through evaluations on synthetic data, real-world scene data, and stylized scene images generated by text-to-image diffusion models.

Summary

AI-Generated Summary

PDF162December 5, 2024