LAION-SG: 복잡한 이미지-텍스트 모델을 교육하기 위한 구조적 주석이 포함된 향상된 대규모 데이터셋
LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations
December 11, 2024
저자: Zejian Li, Chenye Meng, Yize Li, Ling Yang, Shengyuan Zhang, Jiarui Ma, Jiayi Li, Guang Yang, Changyuan Yang, Zhiyuan Yang, Jinxiong Chang, Lingyun Sun
cs.AI
초록
텍스트에서 이미지로의 생성(T2I)에서의 최근 발전은 텍스트로부터 고품질 이미지를 생성하는 데 놀라운 성과를 보여주었습니다. 그러나 기존의 T2I 모델은 여러 객체와 복잡한 관계를 포함하는 합성 이미지 생성에서 성능이 저하되는 것으로 나타났습니다. 우리는 이 문제를 이미지-텍스트 쌍의 기존 데이터셋의 한계로 귀속하며, 이 데이터셋은 정확한 객체 간 관계 주석이 부족하며 단순한 프롬프트만을 제공합니다. 이 문제를 해결하기 위해 우리는 복잡한 장면의 의미 구조를 효과적으로 나타내는 다중 객체의 속성과 관계를 정확히 설명하는 씬 그래프(SG)의 고품질 구조적 주석을 갖는 대규모 데이터셋 LAION-SG를 구축했습니다. LAION-SG를 기반으로, 우리는 구조적 주석 정보를 생성 프로세스에 통합하는 새로운 기반 모델 SDXL-SG를 훈련시켰습니다. 철저한 실험 결과, LAION-SG에서 훈련된 고급 모델이 기존 데이터셋의 모델보다 복잡한 장면 생성에서 상당한 성능 향상을 보여주었습니다. 또한 복합 이미지 생성에 대해 모델을 평가하는 벤치마크인 CompSG-Bench를 소개하여 이 도메인에 대한 새로운 기준을 확립했습니다.
English
Recent advances in text-to-image (T2I) generation have shown remarkable
success in producing high-quality images from text. However, existing T2I
models show decayed performance in compositional image generation involving
multiple objects and intricate relationships. We attribute this problem to
limitations in existing datasets of image-text pairs, which lack precise
inter-object relationship annotations with prompts only. To address this
problem, we construct LAION-SG, a large-scale dataset with high-quality
structural annotations of scene graphs (SG), which precisely describe
attributes and relationships of multiple objects, effectively representing the
semantic structure in complex scenes. Based on LAION-SG, we train a new
foundation model SDXL-SG to incorporate structural annotation information into
the generation process. Extensive experiments show advanced models trained on
our LAION-SG boast significant performance improvements in complex scene
generation over models on existing datasets. We also introduce CompSG-Bench, a
benchmark that evaluates models on compositional image generation, establishing
a new standard for this domain.Summary
AI-Generated Summary