ChatPaper.aiChatPaper

CleanDIFT: 잡음 없는 확산 특징

CleanDIFT: Diffusion Features without Noise

December 4, 2024
저자: Nick Stracke, Stefan Andreas Baumann, Kolja Bauer, Frank Fundel, Björn Ommer
cs.AI

초록

최근 대규모 사전 훈련된 확산 모델로부터 얻은 내부 특성은 다양한 하위 작업에 대한 강력한 의미적 설명자로 입증되었습니다. 이러한 특성을 활용하는 작업들은 일반적으로 이미지에 노이즈를 추가하여 모델을 통과시킨 후 의미적 특성을 얻어야 합니다. 왜냐하면 모델은 노이즈가 거의 없는 이미지를 입력으로 받았을 때 가장 유용한 특성을 제공하지 않기 때문입니다. 우리는 이 노이즈가 이러한 특성의 유용성에 중대한 영향을 미치며 다양한 무작위 노이즈를 사용하여 앙상블하는 것으로는 이를 해결할 수 없음을 보여줍니다. 우리는 가벼운 비지도 학습 미세 조정 방법을 소개함으로써 이 문제에 대처합니다. 이 방법을 통해 확산 백본이 고품질이며 노이즈가 없는 의미적 특성을 제공할 수 있게 됩니다. 이러한 특성이 다양한 추출 설정 및 하위 작업에서 이전 확산 특성을 크게 앞선 성능을 보여주며, 비용의 일부로 심지어 앙상블 기반 방법보다 우수한 성능을 제공합니다.
English
Internal features from large-scale pre-trained diffusion models have recently been established as powerful semantic descriptors for a wide range of downstream tasks. Works that use these features generally need to add noise to images before passing them through the model to obtain the semantic features, as the models do not offer the most useful features when given images with little to no noise. We show that this noise has a critical impact on the usefulness of these features that cannot be remedied by ensembling with different random noises. We address this issue by introducing a lightweight, unsupervised fine-tuning method that enables diffusion backbones to provide high-quality, noise-free semantic features. We show that these features readily outperform previous diffusion features by a wide margin in a wide variety of extraction setups and downstream tasks, offering better performance than even ensemble-based methods at a fraction of the cost.

Summary

AI-Generated Summary

PDF132December 5, 2024