ChatPaper.aiChatPaper

마스킹된 이미지 모델링 향상을 위한 잠재 패치 클러스터링 및 예측

Cluster and Predict Latents Patches for Improved Masked Image Modeling

February 12, 2025
저자: Timothée Darcet, Federico Baldassarre, Maxime Oquab, Julien Mairal, Piotr Bojanowski
cs.AI

초록

마스크드 이미지 모델링(Masked Image Modeling, MIM)은 자기 지도 표현 학습(self-supervised representation learning)에 유망한 접근 방식을 제공하지만, 기존 MIM 모델들은 여전히 최첨단 기술에 뒤쳐져 있습니다. 본 논문에서는 목표 표현(target representations), 손실 함수(loss functions), 그리고 아키텍처를 체계적으로 분석하여, 잠재 클러스터링(latent clusterings) 예측에 의존하는 새로운 순수 MIM 프레임워크인 CAPI를 소개합니다. 우리의 접근 방식은 학습이 안정적이고 확장성이 우수한 클러스터링 기반 손실 함수를 활용합니다. 우리의 ViT-L 백본인 CAPI는 간단한 선형 탐사(linear probes)를 통해 ImageNet에서 83.8%의 정확도와 ADE20K에서 32.1%의 mIoU를 달성하여, 이전 MIM 방법들을 크게 능가하고 현재 최첨단 기술인 DINOv2의 성능에 근접했습니다. 우리는 모든 코드와 모델을 공개합니다.
English
Masked Image Modeling (MIM) offers a promising approach to self-supervised representation learning, however existing MIM models still lag behind the state-of-the-art. In this paper, we systematically analyze target representations, loss functions, and architectures, to introduce CAPI - a novel pure-MIM framework that relies on the prediction of latent clusterings. Our approach leverages a clustering-based loss, which is stable to train, and exhibits promising scaling properties. Our ViT-L backbone, CAPI, achieves 83.8% accuracy on ImageNet and 32.1% mIoU on ADE20K with simple linear probes, substantially outperforming previous MIM methods and approaching the performance of the current state-of-the-art, DINOv2. We release all our code and models.

Summary

AI-Generated Summary

PDF22February 17, 2025