노이즈는 전이 가능한 지식을 포함할 수 있다: 실증적 관점에서 반지도 학습 기반 이종 도메인 적응 이해하기
Noise May Contain Transferable Knowledge: Understanding Semi-supervised Heterogeneous Domain Adaptation from an Empirical Perspective
February 19, 2025
저자: Yuan Yao, Xiaopu Zhang, Yu Zhang, Jian Jin, Qiang Yang
cs.AI
초록
준지도 이종 도메인 적응(Semi-supervised Heterogeneous Domain Adaptation, SHDA)은 서로 다른 특성 표현과 분포를 가진 도메인 간의 학습 문제를 다룹니다. 여기서 소스 도메인의 샘플은 레이블이 지정되어 있지만, 타겟 도메인의 대부분의 샘플은 레이블이 없으며, 극소수만 레이블이 지정되어 있습니다. 또한, 소스와 타겟 샘플 간에 일대일 대응 관계가 존재하지 않습니다. 이러한 문제를 해결하기 위해 다양한 SHDA 방법들이 개발되었지만, 이종 도메인 간에 전달되는 지식의 본질은 여전히 명확하지 않습니다. 본 논문은 이 문제를 실증적 관점에서 탐구합니다. 우리는 두 가지 지도 학습 방법과 일곱 가지 대표적인 SHDA 방법을 사용하여 약 330개의 SHDA 작업에 대한 광범위한 실험을 수행했습니다. 놀랍게도, 우리의 관찰 결과에 따르면 소스 샘플의 카테고리 정보와 특성 정보 모두 타겟 도메인의 성능에 큰 영향을 미치지 않는 것으로 나타났습니다. 또한, 단순한 분포에서 추출된 노이즈를 소스 샘플로 사용할 경우 전이 가능한 지식을 포함할 수 있음을 발견했습니다. 이러한 통찰을 바탕으로, 우리는 SHDA에서 전이 가능한 지식의 근본 원리를 밝히기 위해 일련의 실험을 수행했습니다. 구체적으로, 우리는 SHDA를 위한 통합 지식 전이 프레임워크(Knowledge Transfer Framework, KTF)를 설계했습니다. KTF를 기반으로, 우리는 SHDA에서 전이 가능한 지식이 주로 소스 도메인의 전이 가능성과 판별 가능성에서 비롯된다는 것을 발견했습니다. 결과적으로, 소스 샘플의 출처(예: 이미지, 텍스트, 노이즈)와 관계없이 이러한 특성을 보장하는 것이 SHDA 작업에서 지식 전이의 효과를 향상시킬 수 있습니다. 코드와 데이터셋은 https://github.com/yyyaoyuan/SHDA에서 확인할 수 있습니다.
English
Semi-supervised heterogeneous domain adaptation (SHDA) addresses learning
across domains with distinct feature representations and distributions, where
source samples are labeled while most target samples are unlabeled, with only a
small fraction labeled. Moreover, there is no one-to-one correspondence between
source and target samples. Although various SHDA methods have been developed to
tackle this problem, the nature of the knowledge transferred across
heterogeneous domains remains unclear. This paper delves into this question
from an empirical perspective. We conduct extensive experiments on about 330
SHDA tasks, employing two supervised learning methods and seven representative
SHDA methods. Surprisingly, our observations indicate that both the category
and feature information of source samples do not significantly impact the
performance of the target domain. Additionally, noise drawn from simple
distributions, when used as source samples, may contain transferable knowledge.
Based on this insight, we perform a series of experiments to uncover the
underlying principles of transferable knowledge in SHDA. Specifically, we
design a unified Knowledge Transfer Framework (KTF) for SHDA. Based on the KTF,
we find that the transferable knowledge in SHDA primarily stems from the
transferability and discriminability of the source domain. Consequently,
ensuring those properties in source samples, regardless of their origin (e.g.,
image, text, noise), can enhance the effectiveness of knowledge transfer in
SHDA tasks. The codes and datasets are available at
https://github.com/yyyaoyuan/SHDA.Summary
AI-Generated Summary