우수한 모델들은 비슷하게 생각하며, 이는 AI 감독을 약화시킵니다.
Great Models Think Alike and this Undermines AI Oversight
February 6, 2025
저자: Shashwat Goel, Joschka Struber, Ilze Amanda Auzina, Karuna K Chandra, Ponnurangam Kumaraguru, Douwe Kiela, Ameya Prabhu, Matthias Bethge, Jonas Geiping
cs.AI
초록
언어 모델(Language Model, LM) 능력이 발전함에 따라 인간들에게는 대규모 평가와 감독이 점점 어려워지고 있습니다. 다른 언어 모델이 이러한 작업을 자동화할 수 있는 가능성이 있어서 이를 "AI 감독"이라고 합니다. 저희는 모델 유사성이 AI 감독의 두 측면에 어떻게 영향을 미치는지 연구하며, 모델 실수 중복을 기반으로 한 LM 유사성에 대한 확률적 측정법을 제안합니다. 이 측정법을 사용하여, 먼저 심사관으로서의 LLM(Language Model as a Judge) 점수가 심사관과 유사한 모델을 선호한다는 최근의 자기 우선 결과를 일반화함을 보입니다. 그리고 LM 주석에 대한 훈련을 연구하고, 약한 감독자와 강한 학생 모델 간 보완적 지식이 "약한-강한 일반화"의 이익에서 중요한 역할을 한다는 것을 발견합니다. 모델 능력이 증가함에 따라 그들의 실수를 찾기가 더 어려워지고, AI 감독에 더 의존할 수도 있습니다. 그러나 우리는 우려스러운 추세를 관찰합니다 - 모델 실수가 늘어나는 능력과 함께 더 유사해지고 있어 상호 연관된 실패로부터의 위험을 가리킵니다. 저희의 연구는 특히 AI 감독의 신흥 패러다임에서 모델 유사성의 보고와 교정의 중요성을 강조합니다.
English
As Language Model (LM) capabilities advance, evaluating and supervising them
at scale is getting harder for humans. There is hope that other language models
can automate both these tasks, which we refer to as "AI Oversight". We study
how model similarity affects both aspects of AI oversight by proposing a
probabilistic metric for LM similarity based on overlap in model mistakes.
Using this metric, we first show that LLM-as-a-judge scores favor models
similar to the judge, generalizing recent self-preference results. Then, we
study training on LM annotations, and find complementary knowledge between the
weak supervisor and strong student model plays a crucial role in gains from
"weak-to-strong generalization". As model capabilities increase, it becomes
harder to find their mistakes, and we might defer more to AI oversight.
However, we observe a concerning trend -- model mistakes are becoming more
similar with increasing capabilities, pointing to risks from correlated
failures. Our work underscores the importance of reporting and correcting for
model similarity, especially in the emerging paradigm of AI oversight.Summary
AI-Generated Summary