ChatPaper.aiChatPaper

모델이 예시로부터 기술 조합을 학습할 수 있을까요?

Can Models Learn Skill Composition from Examples?

September 29, 2024
저자: Haoyu Zhao, Simran Kaur, Dingli Yu, Anirudh Goyal, Sanjeev Arora
cs.AI

초록

대형 언어 모델(LLMs)이 점점 더 발전함에 따라, 학습 중에 경험하지 않은 새로운 방식으로 배운 기술을 결합하는 능력인 합성 일반화 능력을 나타내는 능력이 중요시되고 있습니다. 이러한 종류의 일반화 능력은 특히 학습 데이터 이상의 시나리오에서 AI 안전성 및 조정 연구에서도 큰 관심을 받고 있습니다. 최근 연구에서는 모델이 특정 k-튜플 언어 기술을 사용하여 짧은 단락을 구성하는 SKILL-MIX 평가를 소개했습니다. 작은 모델들은 k=3일 때조차도 구성에 어려움을 겪었지만, GPT-4와 같은 대형 모델은 k=5 및 6에서 상당히 잘 수행했습니다. 본 논문에서는 SKILL-MIX와 유사한 설정을 활용하여 작은 모델의 합성 일반화 능력을 평가합니다. 수사, 문학, 추론, 마음의 이해, 상식을 포함한 다양한 언어 기술을 활용하여 GPT-4를 사용하여 k 기술의 임의의 하위 집합을 보여주는 텍스트 샘플을 생성했습니다. 이러한 결합된 기술 텍스트에서 7B 및 13B 매개변수 모델을 후속 세부 조정하면서, k 값이 증가함에 따라 다음 결과가 나타났습니다: (1) k=2 및 3 기술의 조합으로 훈련하면, 모델은 훈련 중에 이러한 예시를 본 적이 없음에도 불구하고 k=4 및 5 기술을 사용하여 텍스트를 구성하는 능력이 현저히 향상됩니다. (2) 기술 범주가 훈련 및 보류 그룹으로 분할되면, 모델은 세부 조정 중에 훈련 중인 기술만 본 상태에서 시험 중에 보류된 기술을 사용하여 텍스트를 구성하는 능력이 크게 향상되어, 이전에 본 적이 없는 기술에도 효과적인 훈련 방법을 보여줍니다. 이 연구는 훈련에 기술이 풍부한(가능한 합성) 텍스트를 통합하면 모델의 합성 능력을 크게 향상시킬 수 있다는 것을 시사합니다.
English
As large language models (LLMs) become increasingly advanced, their ability to exhibit compositional generalization -- the capacity to combine learned skills in novel ways not encountered during training -- has garnered significant attention. This type of generalization, particularly in scenarios beyond training data, is also of great interest in the study of AI safety and alignment. A recent study introduced the SKILL-MIX evaluation, where models are tasked with composing a short paragraph demonstrating the use of a specified k-tuple of language skills. While small models struggled with composing even with k=3, larger models like GPT-4 performed reasonably well with k=5 and 6. In this paper, we employ a setup akin to SKILL-MIX to evaluate the capacity of smaller models to learn compositional generalization from examples. Utilizing a diverse set of language skills -- including rhetorical, literary, reasoning, theory of mind, and common sense -- GPT-4 was used to generate text samples that exhibit random subsets of k skills. Subsequent fine-tuning of 7B and 13B parameter models on these combined skill texts, for increasing values of k, revealed the following findings: (1) Training on combinations of k=2 and 3 skills results in noticeable improvements in the ability to compose texts with k=4 and 5 skills, despite models never having seen such examples during training. (2) When skill categories are split into training and held-out groups, models significantly improve at composing texts with held-out skills during testing despite having only seen training skills during fine-tuning, illustrating the efficacy of the training approach even with previously unseen skills. This study also suggests that incorporating skill-rich (potentially synthetic) text into training can substantially enhance the compositional capabilities of models.

Summary

AI-Generated Summary

PDF102November 13, 2024