UltraIF: 야생으로부터의 지시 따르기 발전
UltraIF: Advancing Instruction Following from the Wild
February 6, 2025
저자: Kaikai An, Li Sheng, Ganqu Cui, Shuzheng Si, Ning Ding, Yu Cheng, Baobao Chang
cs.AI
초록
지시 따르기는 현대의 대형 언어 모델(Large Language Models, LLMs)을 유용한
어시스턴트로 만들었습니다. 그러나 복잡한 지시에 대한 LLMs의 통제의 핵심은 여전히
신비롭습니다. 이는 오픈 소스 커뮤니티에서 훈련된 모델과 선도 기업에서 훈련된
모델 사이에 엄청난 격차가 있기 때문입니다. 이 격차를 좁히기 위해, 우리는
복잡한 지시를 따를 수 있는 LLMs를 오픈 소스 데이터로 구축하기 위한 간단하고
확장 가능한 접근 방식인 UltraIF를 제안합니다. UltraIF는 먼저 현실 세계의
사용자 프롬프트를 더 간단한 쿼리, 제약 조건 및 해당 제약 조건에 대한
평가 질문으로 분해합니다. 그런 다음, 우리는 UltraComposer를 훈련시켜
제약 조건과 관련된 프롬프트를 평가 질문과 함께 구성합니다. 이 프롬프트
컴포저를 사용하면 복잡한 지시를 합성하고 평가 질문으로 응답을 필터링할
수 있습니다. 우리의 실험에서, 우리는 처음으로 LLaMA-3.1-8B-Base를
실제 버전의 지시와 동일하게 맞추는 데 성공했습니다. 이는 5개의
지시 따르기 벤치마크에서 벤치마크 정보 없이 단지 8B 모델을 응답 생성기
및 평가자로 사용한 것입니다. 맞춘 모델은 다른 벤치마크에서도 경쟁력 있는
점수를 달성했습니다. 더욱이, 우리는 UltraIF가 자가 정렬을 통해
LLaMA-3.1-8B-Instruct를 더 개선할 수 있음을 보여주었으며, 이는
해당 방법의 보다 넓은 사용 사례를 촉진합니다. 우리의 코드는
https://github.com/kkk-an/UltraIF에서 사용 가능할 것입니다.
English
Instruction-following made modern large language models (LLMs) helpful
assistants. However, the key to taming LLMs on complex instructions remains
mysterious, for that there are huge gaps between models trained by open-source
community and those trained by leading companies. To bridge the gap, we propose
a simple and scalable approach UltraIF for building LLMs that can follow
complex instructions with open-source data. UltraIF first decomposes real-world
user prompts into simpler queries, constraints, and corresponding evaluation
questions for the constraints. Then, we train an UltraComposer to compose
constraint-associated prompts with evaluation questions. This prompt composer
allows us to synthesize complicated instructions as well as filter responses
with evaluation questions. In our experiment, for the first time, we
successfully align LLaMA-3.1-8B-Base to catch up with its instruct version on 5
instruction-following benchmarks without any benchmark information, using only
8B model as response generator and evaluator. The aligned model also achieved
competitive scores on other benchmarks. Moreover, we also show that UltraIF
could further improve LLaMA-3.1-8B-Instruct through self-alignment, motivating
broader use cases for the method. Our code will be available at
https://github.com/kkk-an/UltraIF.Summary
AI-Generated Summary