CodeSteer: 코드/텍스트 가이드를 통한 상징적 보강 언어 모델
CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance
February 4, 2025
저자: Yongchao Chen, Yilun Hao, Yueying Liu, Yang Zhang, Chuchu Fan
cs.AI
초록
기존 방법들은 대규모 언어 모델(LLMs)을 효과적으로 텍스트 추론과 코드 생성 사이에서 이끌어내지 못하여 상징적 컴퓨팅 능력이 제대로 활용되지 못하고 있다. 우리는 LLM 코드/텍스트 생성을 안내하기 위한 효과적인 방법인 CodeSteer를 소개한다. 우리는 조절 가능한 복잡성을 갖는 37가지 상징적 작업으로 구성된 포괄적인 벤치마크 SymBench를 구축하고 또한 12,000개의 다중 라운드 안내/생성 궤적과 5,500개의 안내 비교 쌍으로 이루어진 데이터셋을 합성한다. 우리는 새롭게 설계된 다중 라운드 지도된 미세 조정(SFT) 및 직접 선호도 최적화(DPO)를 사용하여 Llama-3-8B 모델을 세밀하게 조정한다. 제안된 상징적 및 자체 답변 확인기와 함께 보강된 결과 모델인 CodeSteerLLM은 대규모 모델의 코드/텍스트 생성을 효과적으로 안내한다. CodeSteer를 GPT-4o에 보강하면 기존 최고의 LLM인 OpenAI o1(82.7), o1-preview(74.8) 및 DeepSeek R1(76.8)을 모두 능가하여 37가지 작업(28개는 본 적이 있는 작업, 9개는 처음 보는 작업)에서 평균 성능 점수를 53.3에서 86.4로 높인다. GPT-4o에 대해 훈련된 CodeSteer는 Claude, Mistral 및 GPT-3.5에서 평균 41.8의 성능 향상을 제공하여 우수한 일반화 능력을 보여준다. CodeSteer로 안내받은 LLM은 상징적 컴퓨팅을 완전히 활용하여 매우 복잡한 작업에서 강력한 성능을 유지한다. 모델, 데이터셋 및 코드는 https://github.com/yongchao98/CodeSteer-v1.0에서 이용할 수 있다.
English
Existing methods fail to effectively steer Large Language Models (LLMs)
between textual reasoning and code generation, leaving symbolic computing
capabilities underutilized. We introduce CodeSteer, an effective method for
guiding LLM code/text generation. We construct a comprehensive benchmark
SymBench comprising 37 symbolic tasks with adjustable complexity and also
synthesize datasets of 12k multi-round guidance/generation trajectories and
5.5k guidance comparison pairs. We fine-tune the Llama-3-8B model with a newly
designed multi-round supervised fine-tuning (SFT) and direct preference
optimization (DPO). The resulting model, CodeSteerLLM, augmented with the
proposed symbolic and self-answer checkers, effectively guides the code/text
generation of larger models. Augmenting GPT-4o with CodeSteer raises its
average performance score from 53.3 to 86.4, even outperforming the existing
best LLM OpenAI o1 (82.7), o1-preview (74.8), and DeepSeek R1 (76.8) across all
37 tasks (28 seen, 9 unseen). Trained for GPT-4o, CodeSteer demonstrates
superior generalizability, providing an average 41.8 performance boost on
Claude, Mistral, and GPT-3.5. CodeSteer-guided LLMs fully harness symbolic
computing to maintain strong performance on highly complex tasks. Models,
Datasets, and Codes are available at
https://github.com/yongchao98/CodeSteer-v1.0.Summary
AI-Generated Summary