ChatPaper.aiChatPaper

CodeSteer: 코드/텍스트 가이드를 통한 상징적 보강 언어 모델

CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance

February 4, 2025
저자: Yongchao Chen, Yilun Hao, Yueying Liu, Yang Zhang, Chuchu Fan
cs.AI

초록

기존 방법들은 대규모 언어 모델(LLMs)을 효과적으로 텍스트 추론과 코드 생성 사이에서 이끌어내지 못하여 상징적 컴퓨팅 능력이 제대로 활용되지 못하고 있다. 우리는 LLM 코드/텍스트 생성을 안내하기 위한 효과적인 방법인 CodeSteer를 소개한다. 우리는 조절 가능한 복잡성을 갖는 37가지 상징적 작업으로 구성된 포괄적인 벤치마크 SymBench를 구축하고 또한 12,000개의 다중 라운드 안내/생성 궤적과 5,500개의 안내 비교 쌍으로 이루어진 데이터셋을 합성한다. 우리는 새롭게 설계된 다중 라운드 지도된 미세 조정(SFT) 및 직접 선호도 최적화(DPO)를 사용하여 Llama-3-8B 모델을 세밀하게 조정한다. 제안된 상징적 및 자체 답변 확인기와 함께 보강된 결과 모델인 CodeSteerLLM은 대규모 모델의 코드/텍스트 생성을 효과적으로 안내한다. CodeSteer를 GPT-4o에 보강하면 기존 최고의 LLM인 OpenAI o1(82.7), o1-preview(74.8) 및 DeepSeek R1(76.8)을 모두 능가하여 37가지 작업(28개는 본 적이 있는 작업, 9개는 처음 보는 작업)에서 평균 성능 점수를 53.3에서 86.4로 높인다. GPT-4o에 대해 훈련된 CodeSteer는 Claude, Mistral 및 GPT-3.5에서 평균 41.8의 성능 향상을 제공하여 우수한 일반화 능력을 보여준다. CodeSteer로 안내받은 LLM은 상징적 컴퓨팅을 완전히 활용하여 매우 복잡한 작업에서 강력한 성능을 유지한다. 모델, 데이터셋 및 코드는 https://github.com/yongchao98/CodeSteer-v1.0에서 이용할 수 있다.
English
Existing methods fail to effectively steer Large Language Models (LLMs) between textual reasoning and code generation, leaving symbolic computing capabilities underutilized. We introduce CodeSteer, an effective method for guiding LLM code/text generation. We construct a comprehensive benchmark SymBench comprising 37 symbolic tasks with adjustable complexity and also synthesize datasets of 12k multi-round guidance/generation trajectories and 5.5k guidance comparison pairs. We fine-tune the Llama-3-8B model with a newly designed multi-round supervised fine-tuning (SFT) and direct preference optimization (DPO). The resulting model, CodeSteerLLM, augmented with the proposed symbolic and self-answer checkers, effectively guides the code/text generation of larger models. Augmenting GPT-4o with CodeSteer raises its average performance score from 53.3 to 86.4, even outperforming the existing best LLM OpenAI o1 (82.7), o1-preview (74.8), and DeepSeek R1 (76.8) across all 37 tasks (28 seen, 9 unseen). Trained for GPT-4o, CodeSteer demonstrates superior generalizability, providing an average 41.8 performance boost on Claude, Mistral, and GPT-3.5. CodeSteer-guided LLMs fully harness symbolic computing to maintain strong performance on highly complex tasks. Models, Datasets, and Codes are available at https://github.com/yongchao98/CodeSteer-v1.0.

Summary

AI-Generated Summary

PDF113February 10, 2025