학습 중 적응: 지능적인 도구 사용 적응을 통해 과학 문제에 대한 LLMs의 기초 설정

Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

November 1, 2024
저자: Bohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu
cs.AI

초록

대형 언어 모델 (LLM)은 간단한 과학 문제를 해결하는 데 유망한 능력을 보여주지만 복잡한 문제에 대해서는 종종 환각을 유발합니다. LLM을 도구와 통합하는 것은 신뢰성을 높일 수 있지만, 이러한 접근 방식은 일반적으로 도구에 지나치게 의존하게 만들어 단순한 추론을 통해 문제를 해결하는 모델의 능력을 약화시킵니다. 이에 반해 인간 전문가는 적절한 해결 방법을 선택하기 전에 도메인 지식을 활용하여 문제 복잡성을 먼저 평가합니다. 이 인간의 문제 해결 과정에서 영감을 받아, 우리는 새로운 두 구성 요소의 세밀 조정 방법을 제안합니다. 첫 번째 구성 요소인 세계 지식 증류 (WKD)에서 LLM은 도구 정보를 활용하여 생성된 해결책으로부터 직접 도메인 지식을 내재화합니다. 두 번째 구성 요소인 도구 사용 적응 (TUA)에서는 모델의 직접적인 답변 정확도를 기반으로 문제를 쉬운 문제와 어려운 문제로 분류합니다. WKD에서와 같이 쉬운 문제에 대한 정렬 목표를 유지하면서, 더 어려운 문제에 대해서는 지능적으로 도구 사용으로 전환하도록 모델을 훈련시킵니다. 우리는 수학, 기후 과학 및 역학을 포함한 여섯 가지 과학적 벤치마크 데이터셋에서 우리의 방법을 검증합니다. 모든 데이터셋에서 우리 모델은 평균 28.18%의 정답 정확도 향상과 도구 사용 정밀도 13.89% 증가를 보여주며, GPT-4o 및 Claude-3.5를 포함한 최첨단 모델을 능가합니다.
English
Large Language Models (LLMs) demonstrate promising capabilities in solving simple scientific problems but often produce hallucinations for complex ones. While integrating LLMs with tools can increase reliability, this approach typically results in over-reliance on tools, diminishing the model's ability to solve simple problems through basic reasoning. In contrast, human experts first assess problem complexity using domain knowledge before choosing an appropriate solution approach. Inspired by this human problem-solving process, we propose a novel two-component fine-tuning method. In the first component World Knowledge Distillation (WKD), LLMs learn directly from solutions generated using tool's information to internalize domain knowledge. In the second component Tool Usage Adaptation (TUA), we partition problems into easy and hard categories based on the model's direct answering accuracy. While maintaining the same alignment target for easy problems as in WKD, we train the model to intelligently switch to tool usage for more challenging problems. We validate our method on six scientific benchmark datasets, spanning mathematics, climate science and epidemiology. On average, our models demonstrate a 28.18% improvement in answer accuracy and a 13.89% increase in tool usage precision across all datasets, surpassing state-of-the-art models including GPT-4o and Claude-3.5.

Summary

AI-Generated Summary

PDF93November 13, 2024