Aanpassen tijdens het leren: Grondvesten van LLM's voor wetenschappelijke problemen met intelligente gereedschapsaanpassing
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation
November 1, 2024
Auteurs: Bohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) tonen veelbelovende mogelijkheden bij het oplossen van eenvoudige wetenschappelijke problemen, maar veroorzaken vaak hallucinaties bij complexe problemen. Door LLM's te integreren met tools kan de betrouwbaarheid toenemen, maar deze aanpak leidt doorgaans tot een te grote afhankelijkheid van tools, waardoor het vermogen van het model om eenvoudige problemen op te lossen via basisredenering afneemt. In tegenstelling hiermee beoordelen menselijke experts eerst de complexiteit van een probleem op basis van domeinkennis alvorens een passende oplossingsmethode te kiezen. Geïnspireerd door dit menselijke probleemoplossingsproces stellen we een nieuw tweecomponenten fine-tuning methode voor. In het eerste component, Wereldkennisdestillatie (WKD), leren LLM's rechtstreeks van oplossingen die zijn gegenereerd met behulp van informatie van tools om domeinkennis te internaliseren. In het tweede component, Toolgebruiksaanpassing (TUA), verdelen we problemen in eenvoudige en moeilijke categorieën op basis van de directe antwoordnauwkeurigheid van het model. Terwijl we voor eenvoudige problemen hetzelfde uitlijningsdoel behouden als bij WKD, trainen we het model om intelligent over te schakelen naar het gebruik van tools voor meer uitdagende problemen. We valideren onze methode op zes wetenschappelijke benchmarkdatasets, waaronder wiskunde, klimaatwetenschap en epidemiologie. Gemiddeld tonen onze modellen een verbetering van 28,18% in antwoordnauwkeurigheid en een toename van 13,89% in precisie van het gebruik van tools over alle datasets, waarbij we state-of-the-art modellen, waaronder GPT-4o en Claude-3.5, overtreffen.
English
Large Language Models (LLMs) demonstrate promising capabilities in solving
simple scientific problems but often produce hallucinations for complex ones.
While integrating LLMs with tools can increase reliability, this approach
typically results in over-reliance on tools, diminishing the model's ability to
solve simple problems through basic reasoning. In contrast, human experts first
assess problem complexity using domain knowledge before choosing an appropriate
solution approach. Inspired by this human problem-solving process, we propose a
novel two-component fine-tuning method. In the first component World Knowledge
Distillation (WKD), LLMs learn directly from solutions generated using tool's
information to internalize domain knowledge. In the second component Tool Usage
Adaptation (TUA), we partition problems into easy and hard categories based on
the model's direct answering accuracy. While maintaining the same alignment
target for easy problems as in WKD, we train the model to intelligently switch
to tool usage for more challenging problems. We validate our method on six
scientific benchmark datasets, spanning mathematics, climate science and
epidemiology. On average, our models demonstrate a 28.18% improvement in answer
accuracy and a 13.89% increase in tool usage precision across all datasets,
surpassing state-of-the-art models including GPT-4o and Claude-3.5.Summary
AI-Generated Summary