Adaptation en cours d'apprentissage : Ancrage des LLM pour les problèmes scientifiques avec adaptation de l'utilisation d'outils intelligents
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation
November 1, 2024
Auteurs: Bohan Lyu, Yadi Cao, Duncan Watson-Parris, Leon Bergen, Taylor Berg-Kirkpatrick, Rose Yu
cs.AI
Résumé
Les grands modèles de langage (LLM) présentent des capacités prometteuses pour résoudre des problèmes scientifiques simples, mais produisent souvent des hallucinations pour des problèmes complexes. Bien que l'intégration des LLM avec des outils puisse accroître la fiabilité, cette approche entraîne généralement une surdépendance aux outils, diminuant la capacité du modèle à résoudre des problèmes simples par un raisonnement de base. En revanche, les experts humains évaluent d'abord la complexité du problème en utilisant leurs connaissances du domaine avant de choisir une approche de solution appropriée. Inspirés par ce processus humain de résolution de problèmes, nous proposons une nouvelle méthode de fine-tuning en deux composants. Dans le premier composant de Distillation des Connaissances Mondiales (WKD), les LLM apprennent directement à partir des solutions générées en utilisant les informations des outils pour intérioriser les connaissances du domaine. Dans le deuxième composant d'Adaptation de l'Utilisation des Outils (TUA), nous divisons les problèmes en catégories faciles et difficiles en fonction de la précision de réponse directe du modèle. Tout en maintenant le même objectif d'alignement pour les problèmes faciles que dans WKD, nous entraînons le modèle à basculer intelligemment vers l'utilisation des outils pour les problèmes plus difficiles. Nous validons notre méthode sur six ensembles de données de référence scientifiques, couvrant les mathématiques, les sciences du climat et l'épidémiologie. En moyenne, nos modèles présentent une amélioration de 28,18% de la précision des réponses et une augmentation de 13,89% de la précision de l'utilisation des outils sur l'ensemble des ensembles de données, surpassant les modèles de pointe, y compris GPT-4o et Claude-3.5.
English
Large Language Models (LLMs) demonstrate promising capabilities in solving
simple scientific problems but often produce hallucinations for complex ones.
While integrating LLMs with tools can increase reliability, this approach
typically results in over-reliance on tools, diminishing the model's ability to
solve simple problems through basic reasoning. In contrast, human experts first
assess problem complexity using domain knowledge before choosing an appropriate
solution approach. Inspired by this human problem-solving process, we propose a
novel two-component fine-tuning method. In the first component World Knowledge
Distillation (WKD), LLMs learn directly from solutions generated using tool's
information to internalize domain knowledge. In the second component Tool Usage
Adaptation (TUA), we partition problems into easy and hard categories based on
the model's direct answering accuracy. While maintaining the same alignment
target for easy problems as in WKD, we train the model to intelligently switch
to tool usage for more challenging problems. We validate our method on six
scientific benchmark datasets, spanning mathematics, climate science and
epidemiology. On average, our models demonstrate a 28.18% improvement in answer
accuracy and a 13.89% increase in tool usage precision across all datasets,
surpassing state-of-the-art models including GPT-4o and Claude-3.5.Summary
AI-Generated Summary