Anpassung während des Lernens: Verankerung von LLMs für wissenschaftliche Probleme durch intelligente Werkzeugnutzungsanpassung

Zusammenfassung

Große Sprachmodelle (LLMs) zeigen vielversprechende Fähigkeiten bei der Lösung einfacher wissenschaftlicher Probleme, produzieren jedoch häufig Halluzinationen bei komplexen Problemen. Während die Integration von LLMs mit Werkzeugen die Zuverlässigkeit erhöhen kann, führt dieser Ansatz in der Regel zu einer Überabhängigkeit von Werkzeugen, was die Fähigkeit des Modells zur Lösung einfacher Probleme durch grundlegendes Denken verringert. Im Gegensatz dazu bewerten menschliche Experten zunächst die Problemkomplexität anhand ihres Fachwissens, bevor sie einen geeigneten Lösungsansatz wählen. Inspiriert von diesem menschlichen Problemlösungsprozess schlagen wir eine neuartige Zwei-Komponenten-Feinabstimmungsmethode vor. Im ersten Komponenten, dem World Knowledge Distillation (WKD), lernen LLMs direkt aus Lösungen, die mithilfe von Werkzeuginformationen generiert wurden, um Fachwissen zu internalisieren. Im zweiten Komponenten, der Tool Usage Adaptation (TUA), unterteilen wir Probleme in einfache und schwierige Kategorien basierend auf der direkten Antwortgenauigkeit des Modells. Während wir für einfache Probleme das gleiche Ausrichtungsziel wie bei WKD beibehalten, trainieren wir das Modell darauf, intelligent auf die Verwendung von Werkzeugen für anspruchsvollere Probleme umzuschalten. Wir validieren unsere Methode an sechs wissenschaftlichen Benchmark-Datensätzen aus den Bereichen Mathematik, Klimawissenschaft und Epidemiologie. Im Durchschnitt zeigen unsere Modelle eine Verbesserung der Antwortgenauigkeit um 28,18% und eine Steigerung der Werkzeugnutzungsgenauigkeit um 13,89% über alle Datensätze hinweg, wobei sie führende Modelle wie GPT-4o und Claude-3.5 übertreffen.

English

Large Language Models (LLMs) demonstrate promising capabilities in solving simple scientific problems but often produce hallucinations for complex ones. While integrating LLMs with tools can increase reliability, this approach typically results in over-reliance on tools, diminishing the model's ability to solve simple problems through basic reasoning. In contrast, human experts first assess problem complexity using domain knowledge before choosing an appropriate solution approach. Inspired by this human problem-solving process, we propose a novel two-component fine-tuning method. In the first component World Knowledge Distillation (WKD), LLMs learn directly from solutions generated using tool's information to internalize domain knowledge. In the second component Tool Usage Adaptation (TUA), we partition problems into easy and hard categories based on the model's direct answering accuracy. While maintaining the same alignment target for easy problems as in WKD, we train the model to intelligently switch to tool usage for more challenging problems. We validate our method on six scientific benchmark datasets, spanning mathematics, climate science and epidemiology. On average, our models demonstrate a 28.18% improvement in answer accuracy and a 13.89% increase in tool usage precision across all datasets, surpassing state-of-the-art models including GPT-4o and Claude-3.5.

Anpassung während des Lernens: Verankerung von LLMs für wissenschaftliche Probleme durch intelligente Werkzeugnutzungsanpassung

Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Zusammenfassung

Support