Adattamento durante l'apprendimento: Fondazione di LLM per problemi scientifici con adattamento intelligente dell'uso degli strumenti.

Abstract

I Large Language Models (LLM) dimostrano capacità promettenti nella risoluzione di problemi scientifici semplici, ma spesso producono allucinazioni per quelli complessi. Integrare LLM con strumenti può aumentare l'affidabilità, ma questo approccio porta tipicamente a una eccessiva dipendenza dagli strumenti, riducendo la capacità del modello di risolvere problemi semplici attraverso un ragionamento di base. Al contrario, gli esperti umani valutano prima la complessità del problema utilizzando la conoscenza del dominio prima di scegliere un approccio di soluzione appropriato. Ispirati da questo processo umano di risoluzione dei problemi, proponiamo un nuovo metodo di raffinamento a due componenti. Nella prima componente, Distillazione della Conoscenza del Mondo (WKD), i LLM imparano direttamente dalle soluzioni generate utilizzando le informazioni degli strumenti per interiorizzare la conoscenza del dominio. Nella seconda componente, Adattamento all'Uso degli Strumenti (TUA), suddividiamo i problemi in categorie facili e difficili in base all'accuratezza delle risposte dirette del modello. Mantenendo lo stesso obiettivo di allineamento per i problemi facili come in WKD, addestriamo il modello a passare intelligentemente all'uso degli strumenti per problemi più impegnativi. Validiamo il nostro metodo su sei set di dati di riferimento scientifici, che spaziano dalla matematica, alle scienze climatiche e all'epidemiologia. In media, i nostri modelli mostrano un miglioramento del 28,18% nell'accuratezza delle risposte e un aumento del 13,89% nella precisione dell'uso degli strumenti su tutti i set di dati, superando i modelli all'avanguardia, inclusi GPT-4o e Claude-3.5.

English

Large Language Models (LLMs) demonstrate promising capabilities in solving simple scientific problems but often produce hallucinations for complex ones. While integrating LLMs with tools can increase reliability, this approach typically results in over-reliance on tools, diminishing the model's ability to solve simple problems through basic reasoning. In contrast, human experts first assess problem complexity using domain knowledge before choosing an appropriate solution approach. Inspired by this human problem-solving process, we propose a novel two-component fine-tuning method. In the first component World Knowledge Distillation (WKD), LLMs learn directly from solutions generated using tool's information to internalize domain knowledge. In the second component Tool Usage Adaptation (TUA), we partition problems into easy and hard categories based on the model's direct answering accuracy. While maintaining the same alignment target for easy problems as in WKD, we train the model to intelligently switch to tool usage for more challenging problems. We validate our method on six scientific benchmark datasets, spanning mathematics, climate science and epidemiology. On average, our models demonstrate a 28.18% improvement in answer accuracy and a 13.89% increase in tool usage precision across all datasets, surpassing state-of-the-art models including GPT-4o and Claude-3.5.

Adattamento durante l'apprendimento: Fondazione di LLM per problemi scientifici con adattamento intelligente dell'uso degli strumenti.

Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Abstract

Summary

Support