SQL-R1: Addestramento di un Modello di Ragionamento da Linguaggio Naturale a SQL Tramite Apprendimento per Rinforzo
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning
April 11, 2025
Autori: Peixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo
cs.AI
Abstract
Natural Language to SQL (NL2SQL) consente interazioni intuitive con i database trasformando query in linguaggio naturale in istruzioni SQL strutturate. Nonostante i recenti progressi nel migliorare l'interazione uomo-computer nelle applicazioni di database, permangono sfide significative, in particolare riguardo alle prestazioni di inferenza in scenari complessi che coinvolgono join tra più tabelle e query nidificate. Le metodologie attuali utilizzano principalmente il fine-tuning supervisionato (SFT) per addestrare il modello NL2SQL, il che può limitare l'adattabilità e l'interpretabilità in nuovi contesti (ad esempio, finanza e sanità). Per migliorare le prestazioni di ragionamento del modello NL2SQL nelle situazioni complesse sopra descritte, introduciamo SQL-R1, un innovativo modello di ragionamento NL2SQL addestrato mediante algoritmi di apprendimento per rinforzo (RL). Progettiamo una funzione di ricompensa basata su RL specificamente adattata per i task NL2SQL e discutiamo l'impatto del cold start sull'efficacia dell'addestramento intensivo. Inoltre, raggiungiamo un'accuratezza competitiva utilizzando solo una piccola quantità di dati sintetici NL2SQL per l'addestramento aumentato e approfondiamo l'ingegneria dei dati per RL. Negli esperimenti condotti, SQL-R1 raggiunge un'accuratezza di esecuzione dell'88,6% e del 66,6% rispettivamente sui benchmark Spider e BIRD, utilizzando solo il modello base da 7B.
English
Natural Language to SQL (NL2SQL) enables intuitive interactions with
databases by transforming natural language queries into structured SQL
statements. Despite recent advancements in enhancing human-computer interaction
within database applications, significant challenges persist, particularly
regarding the inference performance in complex scenarios involving multi-table
joins and nested queries. Current methodologies primarily utilize supervised
fine-tuning (SFT) to train the NL2SQL model, which may limit adaptability and
interpretability in new environments (e.g., finance and healthcare). In order
to enhance the reasoning performance of the NL2SQL model in the above complex
situations, we introduce SQL-R1, a novel NL2SQL reasoning model trained by the
reinforcement learning (RL) algorithms. We design a specialized RL-based reward
function tailored for NL2SQL tasks and discussed the impact of cold start on
the effectiveness of intensive training. In addition, we achieve competitive
accuracy using only a tiny amount of synthetic NL2SQL data for augmented
training and further explore data engineering for RL. In existing experiments,
SQL-R1 achieves execution accuracy of 88.6% and 66.6% on the benchmark Spider
and BIRD, respectively, only using the 7B base model.Summary
AI-Generated Summary