Reasoning-SQL: Apprendimento per Rinforzo con Ricompense Parziali Personalizzate in SQL per il Text-to-SQL Potenziato dal Ragionamento
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL
March 29, 2025
Autori: Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik
cs.AI
Abstract
Text-to-SQL è un compito impegnativo che coinvolge molteplici sottotask intensivi dal punto di vista del ragionamento, tra cui la comprensione del linguaggio naturale, la comprensione dello schema del database e la formulazione precisa di query SQL. Gli approcci esistenti spesso si basano su percorsi di ragionamento manualmente costruiti con bias induttivi che possono limitarne l'efficacia complessiva. Ispirati dai recenti successi di modelli potenziati dal ragionamento come DeepSeek R1 e OpenAI o1, che sfruttano efficacemente l'auto-esplorazione guidata da ricompense per migliorare le capacità di ragionamento e la generalizzazione, proponiamo un nuovo insieme di ricompense parziali specificamente progettate per il task Text-to-SQL. Il nostro insieme di ricompense include il collegamento dello schema, il feedback dell'IA, la similarità n-gram e il controllo della sintassi, esplicitamente concepiti per affrontare il problema della scarsità di ricompense prevalente nell'apprendimento per rinforzo (RL). Sfruttando l'ottimizzazione relativa delle politiche di gruppo (GRPO), il nostro approccio incoraggia esplicitamente i grandi modelli linguistici (LLM) a sviluppare capacità di ragionamento intrinseche necessarie per la generazione accurata di query SQL. Con modelli di diverse dimensioni, dimostriamo che l'addestramento esclusivo con RL utilizzando le nostre ricompense proposte raggiunge costantemente una maggiore accuratezza e una superiore generalizzazione rispetto al fine-tuning supervisionato (SFT). In modo notevole, il nostro modello da 14B parametri addestrato con RL supera significativamente modelli proprietari più grandi, ad esempio o3-mini del 4% e Gemini-1.5-Pro-002 del 3% sul benchmark BIRD. Questi risultati evidenziano l'efficacia del nostro framework di addestramento RL con ricompense parziali per migliorare sia l'accuratezza che le capacità di ragionamento nei task Text-to-SQL.
English
Text-to-SQL is a challenging task involving multiple reasoning-intensive
subtasks, including natural language understanding, database schema
comprehension, and precise SQL query formulation. Existing approaches often
rely on handcrafted reasoning paths with inductive biases that can limit their
overall effectiveness. Motivated by the recent success of reasoning-enhanced
models such as DeepSeek R1 and OpenAI o1, which effectively leverage
reward-driven self-exploration to enhance reasoning capabilities and
generalization, we propose a novel set of partial rewards tailored specifically
for the Text-to-SQL task. Our reward set includes schema-linking, AI feedback,
n-gram similarity, and syntax check, explicitly designed to address the reward
sparsity issue prevalent in reinforcement learning (RL). Leveraging group
relative policy optimization (GRPO), our approach explicitly encourages large
language models (LLMs) to develop intrinsic reasoning skills necessary for
accurate SQL query generation. With models of different sizes, we demonstrate
that RL-only training with our proposed rewards consistently achieves higher
accuracy and superior generalization compared to supervised fine-tuning (SFT).
Remarkably, our RL-trained 14B-parameter model significantly outperforms larger
proprietary models, e.g. o3-mini by 4% and Gemini-1.5-Pro-002 by 3% on the BIRD
benchmark. These highlight the efficacy of our proposed RL-training framework
with partial rewards for enhancing both accuracy and reasoning capabilities in
Text-to-SQL tasks.Summary
AI-Generated Summary