Reasoning-SQL: Apprendimento per Rinforzo con Ricompense Parziali Personalizzate in SQL per il Text-to-SQL Potenziato dal Ragionamento

Abstract

Text-to-SQL è un compito impegnativo che coinvolge molteplici sottotask intensivi dal punto di vista del ragionamento, tra cui la comprensione del linguaggio naturale, la comprensione dello schema del database e la formulazione precisa di query SQL. Gli approcci esistenti spesso si basano su percorsi di ragionamento manualmente costruiti con bias induttivi che possono limitarne l'efficacia complessiva. Ispirati dai recenti successi di modelli potenziati dal ragionamento come DeepSeek R1 e OpenAI o1, che sfruttano efficacemente l'auto-esplorazione guidata da ricompense per migliorare le capacità di ragionamento e la generalizzazione, proponiamo un nuovo insieme di ricompense parziali specificamente progettate per il task Text-to-SQL. Il nostro insieme di ricompense include il collegamento dello schema, il feedback dell'IA, la similarità n-gram e il controllo della sintassi, esplicitamente concepiti per affrontare il problema della scarsità di ricompense prevalente nell'apprendimento per rinforzo (RL). Sfruttando l'ottimizzazione relativa delle politiche di gruppo (GRPO), il nostro approccio incoraggia esplicitamente i grandi modelli linguistici (LLM) a sviluppare capacità di ragionamento intrinseche necessarie per la generazione accurata di query SQL. Con modelli di diverse dimensioni, dimostriamo che l'addestramento esclusivo con RL utilizzando le nostre ricompense proposte raggiunge costantemente una maggiore accuratezza e una superiore generalizzazione rispetto al fine-tuning supervisionato (SFT). In modo notevole, il nostro modello da 14B parametri addestrato con RL supera significativamente modelli proprietari più grandi, ad esempio o3-mini del 4% e Gemini-1.5-Pro-002 del 3% sul benchmark BIRD. Questi risultati evidenziano l'efficacia del nostro framework di addestramento RL con ricompense parziali per migliorare sia l'accuratezza che le capacità di ragionamento nei task Text-to-SQL.

English

Text-to-SQL is a challenging task involving multiple reasoning-intensive subtasks, including natural language understanding, database schema comprehension, and precise SQL query formulation. Existing approaches often rely on handcrafted reasoning paths with inductive biases that can limit their overall effectiveness. Motivated by the recent success of reasoning-enhanced models such as DeepSeek R1 and OpenAI o1, which effectively leverage reward-driven self-exploration to enhance reasoning capabilities and generalization, we propose a novel set of partial rewards tailored specifically for the Text-to-SQL task. Our reward set includes schema-linking, AI feedback, n-gram similarity, and syntax check, explicitly designed to address the reward sparsity issue prevalent in reinforcement learning (RL). Leveraging group relative policy optimization (GRPO), our approach explicitly encourages large language models (LLMs) to develop intrinsic reasoning skills necessary for accurate SQL query generation. With models of different sizes, we demonstrate that RL-only training with our proposed rewards consistently achieves higher accuracy and superior generalization compared to supervised fine-tuning (SFT). Remarkably, our RL-trained 14B-parameter model significantly outperforms larger proprietary models, e.g. o3-mini by 4% and Gemini-1.5-Pro-002 by 3% on the BIRD benchmark. These highlight the efficacy of our proposed RL-training framework with partial rewards for enhancing both accuracy and reasoning capabilities in Text-to-SQL tasks.

Reasoning-SQL: Apprendimento per Rinforzo con Ricompense Parziali Personalizzate in SQL per il Text-to-SQL Potenziato dal Ragionamento

Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL

Abstract

Summary

Support

Support