RuleArena: un benchmark per il ragionamento guidato dalle regole con LLM in scenari del mondo reale
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios
December 12, 2024
Autori: Ruiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang
cs.AI
Abstract
Questo articolo introduce RuleArena, un nuovo e impegnativo benchmark progettato per valutare l'abilità dei grandi modelli linguistici (LLM) nel seguire regole complesse del mondo reale nel ragionamento. Coprendo tre domini pratici - tariffe per il bagaglio aereo, transazioni NBA e normative fiscali - RuleArena valuta la competenza dei LLM nel gestire istruzioni intricate in linguaggio naturale che richiedono una comprensione a lungo contesto, ragionamento logico e calcoli matematici accurati. Due attributi chiave distinguono RuleArena dai tradizionali benchmark di ragionamento basati su regole: (1) si estende oltre le rappresentazioni standard della logica del primo ordine e (2) è radicato in scenari autentici e pratici, fornendo approfondimenti sulla idoneità e affidabilità dei LLM per le applicazioni del mondo reale. Le nostre scoperte rivelano diverse limitazioni significative nei LLM: (1) faticano a identificare e applicare le regole appropriate, diventando frequentemente confusi da regolamenti simili ma distinti, (2) non riescono a eseguire in modo coerente calcoli matematici accurati, anche quando identificano correttamente le regole rilevanti e (3) in generale, hanno prestazioni scadenti nel benchmark. Questi risultati evidenziano significativi ostacoli nel migliorare le capacità di ragionamento guidate da regole dei LLM nelle applicazioni della vita reale.
English
This paper introduces RuleArena, a novel and challenging benchmark designed
to evaluate the ability of large language models (LLMs) to follow complex,
real-world rules in reasoning. Covering three practical domains -- airline
baggage fees, NBA transactions, and tax regulations -- RuleArena assesses LLMs'
proficiency in handling intricate natural language instructions that demand
long-context understanding, logical reasoning, and accurate mathematical
computation. Two key attributes distinguish RuleArena from traditional
rule-based reasoning benchmarks: (1) it extends beyond standard first-order
logic representations, and (2) it is grounded in authentic, practical
scenarios, providing insights into the suitability and reliability of LLMs for
real-world applications. Our findings reveal several notable limitations in
LLMs: (1) they struggle to identify and apply the appropriate rules, frequently
becoming confused by similar but distinct regulations, (2) they cannot
consistently perform accurate mathematical computations, even when they
correctly identify the relevant rules, and (3) in general, they perform poorly
in the benchmark. These results highlight significant challenges in advancing
LLMs' rule-guided reasoning capabilities in real-life applications.Summary
AI-Generated Summary