ChatPaper.aiChatPaper

Inferenza Efficiente per Modelli di Ragionamento su Grande Scala: Una Rassegna

Efficient Inference for Large Reasoning Models: A Survey

March 29, 2025
Autori: Yue Liu, Jiaying Wu, Yufei He, Hongcheng Gao, Hongyu Chen, Baolong Bi, Jiaheng Zhang, Zhiqi Huang, Bryan Hooi
cs.AI

Abstract

I Large Reasoning Models (LRM) migliorano significativamente la capacità di ragionamento dei Large Language Models (LLM) imparando a ragionare, dimostrando prestazioni promettenti nella risoluzione di compiti complessi. Tuttavia, il loro processo di ragionamento deliberativo porta a inefficienze nell'uso dei token, nel consumo di memoria e nel tempo di inferenza. Pertanto, questa survey fornisce una revisione dei metodi di inferenza efficiente progettati specificamente per gli LRM, concentrandosi sulla mitigazione dell'inefficienza dei token preservando la qualità del ragionamento. In primo luogo, introduciamo una tassonomia per raggruppare i metodi recenti in due categorie principali: (a) Chain-of-Thought (CoT) esplicita compatta, che riduce i token mantenendo la struttura di ragionamento esplicita, e (b) CoT latente implicita, che codifica i passaggi di ragionamento all'interno di rappresentazioni nascoste invece che in token espliciti. Nel frattempo, discutiamo i loro punti di forza e di debolezza. Successivamente, conduciamo analisi empiriche sui metodi esistenti sotto gli aspetti delle prestazioni e dell'efficienza. Inoltre, presentiamo le sfide aperte in questo campo, tra cui il ragionamento controllabile centrato sull'uomo, il compromesso tra interpretabilità ed efficienza del ragionamento, la garanzia della sicurezza del ragionamento efficiente e le applicazioni più ampie del ragionamento efficiente. In aggiunta, evidenziamo intuizioni chiave per migliorare l'efficienza dell'inferenza degli LRM attraverso tecniche come la fusione di modelli, nuove architetture e agenti router. Speriamo che questo lavoro serva come una guida preziosa, aiutando i ricercatori a superare le sfide in questo campo vivace.
English
Large Reasoning Models (LRMs) significantly improve the reasoning ability of Large Language Models (LLMs) by learning to reason, exhibiting promising performance in complex task-solving. However, their deliberative reasoning process leads to inefficiencies in token usage, memory consumption, and inference time. Thus, this survey provides a review of efficient inference methods designed specifically for LRMs, focusing on mitigating token inefficiency while preserving the reasoning quality. First, we introduce a taxonomy to group the recent methods into two main categories: (a) explicit compact Chain-of-Thought (CoT), which reduces tokens while keeping the explicit reasoning structure, and (b) implicit latent CoT, which encodes reasoning steps within hidden representations instead of explicit tokens. Meanwhile, we discuss their strengths and weaknesses. Then, we conduct empirical analyses on existing methods from performance and efficiency aspects. Besides, we present open challenges in this field, including human-centric controllable reasoning, trade-off between interpretability and efficiency of reasoning, ensuring safety of efficient reasoning, and broader applications of efficient reasoning. In addition, we highlight key insights for enhancing LRMs' inference efficiency via techniques such as model merging, new architectures, and agent routers. We hope this work serves as a valuable guide, helping researchers overcome challenges in this vibrant fieldhttps://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs.

Summary

AI-Generated Summary

PDF463April 1, 2025