Гипотеза лотереи LLM: Переосмысление того, какие способности должно сохранять сжатие LLM?
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve?
February 24, 2025
Авторы: Zhenheng Tang, Xiang Liu, Qian Wang, Peijie Dong, Bingsheng He, Xiaowen Chu, Bo Li
cs.AI
Аннотация
Мотивированные снижением вычислительных и ресурсных затрат больших языковых моделей (LLM), сжатие моделей и сжатие кэша ключей-значений (KV cache) привлекли значительное внимание исследователей. Однако современные методы в основном сосредоточены на сохранении производительности сжатых LLM, измеряемой с помощью перплексии или простой точности на задачах вопросов-ответов на основе здравого смысла и базовых арифметических рассуждений. В этом блоге мы представляем краткий обзор последних достижений в LLM, связанных с генерацией, усиленной поиском, многошаговыми рассуждениями, использованием внешних инструментов и вычислительной выразительностью, которые существенно повышают производительность LLM. Затем мы выдвигаем гипотезу о лотерейной LLM, предполагая, что для заданной LLM и задачи существует меньшая лотерейная LLM, способная достичь той же производительности, что и исходная LLM, с помощью многошаговых рассуждений и внешних инструментов. На основе обзора текущих достижений в LLM мы обсуждаем и обобщаем ключевые способности, которыми должны обладать лотерейная LLM и сжатие KV cache, но которые в настоящее время игнорируются в существующих методах.
English
Motivated by reducing the computational and storage costs of LLMs, model
compression and KV cache compression have attracted much attention from
researchers. However, current methods predominantly emphasize maintaining the
performance of compressed LLMs, as measured by perplexity or simple accuracy on
tasks of common sense knowledge QA and basic arithmetic reasoning. In this
blog, we present a brief review of recent advancements in LLMs related to
retrieval-augmented generation, multi-step reasoning, external tools, and
computational expressivity, all of which substantially enhance LLM performance.
Then, we propose a lottery LLM hypothesis suggesting that for a given LLM and
task, there exists a smaller lottery LLM capable of producing the same
performance as the original LLM with the assistance of multi-step reasoning and
external tools. Based on the review of current progress in LLMs, we discuss and
summarize the essential capabilities that the lottery LLM and KV cache
compression must possess, which are currently overlooked in existing methods.Summary
AI-Generated Summary