Самообучение агентного понимания длинного контекста
Self-Taught Agentic Long Context Understanding
February 21, 2025
Авторы: Yufan Zhuang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Jingbo Shang, Zicheng Liu, Emad Barsoum
cs.AI
Аннотация
Ответ на сложные вопросы с длинным контекстом остается одним из основных вызовов для больших языковых моделей (LLM), поскольку это требует эффективной уточнения вопросов и извлечения контекста. Мы предлагаем Agentic Long-Context Understanding (AgenticLU), фреймворк, разработанный для улучшения понимания таких запросов LLM путем интеграции целевого самоуточнения с контекстуальной привязкой в рамках агентного рабочего процесса. В основе AgenticLU лежит Chain-of-Clarifications (CoC), где модели улучшают свое понимание через самостоятельно сгенерированные уточняющие вопросы и соответствующие контекстуальные привязки. Масштабируя вывод как поиск по дереву, где каждый узел представляет собой шаг CoC, мы достигаем 97,8% воспроизведения ответа на NarrativeQA при глубине поиска до трех и коэффициенте ветвления восемь. Для амортизации высокой стоимости этого процесса поиска во время обучения мы используем пары предпочтений для каждого шага, полученные рабочим процессом CoC, и выполняем двухэтапное дообучение модели: (1) надзорное дообучение для изучения эффективных стратегий декомпозиции и (2) прямая оптимизация предпочтений для улучшения качества рассуждений. Это позволяет моделям AgenticLU генерировать уточнения и извлекать соответствующий контекст эффективно и эффективно за один проход вывода. Обширные эксперименты по семи задачам с длинным контекстом показывают, что AgenticLU значительно превосходит современные методы подсказок и специализированные LLM с длинным контекстом, достигая надежного многопереходного рассуждения и поддерживая постоянное качество работы по мере увеличения длины контекста.
English
Answering complex, long-context questions remains a major challenge for large
language models (LLMs) as it requires effective question clarifications and
context retrieval. We propose Agentic Long-Context Understanding (AgenticLU), a
framework designed to enhance an LLM's understanding of such queries by
integrating targeted self-clarification with contextual grounding within an
agentic workflow. At the core of AgenticLU is Chain-of-Clarifications (CoC),
where models refine their understanding through self-generated clarification
questions and corresponding contextual groundings. By scaling inference as a
tree search where each node represents a CoC step, we achieve 97.8% answer
recall on NarrativeQA with a search depth of up to three and a branching factor
of eight. To amortize the high cost of this search process to training, we
leverage the preference pairs for each step obtained by the CoC workflow and
perform two-stage model finetuning: (1) supervised finetuning to learn
effective decomposition strategies, and (2) direct preference optimization to
enhance reasoning quality. This enables AgenticLU models to generate
clarifications and retrieve relevant context effectively and efficiently in a
single inference pass. Extensive experiments across seven long-context tasks
demonstrate that AgenticLU significantly outperforms state-of-the-art prompting
methods and specialized long-context LLMs, achieving robust multi-hop reasoning
while sustaining consistent performance as context length grows.Summary
AI-Generated Summary