ChatPaper.aiChatPaper

TheoremExplainAgent: К созданию мультимодальных объяснений для понимания теорем с использованием больших языковых моделей

TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

February 26, 2025
Авторы: Max Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen
cs.AI

Аннотация

Понимание теорем, специфичных для конкретной области, часто требует большего, чем просто текстового рассуждения; эффективная коммуникация через структурированные визуальные объяснения имеет решающее значение для более глубокого понимания. Хотя крупные языковые модели (LLM) демонстрируют высокую производительность в текстовом рассуждении о теоремах, их способность генерировать последовательные и педагогически значимые визуальные объяснения остается открытой проблемой. В данной работе мы представляем TheoremExplainAgent, агентный подход для создания длинных видеороликов с объяснением теорем (более 5 минут) с использованием анимаций Manim. Для систематической оценки мультимодальных объяснений теорем мы предлагаем TheoremExplainBench, эталонный набор, охватывающий 240 теорем из различных STEM-дисциплин, а также 5 автоматизированных метрик оценки. Наши результаты показывают, что агентное планирование необходимо для создания детализированных длинных видеороликов, и агент o3-mini достигает успешности в 93,8% и общего балла 0,77. Однако наши количественные и качественные исследования показывают, что большинство созданных видеороликов имеют незначительные проблемы с компоновкой визуальных элементов. Кроме того, мультимодальные объяснения выявляют более глубокие недостатки в рассуждениях, которые текстовые объяснения не способны обнаружить, подчеркивая важность мультимодальных объяснений.
English
Understanding domain-specific theorems often requires more than just text-based reasoning; effective communication through structured visual explanations is crucial for deeper comprehension. While large language models (LLMs) demonstrate strong performance in text-based theorem reasoning, their ability to generate coherent and pedagogically meaningful visual explanations remains an open challenge. In this work, we introduce TheoremExplainAgent, an agentic approach for generating long-form theorem explanation videos (over 5 minutes) using Manim animations. To systematically evaluate multimodal theorem explanations, we propose TheoremExplainBench, a benchmark covering 240 theorems across multiple STEM disciplines, along with 5 automated evaluation metrics. Our results reveal that agentic planning is essential for generating detailed long-form videos, and the o3-mini agent achieves a success rate of 93.8% and an overall score of 0.77. However, our quantitative and qualitative studies show that most of the videos produced exhibit minor issues with visual element layout. Furthermore, multimodal explanations expose deeper reasoning flaws that text-based explanations fail to reveal, highlighting the importance of multimodal explanations.

Summary

AI-Generated Summary

PDF422February 27, 2025