PPTAgent: 텍스트에서 슬라이드로의 발표 생성 및 평가를 넘어서
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides
January 7, 2025
저자: Hao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun
cs.AI
초록
문서로부터 발표 자료를 자동으로 생성하는 것은 내용 품질, 시각적 디자인, 그리고 구조적 일관성을 균형 있게 유지해야 하는 어려운 작업입니다. 기존 방법들은 주로 내용 품질을 개선하고 평가하는 데 초점을 맞추었으며 종종 시각적 디자인과 구조적 일관성을 간과하여 실용성을 제한합니다. 이러한 한계를 극복하기 위해 우리는 인간의 작업 흐름에서 영감을 받은 두 단계의 편집 기반 접근을 통해 발표 자료 생성을 체계적으로 개선하는 PPTAgent를 제안합니다. PPTAgent는 먼저 기준 발표 자료를 분석하여 그들의 구조적 패턴과 내용 스키마를 이해한 후 일관성과 조정을 보장하기 위해 아웃라인을 작성하고 코드 작업을 통해 슬라이드를 생성합니다. 생성된 발표 자료의 품질을 체계적으로 평가하기 위해 우리는 Content, Design, 그리고 Coherence 세 가지 차원을 통해 발표 자료를 평가하는 평가 프레임워크인 PPTEval을 소개합니다. 실험 결과, PPTAgent가 세 가지 차원 모두에서 기존의 전통적인 자동 발표 자료 생성 방법을 크게 능가함을 보여줍니다. 코드와 데이터는 https://github.com/icip-cas/PPTAgent에서 확인할 수 있습니다.
English
Automatically generating presentations from documents is a challenging task
that requires balancing content quality, visual design, and structural
coherence. Existing methods primarily focus on improving and evaluating the
content quality in isolation, often overlooking visual design and structural
coherence, which limits their practical applicability. To address these
limitations, we propose PPTAgent, which comprehensively improves presentation
generation through a two-stage, edit-based approach inspired by human
workflows. PPTAgent first analyzes reference presentations to understand their
structural patterns and content schemas, then drafts outlines and generates
slides through code actions to ensure consistency and alignment. To
comprehensively evaluate the quality of generated presentations, we further
introduce PPTEval, an evaluation framework that assesses presentations across
three dimensions: Content, Design, and Coherence. Experiments show that
PPTAgent significantly outperforms traditional automatic presentation
generation methods across all three dimensions. The code and data are available
at https://github.com/icip-cas/PPTAgent.Summary
AI-Generated Summary