ChatPaper.aiChatPaper

PodAgent: Комплексная платформа для генерации подкастов

PodAgent: A Comprehensive Framework for Podcast Generation

March 1, 2025
Авторы: Yujia Xiao, Lei He, Haohan Guo, Fenglong Xie, Tan Lee
cs.AI

Аннотация

Существующие методы автоматической генерации аудио сталкиваются с трудностями при создании подкастоподобных аудиопрограмм. Основные проблемы заключаются в глубокой генерации контента, а также в создании подходящего и выразительного голосового сопровождения. В данной статье представлен PodAgent — комплексный фреймворк для создания аудиопрограмм. PodAgent 1) генерирует информативный контент для обсуждения тем, используя систему многозадачного взаимодействия Host-Guest-Writer, 2) создает пул голосов для подходящего распределения ролей и 3) применяет метод синтеза речи, усиленный LLM, для генерации выразительной разговорной речи. Учитывая отсутствие стандартизированных критериев оценки для генерации подкастоподобного аудио, мы разработали комплексные руководства по оценке для эффективного анализа производительности модели. Результаты экспериментов демонстрируют эффективность PodAgent, значительно превосходящего прямое генерирование GPT-4 в создании диалогов для обсуждения тем, достигая точности соответствия голосов в 87,4% и создавая более выразительную речь с помощью LLM-управляемого синтеза. Демо-страница: https://podcast-agent.github.io/demo/. Исходный код: https://github.com/yujxx/PodAgent.
English
Existing Existing automatic audio generation methods struggle to generate podcast-like audio programs effectively. The key challenges lie in in-depth content generation, appropriate and expressive voice production. This paper proposed PodAgent, a comprehensive framework for creating audio programs. PodAgent 1) generates informative topic-discussion content by designing a Host-Guest-Writer multi-agent collaboration system, 2) builds a voice pool for suitable voice-role matching and 3) utilizes LLM-enhanced speech synthesis method to generate expressive conversational speech. Given the absence of standardized evaluation criteria for podcast-like audio generation, we developed comprehensive assessment guidelines to effectively evaluate the model's performance. Experimental results demonstrate PodAgent's effectiveness, significantly surpassing direct GPT-4 generation in topic-discussion dialogue content, achieving an 87.4% voice-matching accuracy, and producing more expressive speech through LLM-guided synthesis. Demo page: https://podcast-agent.github.io/demo/. Source code: https://github.com/yujxx/PodAgent.

Summary

AI-Generated Summary

PDF62March 4, 2025