Langzeit-Video-Audiosynthese mit Multi-Agenten-Kollaboration
Long-Video Audio Synthesis with Multi-Agent Collaboration
March 13, 2025
Autoren: Yehang Zhang, Xinli Xu, Xiaojie Xu, Li Liu, Yingcong Chen
cs.AI
Zusammenfassung
Die Video-zu-Audio-Synthese, die synchronisierte Audiodaten für visuelle Inhalte erzeugt, verbessert entscheidend die Immersion der Zuschauer und die narrative Kohärenz in Film und interaktiven Medien. Dennoch bleibt die Video-zu-Audio-Synchronisation für langformatige Inhalte eine ungelöste Herausforderung aufgrund dynamischer semantischer Verschiebungen, zeitlicher Fehlausrichtung und des Mangels an speziellen Datensätzen. Während bestehende Methoden bei kurzen Videos hervorragende Ergebnisse liefern, scheitern sie in langen Szenarien (z.B. Filmen) aufgrund fragmentierter Synthese und unzureichender konsistenter Übergänge zwischen Szenen. Wir stellen LVAS-Agent vor, ein neuartiges Multi-Agenten-Framework, das professionelle Synchronisationsabläufe durch kollaborative Rollenspezialisierung nachahmt. Unser Ansatz zerlegt die Langvideo-Synthese in vier Schritte: Szenensegmentierung, Skripterstellung, Sounddesign und Audio-Synthese. Zentrale Innovationen umfassen einen Diskussions-Korrektur-Mechanismus zur Verfeinerung von Szenen/Skripten und eine Generierungs-Retrieval-Schleife für zeitlich-semantische Ausrichtung. Um eine systematische Bewertung zu ermöglichen, führen wir LVAS-Bench ein, den ersten Benchmark mit 207 professionell kuratierten Langvideos, die verschiedene Szenarien abdecken. Experimente zeigen eine überlegene audiovisuelle Ausrichtung im Vergleich zu Baseline-Methoden. Projektseite: https://lvas-agent.github.io
English
Video-to-audio synthesis, which generates synchronized audio for visual
content, critically enhances viewer immersion and narrative coherence in film
and interactive media. However, video-to-audio dubbing for long-form content
remains an unsolved challenge due to dynamic semantic shifts, temporal
misalignment, and the absence of dedicated datasets. While existing methods
excel in short videos, they falter in long scenarios (e.g., movies) due to
fragmented synthesis and inadequate cross-scene consistency. We propose
LVAS-Agent, a novel multi-agent framework that emulates professional dubbing
workflows through collaborative role specialization. Our approach decomposes
long-video synthesis into four steps including scene segmentation, script
generation, sound design and audio synthesis. Central innovations include a
discussion-correction mechanism for scene/script refinement and a
generation-retrieval loop for temporal-semantic alignment. To enable systematic
evaluation, we introduce LVAS-Bench, the first benchmark with 207
professionally curated long videos spanning diverse scenarios. Experiments
demonstrate superior audio-visual alignment over baseline methods. Project
page: https://lvas-agent.github.ioSummary
AI-Generated Summary