DiffRhythm: Невероятно быстрый и до смешного простой метод сквозной генерации полноформатных музыкальных композиций с использованием латентной диффузии
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion
March 3, 2025
Авторы: Ziqian Ning, Huakang Chen, Yuepeng Jiang, Chunbo Hao, Guobin Ma, Shuai Wang, Jixun Yao, Lei Xie
cs.AI
Аннотация
Последние достижения в области генерации музыки привлекли значительное внимание, однако существующие подходы сталкиваются с серьезными ограничениями. Некоторые современные генеративные модели способны синтезировать либо вокальную дорожку, либо аккомпанемент. Хотя некоторые модели могут генерировать комбинацию вокала и аккомпанемента, они обычно полагаются на тщательно разработанные многоступенчатые каскадные архитектуры и сложные конвейеры обработки данных, что затрудняет масштабируемость. Кроме того, большинство систем ограничены генерацией коротких музыкальных фрагментов, а не полноценных песен. Широко используемые методы, основанные на языковых моделях, также страдают от медленной скорости вывода. Для решения этих проблем мы предлагаем DiffRhythm — первую модель генерации песен на основе латентной диффузии, способную синтезировать полные песни с вокалом и аккомпанементом продолжительностью до 4 минут 45 секунд всего за десять секунд, сохраняя высокую музыкальность и разборчивость. Несмотря на впечатляющие возможности, DiffRhythm отличается простотой и элегантностью: она устраняет необходимость в сложной подготовке данных, использует прямолинейную структуру модели и требует только текста песни и стилевого запроса на этапе вывода. Кроме того, её неавторегрессивная структура обеспечивает высокую скорость вывода. Эта простота гарантирует масштабируемость DiffRhythm. Мы также публикуем полный код для обучения вместе с предварительно обученной моделью на крупномасштабных данных, чтобы способствовать воспроизводимости и дальнейшим исследованиям.
English
Recent advancements in music generation have garnered significant attention,
yet existing approaches face critical limitations. Some current generative
models can only synthesize either the vocal track or the accompaniment track.
While some models can generate combined vocal and accompaniment, they typically
rely on meticulously designed multi-stage cascading architectures and intricate
data pipelines, hindering scalability. Additionally, most systems are
restricted to generating short musical segments rather than full-length songs.
Furthermore, widely used language model-based methods suffer from slow
inference speeds. To address these challenges, we propose DiffRhythm, the first
latent diffusion-based song generation model capable of synthesizing complete
songs with both vocal and accompaniment for durations of up to 4m45s in only
ten seconds, maintaining high musicality and intelligibility. Despite its
remarkable capabilities, DiffRhythm is designed to be simple and elegant: it
eliminates the need for complex data preparation, employs a straightforward
model structure, and requires only lyrics and a style prompt during inference.
Additionally, its non-autoregressive structure ensures fast inference speeds.
This simplicity guarantees the scalability of DiffRhythm. Moreover, we release
the complete training code along with the pre-trained model on large-scale data
to promote reproducibility and further research.Summary
AI-Generated Summary