ChatPaper.aiChatPaper

YuE: Skalierung offener Basismodelle für die Langform-Musikgenerierung

YuE: Scaling Open Foundation Models for Long-Form Music Generation

March 11, 2025
Autoren: Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xinrun Du, Zhen Ye, Tianyu Zheng, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo
cs.AI

Zusammenfassung

Wir widmen uns der Aufgabe der langformatigen Musikerzeugung – insbesondere dem anspruchsvollen Problem der Text-zu-Lied-Generierung – indem wir YuE vorstellen, eine Familie offener Foundation-Modelle, die auf der LLaMA2-Architektur basieren. Konkret skaliert YuE auf Billionen von Tokens und erzeugt bis zu fünf Minuten Musik, während es lyrische Ausrichtung, kohärente musikalische Struktur und ansprechende Gesangsmelodien mit passender Begleitung beibehält. Dies wird erreicht durch (1) track-entkoppelte Next-Token-Vorhersage zur Überwindung dichter Mischsignale, (2) strukturelle progressive Konditionierung für langfristige lyrische Ausrichtung und (3) ein multitaskiges, mehrphasiges Vor-Trainings-Rezept zur Konvergenz und Generalisierung. Zudem gestalten wir die In-Context-Learning-Technik für die Musikerzeugung neu, wodurch vielseitiger Stiltransfer (z.B. die Umwandlung von Japanese City Pop in einen englischen Rap bei Beibehaltung der originalen Begleitung) und bidirektionale Generierung ermöglicht werden. Durch umfangreiche Evaluationen zeigen wir, dass YuE einige proprietäre Systeme in Bezug auf Musikalität und vokale Agilität erreicht oder sogar übertrifft. Darüber hinaus ermöglicht das Feinabstimmen von YuE zusätzliche Kontrollmöglichkeiten und verbesserte Unterstützung für Randsprachen. Außerdem zeigen wir, dass die gelernten Repräsentationen von YuE auch bei Musikverständnisaufgaben gut abschneiden, wobei die Ergebnisse von YuE auf dem MARBLE-Benchmark state-of-the-art-Methoden erreichen oder übertreffen. Schlüsselwörter: Text-zu-Lied, Liedgenerierung, Langformat, Foundation-Modell, Musikerzeugung
English
We tackle the task of long-form music generation--particularly the challenging lyrics-to-song problem--by introducing YuE, a family of open foundation models based on the LLaMA2 architecture. Specifically, YuE scales to trillions of tokens and generates up to five minutes of music while maintaining lyrical alignment, coherent musical structure, and engaging vocal melodies with appropriate accompaniment. It achieves this through (1) track-decoupled next-token prediction to overcome dense mixture signals, (2) structural progressive conditioning for long-context lyrical alignment, and (3) a multitask, multiphase pre-training recipe to converge and generalize. In addition, we redesign the in-context learning technique for music generation, enabling versatile style transfer (e.g., converting Japanese city pop into an English rap while preserving the original accompaniment) and bidirectional generation. Through extensive evaluation, we demonstrate that YuE matches or even surpasses some of the proprietary systems in musicality and vocal agility. In addition, fine-tuning YuE enables additional controls and enhanced support for tail languages. Furthermore, beyond generation, we show that YuE's learned representations can perform well on music understanding tasks, where the results of YuE match or exceed state-of-the-art methods on the MARBLE benchmark. Keywords: lyrics2song, song generation, long-form, foundation model, music generation

Summary

AI-Generated Summary

PDF622March 12, 2025