PerceiverS: Ein Multi-Scale Perceiver mit effektiver Segmentierung für die langfristige expressive symbolische Musikgenerierung.

PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation

November 13, 2024
Autoren: Yungang Yi, Weihua Li, Matthew Kuo, Quan Bai
cs.AI

Zusammenfassung

Die Musikgenerierung hat insbesondere im Bereich der Audiogenerierung erhebliche Fortschritte gemacht. Die Generierung symbolischer Musik, die sowohl langstrukturiert als auch ausdrucksstark ist, bleibt jedoch eine bedeutende Herausforderung. In diesem Artikel schlagen wir PerceiverS (Segmentierung und Skala) vor, eine neuartige Architektur, die entwickelt wurde, um dieses Problem zu lösen, indem sowohl effektive Segmentierung als auch Multi-Scale-Aufmerksamkeitsmechanismen genutzt werden. Unser Ansatz verbessert die symbolische Musikgenerierung, indem er gleichzeitig langfristige strukturelle Abhängigkeiten und kurzfristige expressive Details lernt. Durch die Kombination von Kreuz-Aufmerksamkeit und Selbst-Aufmerksamkeit in einem Multi-Scale-Setting erfasst PerceiverS die langfristige musikalische Struktur und bewahrt dabei die künstlerischen Nuancen. Das vorgeschlagene Modell, das an Datensätzen wie Maestro evaluiert wurde, zeigt Verbesserungen bei der Generierung kohärenter und vielfältiger Musik mit sowohl struktureller Konsistenz als auch expressiver Variation. Die Projekt-Demos und die generierten Musikbeispiele sind über den folgenden Link zugänglich: https://perceivers.github.io.
English
Music generation has progressed significantly, especially in the domain of audio generation. However, generating symbolic music that is both long-structured and expressive remains a significant challenge. In this paper, we propose PerceiverS (Segmentation and Scale), a novel architecture designed to address this issue by leveraging both Effective Segmentation and Multi-Scale attention mechanisms. Our approach enhances symbolic music generation by simultaneously learning long-term structural dependencies and short-term expressive details. By combining cross-attention and self-attention in a Multi-Scale setting, PerceiverS captures long-range musical structure while preserving performance nuances. The proposed model, evaluated on datasets like Maestro, demonstrates improvements in generating coherent and diverse music with both structural consistency and expressive variation. The project demos and the generated music samples can be accessed through the link: https://perceivers.github.io.

Summary

AI-Generated Summary

PDF62November 14, 2024