WISA: Welt-Simulator-Assistent für physikbewusste Text-zu-Video-Generierung

Zusammenfassung

Die jüngsten rasanten Fortschritte in der Text-zu-Video-Generierung (T2V), wie SoRA und Kling, haben großes Potenzial für die Entwicklung von Weltsimulatoren gezeigt. Allerdings haben aktuelle T2V-Modelle Schwierigkeiten, abstrakte physikalische Prinzipien zu erfassen und Videos zu erzeugen, die den physikalischen Gesetzen entsprechen. Diese Herausforderung ergibt sich hauptsächlich aus einem Mangel an klarer Anleitung zu physikalischen Informationen, bedingt durch eine erhebliche Lücke zwischen abstrakten physikalischen Prinzipien und Generierungsmodellen. Um dies zu adressieren, stellen wir den World Simulator Assistant (WISA) vor, ein effektives Framework zur Zerlegung und Integration physikalischer Prinzipien in T2V-Modelle. Konkret zerlegt WISA physikalische Prinzipien in textuelle physikalische Beschreibungen, qualitative physikalische Kategorien und quantitative physikalische Eigenschaften. Um diese physikalischen Attribute effektiv in den Generierungsprozess einzubetten, integriert WISA mehrere Schlüsseldesigns, darunter Mixture-of-Physical-Experts Attention (MoPA) und einen Physical Classifier, die das physikalische Bewusstsein des Modells verbessern. Darüber hinaus weisen die meisten bestehenden Datensätze Videos auf, in denen physikalische Phänomene entweder schwach repräsentiert sind oder mit mehreren gleichzeitig auftretenden Prozessen verflochten sind, was ihre Eignung als dedizierte Ressourcen für das Erlernen expliziter physikalischer Prinzipien einschränkt. Wir schlagen einen neuartigen Videodatensatz vor, WISA-32K, der auf qualitativen physikalischen Kategorien basiert. Er besteht aus 32.000 Videos, die 17 physikalische Gesetze in drei Bereichen der Physik repräsentieren: Dynamik, Thermodynamik und Optik. Experimentelle Ergebnisse zeigen, dass WISA die Kompatibilität von T2V-Modellen mit den physikalischen Gesetzen der realen Welt effektiv verbessern kann und eine beträchtliche Steigerung auf dem VideoPhy-Benchmark erreicht. Die visuellen Darstellungen von WISA und WISA-32K sind unter https://360cvgroup.github.io/WISA/ verfügbar.

English

Recent rapid advancements in text-to-video (T2V) generation, such as SoRA and Kling, have shown great potential for building world simulators. However, current T2V models struggle to grasp abstract physical principles and generate videos that adhere to physical laws. This challenge arises primarily from a lack of clear guidance on physical information due to a significant gap between abstract physical principles and generation models. To this end, we introduce the World Simulator Assistant (WISA), an effective framework for decomposing and incorporating physical principles into T2V models. Specifically, WISA decomposes physical principles into textual physical descriptions, qualitative physical categories, and quantitative physical properties. To effectively embed these physical attributes into the generation process, WISA incorporates several key designs, including Mixture-of-Physical-Experts Attention (MoPA) and a Physical Classifier, enhancing the model's physics awareness. Furthermore, most existing datasets feature videos where physical phenomena are either weakly represented or entangled with multiple co-occurring processes, limiting their suitability as dedicated resources for learning explicit physical principles. We propose a novel video dataset, WISA-32K, collected based on qualitative physical categories. It consists of 32,000 videos, representing 17 physical laws across three domains of physics: dynamics, thermodynamics, and optics. Experimental results demonstrate that WISA can effectively enhance the compatibility of T2V models with real-world physical laws, achieving a considerable improvement on the VideoPhy benchmark. The visual exhibitions of WISA and WISA-32K are available in the https://360cvgroup.github.io/WISA/.

WISA: Welt-Simulator-Assistent für physikbewusste Text-zu-Video-Generierung

WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation

Zusammenfassung

Summary

Support

Support