WISA: Welt-Simulator-Assistent für physikbewusste Text-zu-Video-Generierung
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation
March 11, 2025
Autoren: Jing Wang, Ao Ma, Ke Cao, Jun Zheng, Zhanjie Zhang, Jiasong Feng, Shanyuan Liu, Yuhang Ma, Bo Cheng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI
Zusammenfassung
Die jüngsten rasanten Fortschritte in der Text-zu-Video-Generierung (T2V), wie SoRA und Kling, haben großes Potenzial für die Entwicklung von Weltsimulatoren gezeigt. Allerdings haben aktuelle T2V-Modelle Schwierigkeiten, abstrakte physikalische Prinzipien zu erfassen und Videos zu erzeugen, die den physikalischen Gesetzen entsprechen. Diese Herausforderung ergibt sich hauptsächlich aus einem Mangel an klarer Anleitung zu physikalischen Informationen, bedingt durch eine erhebliche Lücke zwischen abstrakten physikalischen Prinzipien und Generierungsmodellen. Um dies zu adressieren, stellen wir den World Simulator Assistant (WISA) vor, ein effektives Framework zur Zerlegung und Integration physikalischer Prinzipien in T2V-Modelle. Konkret zerlegt WISA physikalische Prinzipien in textuelle physikalische Beschreibungen, qualitative physikalische Kategorien und quantitative physikalische Eigenschaften. Um diese physikalischen Attribute effektiv in den Generierungsprozess einzubetten, integriert WISA mehrere Schlüsseldesigns, darunter Mixture-of-Physical-Experts Attention (MoPA) und einen Physical Classifier, die das physikalische Bewusstsein des Modells verbessern. Darüber hinaus weisen die meisten bestehenden Datensätze Videos auf, in denen physikalische Phänomene entweder schwach repräsentiert sind oder mit mehreren gleichzeitig auftretenden Prozessen verflochten sind, was ihre Eignung als dedizierte Ressourcen für das Erlernen expliziter physikalischer Prinzipien einschränkt. Wir schlagen einen neuartigen Videodatensatz vor, WISA-32K, der auf qualitativen physikalischen Kategorien basiert. Er besteht aus 32.000 Videos, die 17 physikalische Gesetze in drei Bereichen der Physik repräsentieren: Dynamik, Thermodynamik und Optik. Experimentelle Ergebnisse zeigen, dass WISA die Kompatibilität von T2V-Modellen mit den physikalischen Gesetzen der realen Welt effektiv verbessern kann und eine beträchtliche Steigerung auf dem VideoPhy-Benchmark erreicht. Die visuellen Darstellungen von WISA und WISA-32K sind unter https://360cvgroup.github.io/WISA/ verfügbar.
English
Recent rapid advancements in text-to-video (T2V) generation, such as SoRA and
Kling, have shown great potential for building world simulators. However,
current T2V models struggle to grasp abstract physical principles and generate
videos that adhere to physical laws. This challenge arises primarily from a
lack of clear guidance on physical information due to a significant gap between
abstract physical principles and generation models. To this end, we introduce
the World Simulator Assistant (WISA), an effective framework for decomposing
and incorporating physical principles into T2V models. Specifically, WISA
decomposes physical principles into textual physical descriptions, qualitative
physical categories, and quantitative physical properties. To effectively embed
these physical attributes into the generation process, WISA incorporates
several key designs, including Mixture-of-Physical-Experts Attention (MoPA) and
a Physical Classifier, enhancing the model's physics awareness. Furthermore,
most existing datasets feature videos where physical phenomena are either
weakly represented or entangled with multiple co-occurring processes, limiting
their suitability as dedicated resources for learning explicit physical
principles. We propose a novel video dataset, WISA-32K, collected based on
qualitative physical categories. It consists of 32,000 videos, representing 17
physical laws across three domains of physics: dynamics, thermodynamics, and
optics. Experimental results demonstrate that WISA can effectively enhance the
compatibility of T2V models with real-world physical laws, achieving a
considerable improvement on the VideoPhy benchmark. The visual exhibitions of
WISA and WISA-32K are available in the https://360cvgroup.github.io/WISA/.Summary
AI-Generated Summary