ReCamMaster: Kameragesteuertes generatives Rendering aus einem einzelnen Video
ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
March 14, 2025
Autoren: Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
cs.AI
Zusammenfassung
Die Kamerasteuerung wurde in text- oder bildbedingten Videogenerierungsaufgaben aktiv erforscht. Die Veränderung von Kameratrajektorien eines gegebenen Videos bleibt jedoch weitgehend unerforscht, obwohl sie im Bereich der Videoproduktion von großer Bedeutung ist. Dies ist aufgrund der zusätzlichen Anforderungen, die Erscheinung über mehrere Frames hinweg beizubehalten und die dynamische Synchronisation aufrechtzuerhalten, nicht trivial. Um dies zu bewältigen, präsentieren wir ReCamMaster, ein kameragesteuertes generatives Video-Rendering-Framework, das die dynamische Szene eines Eingabevideos in neuen Kameratrajektorien reproduziert. Die zentrale Innovation besteht darin, die generativen Fähigkeiten vortrainierter Text-zu-Video-Modelle durch einen einfachen, aber leistungsstarken Video-Konditionierungsmechanismus zu nutzen – eine Fähigkeit, die in der aktuellen Forschung oft übersehen wird. Um den Mangel an qualitativ hochwertigen Trainingsdaten zu überwinden, erstellen wir mit Unreal Engine 5 einen umfassenden, multi-kamera-synchronisierten Videodatensatz, der sorgfältig kuratiert ist, um realen Filmcharakteristiken zu entsprechen und vielfältige Szenen und Kamerabewegungen abzudecken. Dies hilft dem Modell, sich auf Videos in der freien Wildbahn zu verallgemeinern. Schließlich verbessern wir die Robustheit gegenüber diversen Eingaben durch eine sorgfältig gestaltete Trainingsstrategie. Umfangreiche Experimente zeigen, dass unsere Methode bestehende state-of-the-art Ansätze und starke Baselines deutlich übertrifft. Unsere Methode findet auch vielversprechende Anwendungen in der Videostabilisierung, Super-Resolution und Outpainting. Projektseite: https://jianhongbai.github.io/ReCamMaster/
English
Camera control has been actively studied in text or image conditioned video
generation tasks. However, altering camera trajectories of a given video
remains under-explored, despite its importance in the field of video creation.
It is non-trivial due to the extra constraints of maintaining multiple-frame
appearance and dynamic synchronization. To address this, we present
ReCamMaster, a camera-controlled generative video re-rendering framework that
reproduces the dynamic scene of an input video at novel camera trajectories.
The core innovation lies in harnessing the generative capabilities of
pre-trained text-to-video models through a simple yet powerful video
conditioning mechanism -- its capability often overlooked in current research.
To overcome the scarcity of qualified training data, we construct a
comprehensive multi-camera synchronized video dataset using Unreal Engine 5,
which is carefully curated to follow real-world filming characteristics,
covering diverse scenes and camera movements. It helps the model generalize to
in-the-wild videos. Lastly, we further improve the robustness to diverse inputs
through a meticulously designed training strategy. Extensive experiments tell
that our method substantially outperforms existing state-of-the-art approaches
and strong baselines. Our method also finds promising applications in video
stabilization, super-resolution, and outpainting. Project page:
https://jianhongbai.github.io/ReCamMaster/Summary
AI-Generated Summary