ChatPaper.aiChatPaper

GPS als Steuersignal für die Bildgenerierung

GPS as a Control Signal for Image Generation

January 21, 2025
Autoren: Chao Feng, Ziyang Chen, Aleksander Holynski, Alexei A. Efros, Andrew Owens
cs.AI

Zusammenfassung

Wir zeigen, dass die GPS-Tags in den Metadaten von Fotos ein nützliches Kontrollsignal für die Bildgenerierung darstellen. Wir trainieren GPS-zu-Bild-Modelle und verwenden sie für Aufgaben, die ein fein abgestimmtes Verständnis dafür erfordern, wie Bilder innerhalb einer Stadt variieren. Insbesondere trainieren wir ein Diffusionsmodell, um Bilder zu generieren, die sowohl von GPS als auch von Text abhängig sind. Das gelernte Modell generiert Bilder, die das charakteristische Erscheinungsbild verschiedener Stadtviertel, Parks und Sehenswürdigkeiten einfangen. Wir extrahieren auch 3D-Modelle aus 2D-GPS-zu-Bild-Modellen durch Score-Distillationssampling, wobei die GPS-Konditionierung das Erscheinungsbild der Rekonstruktion aus jedem Blickwinkel einschränkt. Unsere Bewertungen legen nahe, dass unsere GPS-konditionierten Modelle erfolgreich lernen, Bilder zu generieren, die je nach Standort variieren, und dass die GPS-Konditionierung die geschätzte 3D-Struktur verbessert.
English
We show that the GPS tags contained in photo metadata provide a useful control signal for image generation. We train GPS-to-image models and use them for tasks that require a fine-grained understanding of how images vary within a city. In particular, we train a diffusion model to generate images conditioned on both GPS and text. The learned model generates images that capture the distinctive appearance of different neighborhoods, parks, and landmarks. We also extract 3D models from 2D GPS-to-image models through score distillation sampling, using GPS conditioning to constrain the appearance of the reconstruction from each viewpoint. Our evaluations suggest that our GPS-conditioned models successfully learn to generate images that vary based on location, and that GPS conditioning improves estimated 3D structure.

Summary

AI-Generated Summary

PDF132January 22, 2025