GPS als een Controlesignaal voor Beeldgeneratie
GPS as a Control Signal for Image Generation
January 21, 2025
Auteurs: Chao Feng, Ziyang Chen, Aleksander Holynski, Alexei A. Efros, Andrew Owens
cs.AI
Samenvatting
We tonen aan dat de GPS-tags die zijn opgenomen in de fotometadata een nuttig controle signaal bieden voor beeldgeneratie. We trainen GPS-naar-beeldmodellen en gebruiken ze voor taken die een gedetailleerd begrip vereisen van hoe beelden variëren binnen een stad. In het bijzonder trainen we een diffusiemodel om beelden te genereren die afhankelijk zijn van zowel GPS als tekst. Het geleerde model genereert beelden die het kenmerkende uiterlijk van verschillende buurten, parken en bezienswaardigheden vastleggen. We extraheren ook 3D-modellen uit 2D GPS-naar-beeldmodellen via score distillatie sampling, waarbij GPS-conditionering wordt gebruikt om het uiterlijk van de reconstructie vanuit elk gezichtspunt te beperken. Onze evaluaties suggereren dat onze GPS-geconditioneerde modellen succesvol leren om beelden te genereren die variëren op basis van locatie, en dat GPS-conditionering de geschatte 3D-structuur verbetert.
English
We show that the GPS tags contained in photo metadata provide a useful
control signal for image generation. We train GPS-to-image models and use them
for tasks that require a fine-grained understanding of how images vary within a
city. In particular, we train a diffusion model to generate images conditioned
on both GPS and text. The learned model generates images that capture the
distinctive appearance of different neighborhoods, parks, and landmarks. We
also extract 3D models from 2D GPS-to-image models through score distillation
sampling, using GPS conditioning to constrain the appearance of the
reconstruction from each viewpoint. Our evaluations suggest that our
GPS-conditioned models successfully learn to generate images that vary based on
location, and that GPS conditioning improves estimated 3D structure.Summary
AI-Generated Summary