GPS als een Controlesignaal voor Beeldgeneratie

Samenvatting

We tonen aan dat de GPS-tags die zijn opgenomen in de fotometadata een nuttig controle signaal bieden voor beeldgeneratie. We trainen GPS-naar-beeldmodellen en gebruiken ze voor taken die een gedetailleerd begrip vereisen van hoe beelden variëren binnen een stad. In het bijzonder trainen we een diffusiemodel om beelden te genereren die afhankelijk zijn van zowel GPS als tekst. Het geleerde model genereert beelden die het kenmerkende uiterlijk van verschillende buurten, parken en bezienswaardigheden vastleggen. We extraheren ook 3D-modellen uit 2D GPS-naar-beeldmodellen via score distillatie sampling, waarbij GPS-conditionering wordt gebruikt om het uiterlijk van de reconstructie vanuit elk gezichtspunt te beperken. Onze evaluaties suggereren dat onze GPS-geconditioneerde modellen succesvol leren om beelden te genereren die variëren op basis van locatie, en dat GPS-conditionering de geschatte 3D-structuur verbetert.

English

We show that the GPS tags contained in photo metadata provide a useful control signal for image generation. We train GPS-to-image models and use them for tasks that require a fine-grained understanding of how images vary within a city. In particular, we train a diffusion model to generate images conditioned on both GPS and text. The learned model generates images that capture the distinctive appearance of different neighborhoods, parks, and landmarks. We also extract 3D models from 2D GPS-to-image models through score distillation sampling, using GPS conditioning to constrain the appearance of the reconstruction from each viewpoint. Our evaluations suggest that our GPS-conditioned models successfully learn to generate images that vary based on location, and that GPS conditioning improves estimated 3D structure.

GPS als een Controlesignaal voor Beeldgeneratie

GPS as a Control Signal for Image Generation

Samenvatting

Summary

Support