Gaze-LLE: Stima del Bersaglio dello Sguardo tramite Grandi Codificatori Appresi su Larga Scala
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders
December 12, 2024
Autori: Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg
cs.AI
Abstract
Affrontiamo il problema dell'identificazione del bersaglio dello sguardo, che mira a predire dove una persona sta guardando in una scena. Prevedere il bersaglio dello sguardo di una persona richiede il ragionamento sia sull'aspetto della persona sia sui contenuti della scena. Lavori precedenti hanno sviluppato pipeline sempre più complesse e realizzate manualmente per l'identificazione del bersaglio dello sguardo che fondono attentamente le caratteristiche da codificatori di scene separati, codificatori di testa e modelli ausiliari per segnali come profondità e posa. Motivati dal successo degli estrattori di caratteristiche generici su una varietà di compiti visivi, proponiamo Gaze-LLE, un nuovo framework transformer che semplifica l'identificazione del bersaglio dello sguardo sfruttando le caratteristiche da un codificatore DINOv2 congelato. Estraiamo una singola rappresentazione delle caratteristiche per la scena e applichiamo un prompt posizionale specifico della persona per decodificare lo sguardo con un modulo leggero. Dimostriamo prestazioni all'avanguardia su diversi benchmark dello sguardo e forniamo un'ampia analisi per convalidare le nostre scelte progettuali. Il nostro codice è disponibile su: http://github.com/fkryan/gazelle.
English
We address the problem of gaze target estimation, which aims to predict where
a person is looking in a scene. Predicting a person's gaze target requires
reasoning both about the person's appearance and the contents of the scene.
Prior works have developed increasingly complex, hand-crafted pipelines for
gaze target estimation that carefully fuse features from separate scene
encoders, head encoders, and auxiliary models for signals like depth and pose.
Motivated by the success of general-purpose feature extractors on a variety of
visual tasks, we propose Gaze-LLE, a novel transformer framework that
streamlines gaze target estimation by leveraging features from a frozen DINOv2
encoder. We extract a single feature representation for the scene, and apply a
person-specific positional prompt to decode gaze with a lightweight module. We
demonstrate state-of-the-art performance across several gaze benchmarks and
provide extensive analysis to validate our design choices. Our code is
available at: http://github.com/fkryan/gazelle .Summary
AI-Generated Summary