ChatPaper.aiChatPaper

Comprendere i gesti co-verbali in contesti reali

Understanding Co-speech Gestures in-the-wild

March 28, 2025
Autori: Sindhu B Hegde, K R Prajwal, Taein Kwon, Andrew Zisserman
cs.AI

Abstract

I gesti co-verbali svolgono un ruolo cruciale nella comunicazione non verbale. In questo articolo, introduciamo un nuovo framework per la comprensione dei gesti co-verbali in contesti reali. Nello specifico, proponiamo tre nuovi task e benchmark per valutare la capacità di un modello di comprendere le associazioni tra gesti, testo e parlato: (i) retrieval basato sui gesti, (ii) individuazione di parole accompagnate da gesti e (iii) rilevamento del parlante attivo mediante gesti. Presentiamo un nuovo approccio che apprende una rappresentazione tri-modale parlato-testo-video-gesti per risolvere questi task. Sfruttando una combinazione di perdita contrastiva globale a livello di frase e perdita di accoppiamento locale gesto-parola, dimostriamo che è possibile apprendere una forte rappresentazione dei gesti in modo debolmente supervisionato da video in contesti reali. Le nostre rappresentazioni apprese superano i metodi precedenti, inclusi i grandi modelli visione-linguaggio (VLMs), in tutti e tre i task. Un'ulteriore analisi rivela che le modalità parlato e testo catturano segnali distinti relativi ai gesti, sottolineando i vantaggi dell'apprendimento di uno spazio di embedding condiviso tri-modale. Il dataset, il modello e il codice sono disponibili al seguente indirizzo: https://www.robots.ox.ac.uk/~vgg/research/jegal
English
Co-speech gestures play a vital role in non-verbal communication. In this paper, we introduce a new framework for co-speech gesture understanding in the wild. Specifically, we propose three new tasks and benchmarks to evaluate a model's capability to comprehend gesture-text-speech associations: (i) gesture-based retrieval, (ii) gestured word spotting, and (iii) active speaker detection using gestures. We present a new approach that learns a tri-modal speech-text-video-gesture representation to solve these tasks. By leveraging a combination of global phrase contrastive loss and local gesture-word coupling loss, we demonstrate that a strong gesture representation can be learned in a weakly supervised manner from videos in the wild. Our learned representations outperform previous methods, including large vision-language models (VLMs), across all three tasks. Further analysis reveals that speech and text modalities capture distinct gesture-related signals, underscoring the advantages of learning a shared tri-modal embedding space. The dataset, model, and code are available at: https://www.robots.ox.ac.uk/~vgg/research/jegal

Summary

AI-Generated Summary

PDF12April 1, 2025