SocialGPT: Sollecitare LLM per il Ragionamento sulle Relazioni Sociali tramite Ottimizzazione Greedy dei Segmenti
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization
October 28, 2024
Autori: Wanhua Li, Zibin Meng, Jiawei Zhou, Donglai Wei, Chuang Gan, Hanspeter Pfister
cs.AI
Abstract
Il ragionamento sulle relazioni sociali mira a identificare categorie di relazioni come amici, coniugi e colleghi dalle immagini. Mentre i metodi attuali adottano il paradigma di addestrare una rete dedicata end-to-end utilizzando dati di immagini etichettati, sono limitati in termini di generalizzabilità e interpretabilità. Per affrontare questi problemi, presentiamo innanzitutto un framework semplice ma ben strutturato chiamato {\name}, che combina la capacità di percezione dei Modelli di Base Visiva (VFMs) e la capacità di ragionamento dei Grandi Modelli Linguistici (LLMs) all'interno di un framework modulare, fornendo una solida base per il riconoscimento delle relazioni sociali. In particolare, istruiremo i VFMs a tradurre il contenuto dell'immagine in una storia sociale testuale, e poi utilizzeremo i LLMs per il ragionamento basato sul testo. {\name} introduce principi di progettazione sistematici per adattare i VFMs e i LLMs separatamente e colmare le loro lacune. Senza ulteriore addestramento del modello, ottiene risultati competitivi zero-shot su due database offrendo risposte interpretabili, poiché i LLMs possono generare spiegazioni basate sul linguaggio per le decisioni. Il processo di progettazione manuale dei prompt per i LLMs nella fase di ragionamento è noioso e si desidera un metodo automatizzato di ottimizzazione dei prompt. Poiché convertiamo essenzialmente un compito di classificazione visiva in un compito generativo dei LLMs, l'ottimizzazione automatica dei prompt si trova di fronte a un problema unico di ottimizzazione del prompt a lungo termine. Per affrontare questo problema, proponiamo inoltre l'Ottimizzazione del Prompt a Segmenti Greedy (GSPO), che esegue una ricerca avida utilizzando informazioni sul gradiente a livello di segmento. I risultati sperimentali mostrano che GSPO migliora significativamente le prestazioni, e il nostro metodo si generalizza anche a diversi stili di immagini. Il codice è disponibile su https://github.com/Mengzibin/SocialGPT.
English
Social relation reasoning aims to identify relation categories such as
friends, spouses, and colleagues from images. While current methods adopt the
paradigm of training a dedicated network end-to-end using labeled image data,
they are limited in terms of generalizability and interpretability. To address
these issues, we first present a simple yet well-crafted framework named
{\name}, which combines the perception capability of Vision Foundation Models
(VFMs) and the reasoning capability of Large Language Models (LLMs) within a
modular framework, providing a strong baseline for social relation recognition.
Specifically, we instruct VFMs to translate image content into a textual social
story, and then utilize LLMs for text-based reasoning. {\name} introduces
systematic design principles to adapt VFMs and LLMs separately and bridge their
gaps. Without additional model training, it achieves competitive zero-shot
results on two databases while offering interpretable answers, as LLMs can
generate language-based explanations for the decisions. The manual prompt
design process for LLMs at the reasoning phase is tedious and an automated
prompt optimization method is desired. As we essentially convert a visual
classification task into a generative task of LLMs, automatic prompt
optimization encounters a unique long prompt optimization issue. To address
this issue, we further propose the Greedy Segment Prompt Optimization (GSPO),
which performs a greedy search by utilizing gradient information at the segment
level. Experimental results show that GSPO significantly improves performance,
and our method also generalizes to different image styles. The code is
available at https://github.com/Mengzibin/SocialGPT.Summary
AI-Generated Summary