SocialGPT: Het aansturen van LLM's voor redeneren over sociale relaties via hebzuchtige segmentoptimalisatie.
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization
October 28, 2024
Auteurs: Wanhua Li, Zibin Meng, Jiawei Zhou, Donglai Wei, Chuang Gan, Hanspeter Pfister
cs.AI
Samenvatting
Het redeneren over sociale relaties heeft tot doel relatiecategorieën zoals vrienden, echtgenoten en collega's te identificeren op basis van afbeeldingen. Terwijl huidige methoden het paradigma volgen van het trainen van een toegewijd netwerk van begin tot eind met gelabelde beelddata, zijn ze beperkt qua generaliseerbaarheid en interpreteerbaarheid. Om deze kwesties aan te pakken, presenteren we eerst een eenvoudig maar goed doordacht kader genaamd {\name}, dat de perceptievermogen van Vision Foundation Models (VFMs) en het redeneervermogen van Large Language Models (LLMs) combineert binnen een modulair kader, wat een sterke basis biedt voor het herkennen van sociale relaties. Specifiek instrueren we VFMs om de inhoud van afbeeldingen te vertalen naar een tekstueel sociaal verhaal, en gebruiken we vervolgens LLMs voor tekstgebaseerd redeneren. {\name} introduceert systematische ontwerpprincipes om VFMs en LLMs afzonderlijk aan te passen en hun kloven te overbruggen. Zonder extra modeltraining behaalt het competitieve zero-shot resultaten op twee databases en biedt het interpreteerbare antwoorden, aangezien LLMs op taal gebaseerde verklaringen kunnen genereren voor de beslissingen. Het handmatige promptontwerpproces voor LLMs in de redeneerfase is tijdrovend en een geautomatiseerde promptoptimalisatiemethode is gewenst. Aangezien we in feite een visuele classificatietaak omzetten in een generatieve taak van LLMs, ondervindt automatische promptoptimalisatie een uniek lang promptoptimalisatieprobleem. Om dit probleem aan te pakken, stellen we verder de Greedy Segment Prompt Optimization (GSPO) voor, die een hebzuchtige zoektocht uitvoert door gebruik te maken van gradientinformatie op segmentniveau. Experimentele resultaten tonen aan dat GSPO de prestaties aanzienlijk verbetert, en onze methode generaliseert ook naar verschillende beeldstijlen. De code is beschikbaar op https://github.com/Mengzibin/SocialGPT.
English
Social relation reasoning aims to identify relation categories such as
friends, spouses, and colleagues from images. While current methods adopt the
paradigm of training a dedicated network end-to-end using labeled image data,
they are limited in terms of generalizability and interpretability. To address
these issues, we first present a simple yet well-crafted framework named
{\name}, which combines the perception capability of Vision Foundation Models
(VFMs) and the reasoning capability of Large Language Models (LLMs) within a
modular framework, providing a strong baseline for social relation recognition.
Specifically, we instruct VFMs to translate image content into a textual social
story, and then utilize LLMs for text-based reasoning. {\name} introduces
systematic design principles to adapt VFMs and LLMs separately and bridge their
gaps. Without additional model training, it achieves competitive zero-shot
results on two databases while offering interpretable answers, as LLMs can
generate language-based explanations for the decisions. The manual prompt
design process for LLMs at the reasoning phase is tedious and an automated
prompt optimization method is desired. As we essentially convert a visual
classification task into a generative task of LLMs, automatic prompt
optimization encounters a unique long prompt optimization issue. To address
this issue, we further propose the Greedy Segment Prompt Optimization (GSPO),
which performs a greedy search by utilizing gradient information at the segment
level. Experimental results show that GSPO significantly improves performance,
and our method also generalizes to different image styles. The code is
available at https://github.com/Mengzibin/SocialGPT.Summary
AI-Generated Summary