SocialGPT: Aufforderung von LLMs zur sozialen Beziehungsbegründung durch gierige Segmentoptimierung
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization
October 28, 2024
Autoren: Wanhua Li, Zibin Meng, Jiawei Zhou, Donglai Wei, Chuang Gan, Hanspeter Pfister
cs.AI
Zusammenfassung
Die soziale Beziehungsbegründung zielt darauf ab, Beziehungskategorien wie Freunde, Ehepartner und Kollegen aus Bildern zu identifizieren. Während aktuelle Methoden das Paradigma der Schulung eines dedizierten Netzwerks von Anfang bis Ende unter Verwendung von etikettierten Bilddaten übernehmen, sind sie in Bezug auf Generalisierbarkeit und Interpretierbarkeit begrenzt. Um diese Probleme anzugehen, präsentieren wir zunächst ein einfaches, aber gut durchdachtes Framework namens {\name}, das die Wahrnehmungsfähigkeit von Vision Foundation Models (VFMs) und die Argumentationsfähigkeit von Large Language Models (LLMs) innerhalb eines modularen Frameworks kombiniert und eine starke Grundlinie für die soziale Beziehungserkennung bietet. Speziell weisen wir VFMs an, den Bildinhalt in eine textuelle soziale Geschichte zu übersetzen, und nutzen dann LLMs für textbasierte Argumentation. {\name} führt systematische Designprinzipien ein, um VFMs und LLMs getrennt anzupassen und ihre Unterschiede zu überbrücken. Ohne zusätzliches Modelltraining erzielt es wettbewerbsfähige Nullschuss-Ergebnisse auf zwei Datenbanken und bietet interpretierbare Antworten, da LLMs sprachbasierte Erklärungen für die Entscheidungen generieren können. Der manuelle Entwurfsprozess für LLMs in der Argumentationsphase ist mühsam, und eine automatisierte Optimierungsmethode für den Hinweis ist erwünscht. Da wir im Wesentlichen eine visuelle Klassifizierungsaufgabe in eine generative Aufgabe von LLMs umwandeln, stößt die automatische Hinweisoptimierung auf ein einzigartiges Problem der langen Hinweisoptimierung. Um dieses Problem anzugehen, schlagen wir weiterhin die Greedy Segment Prompt Optimization (GSPO) vor, die eine gierige Suche durchführt, indem sie Gradienteninformationen auf Segmentebene nutzt. Experimentelle Ergebnisse zeigen, dass GSPO die Leistung signifikant verbessert, und unsere Methode generalisiert auch auf verschiedene Bildstile. Der Code ist verfügbar unter https://github.com/Mengzibin/SocialGPT.
English
Social relation reasoning aims to identify relation categories such as
friends, spouses, and colleagues from images. While current methods adopt the
paradigm of training a dedicated network end-to-end using labeled image data,
they are limited in terms of generalizability and interpretability. To address
these issues, we first present a simple yet well-crafted framework named
{\name}, which combines the perception capability of Vision Foundation Models
(VFMs) and the reasoning capability of Large Language Models (LLMs) within a
modular framework, providing a strong baseline for social relation recognition.
Specifically, we instruct VFMs to translate image content into a textual social
story, and then utilize LLMs for text-based reasoning. {\name} introduces
systematic design principles to adapt VFMs and LLMs separately and bridge their
gaps. Without additional model training, it achieves competitive zero-shot
results on two databases while offering interpretable answers, as LLMs can
generate language-based explanations for the decisions. The manual prompt
design process for LLMs at the reasoning phase is tedious and an automated
prompt optimization method is desired. As we essentially convert a visual
classification task into a generative task of LLMs, automatic prompt
optimization encounters a unique long prompt optimization issue. To address
this issue, we further propose the Greedy Segment Prompt Optimization (GSPO),
which performs a greedy search by utilizing gradient information at the segment
level. Experimental results show that GSPO significantly improves performance,
and our method also generalizes to different image styles. The code is
available at https://github.com/Mengzibin/SocialGPT.Summary
AI-Generated Summary