SocialGPT : Inciter les LLMs à raisonner sur les relations sociales via l'optimisation de segments gloutonne
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization
October 28, 2024
Auteurs: Wanhua Li, Zibin Meng, Jiawei Zhou, Donglai Wei, Chuang Gan, Hanspeter Pfister
cs.AI
Résumé
La raison sociale vise à identifier des catégories de relations telles que les amis, les conjoints et les collègues à partir d'images. Alors que les méthodes actuelles adoptent le paradigme de l'entraînement d'un réseau dédié de bout en bout en utilisant des données d'images étiquetées, elles sont limitées en termes de généralisabilité et d'interprétabilité. Pour résoudre ces problèmes, nous présentons d'abord un cadre simple mais bien conçu nommé {\name}, qui combine la capacité de perception des Modèles Fondamentaux de Vision (VFMs) et la capacité de raisonnement des Grands Modèles de Langage (LLMs) au sein d'un cadre modulaire, offrant une base solide pour la reconnaissance des relations sociales. Plus précisément, nous instruisons les VFMs pour traduire le contenu de l'image en une histoire sociale textuelle, puis utilisons les LLMs pour le raisonnement basé sur le texte. {\name} introduit des principes de conception systématiques pour adapter les VFMs et les LLMs séparément et combler leurs écarts. Sans entraînement supplémentaire du modèle, il obtient des résultats compétitifs en zéro-shot sur deux bases de données tout en offrant des réponses interprétables, car les LLMs peuvent générer des explications basées sur le langage pour les décisions. Le processus de conception manuelle des invites pour les LLMs à la phase de raisonnement est fastidieux et une méthode d'optimisation automatique des invites est souhaitée. Comme nous convertissons essentiellement une tâche de classification visuelle en une tâche générative des LLMs, l'optimisation automatique des invites rencontre un problème unique d'optimisation de longues invites. Pour résoudre ce problème, nous proposons en outre l'Optimisation d'Invite de Segment Avide (GSPO), qui effectue une recherche avide en utilisant les informations de gradient au niveau du segment. Les résultats expérimentaux montrent que le GSPO améliore significativement les performances, et notre méthode se généralise également à différents styles d'images. Le code est disponible sur https://github.com/Mengzibin/SocialGPT.
English
Social relation reasoning aims to identify relation categories such as
friends, spouses, and colleagues from images. While current methods adopt the
paradigm of training a dedicated network end-to-end using labeled image data,
they are limited in terms of generalizability and interpretability. To address
these issues, we first present a simple yet well-crafted framework named
{\name}, which combines the perception capability of Vision Foundation Models
(VFMs) and the reasoning capability of Large Language Models (LLMs) within a
modular framework, providing a strong baseline for social relation recognition.
Specifically, we instruct VFMs to translate image content into a textual social
story, and then utilize LLMs for text-based reasoning. {\name} introduces
systematic design principles to adapt VFMs and LLMs separately and bridge their
gaps. Without additional model training, it achieves competitive zero-shot
results on two databases while offering interpretable answers, as LLMs can
generate language-based explanations for the decisions. The manual prompt
design process for LLMs at the reasoning phase is tedious and an automated
prompt optimization method is desired. As we essentially convert a visual
classification task into a generative task of LLMs, automatic prompt
optimization encounters a unique long prompt optimization issue. To address
this issue, we further propose the Greedy Segment Prompt Optimization (GSPO),
which performs a greedy search by utilizing gradient information at the segment
level. Experimental results show that GSPO significantly improves performance,
and our method also generalizes to different image styles. The code is
available at https://github.com/Mengzibin/SocialGPT.Summary
AI-Generated Summary