Onthouden, Ophalen en Genereren: Het Begrijpen van Oneindige Visuele Concepten als Jouw Gepersonaliseerde Assistent

Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant

October 17, 2024
Auteurs: Haoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue
cs.AI

Samenvatting

De ontwikkeling van grote taalmodellen (LLM's) heeft aanzienlijk bijgedragen aan de mogelijkheden van multimodale LLM's (MLLM's) als algemene assistenten. Echter, het gebrek aan gebruikersspecifieke kennis beperkt nog steeds hun toepassing in het dagelijks leven van mensen. In dit artikel introduceren we het Retrieval Augmented Personalization (RAP) framework voor de personalisatie van MLLM's. Uitgaande van een algemene MLLM, transformeren we deze in drie stappen tot een gepersonaliseerde assistent. (a) Onthouden: We ontwerpen een sleutel-waarde database om gebruikersgerelateerde informatie op te slaan, zoals de naam van de gebruiker, avatar en andere attributen. (b) Ophalen: Wanneer de gebruiker een gesprek start, zal RAP relevante informatie uit de database halen met behulp van een multimodale retriever. (c) Genereren: De invoervraag en de opgehaalde informatie van concepten worden door MLLM's gevoerd om gepersonaliseerde, kennisverrijkte antwoorden te genereren. In tegenstelling tot eerdere methoden, maakt RAP real-time conceptbewerking mogelijk door het bijwerken van de externe database. Om de generatiekwaliteit verder te verbeteren en afstemming met gebruikersspecifieke informatie te bereiken, ontwerpen we een pijplijn voor gegevensverzameling en creëren we een gespecialiseerde dataset voor de gepersonaliseerde training van MLLM's. Op basis van de dataset trainen we een reeks MLLM's als gepersonaliseerde multimodale assistenten. Door vooraf te trainen op een grootschalige dataset, kunnen RAP-MLLM's generaliseren naar oneindige visuele concepten zonder extra finetuning. Onze modellen tonen uitstekende flexibiliteit en generatiekwaliteit over een verscheidenheid aan taken, zoals gepersonaliseerde beeldbijschriften, vraagbeantwoording en visuele herkenning. De code, gegevens en modellen zijn beschikbaar op https://github.com/Hoar012/RAP-MLLM.
English
The development of large language models (LLMs) has significantly enhanced the capabilities of multimodal LLMs (MLLMs) as general assistants. However, lack of user-specific knowledge still restricts their application in human's daily life. In this paper, we introduce the Retrieval Augmented Personalization (RAP) framework for MLLMs' personalization. Starting from a general MLLM, we turn it into a personalized assistant in three steps. (a) Remember: We design a key-value database to store user-related information, e.g., user's name, avatar and other attributes. (b) Retrieve: When the user initiates a conversation, RAP will retrieve relevant information from the database using a multimodal retriever. (c) Generate: The input query and retrieved concepts' information are fed into MLLMs to generate personalized, knowledge-augmented responses. Unlike previous methods, RAP allows real-time concept editing via updating the external database. To further improve generation quality and alignment with user-specific information, we design a pipeline for data collection and create a specialized dataset for personalized training of MLLMs. Based on the dataset, we train a series of MLLMs as personalized multimodal assistants. By pretraining on large-scale dataset, RAP-MLLMs can generalize to infinite visual concepts without additional finetuning. Our models demonstrate outstanding flexibility and generation quality across a variety of tasks, such as personalized image captioning, question answering and visual recognition. The code, data and models are available at https://github.com/Hoar012/RAP-MLLM.

Summary

AI-Generated Summary

PDF82November 16, 2024