MMFactory: un motore di ricerca universale per la soluzione di compiti visione-linguaggio
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks
December 24, 2024
Autori: Wan-Cyuan Fan, Tanzila Rahman, Leonid Sigal
cs.AI
Abstract
Con i progressi nei modelli fondamentali e visione-linguaggio, e nelle tecniche efficaci di fine-tuning, è stato sviluppato un gran numero di modelli sia generali che specializzati per una varietà di compiti visivi. Nonostante la flessibilità e l'accessibilità di questi modelli, nessun singolo modello è in grado di gestire tutti i compiti e/o le applicazioni che potrebbero essere immaginate dagli utenti potenziali. Approcci recenti, come la programmazione visuale e i LLM multimodali con strumenti integrati, mirano a affrontare compiti visivi complessi, tramite la sintesi di programmi. Tuttavia, tali approcci trascurano i vincoli degli utenti (ad esempio, prestazioni/esigenze computazionali), producono soluzioni specifiche per campioni di test che sono difficili da implementare e, a volte, richiedono istruzioni a basso livello che potrebbero essere al di là delle capacità di un utente ingenuo. Per affrontare queste limitazioni, presentiamo MMFactory, un framework universale che include componenti di instradamento di modelli e metriche, agendo come un motore di ricerca di soluzioni attraverso vari modelli disponibili. Sulla base di una descrizione del compito e di poche coppie di input-output di esempio e (opzionalmente) vincoli di risorse e/o prestazioni, MMFactory può suggerire un ampio pool di soluzioni programmatiche istanziando e combinando strumenti visio-linguistici dal suo repository di modelli. Oltre a sintetizzare queste soluzioni, MMFactory propone anche metriche e valuta le caratteristiche delle prestazioni/risorse, consentendo agli utenti di scegliere una soluzione che soddisfi i loro vincoli di progettazione unici. Dal punto di vista tecnico, abbiamo anche introdotto un proposizione di soluzione basata su un comitato che sfrutta la conversazione LLM multi-agente per generare soluzioni eseguibili, diverse, universali e robuste per l'utente. I risultati sperimentali mostrano che MMFactory supera i metodi esistenti fornendo soluzioni all'avanguardia adattate alle specifiche del problema dell'utente. La pagina del progetto è disponibile su https://davidhalladay.github.io/mmfactory_demo.
English
With advances in foundational and vision-language models, and effective
fine-tuning techniques, a large number of both general and special-purpose
models have been developed for a variety of visual tasks. Despite the
flexibility and accessibility of these models, no single model is able to
handle all tasks and/or applications that may be envisioned by potential users.
Recent approaches, such as visual programming and multimodal LLMs with
integrated tools aim to tackle complex visual tasks, by way of program
synthesis. However, such approaches overlook user constraints (e.g.,
performance / computational needs), produce test-time sample-specific solutions
that are difficult to deploy, and, sometimes, require low-level instructions
that maybe beyond the abilities of a naive user. To address these limitations,
we introduce MMFactory, a universal framework that includes model and metrics
routing components, acting like a solution search engine across various
available models. Based on a task description and few sample input-output pairs
and (optionally) resource and/or performance constraints, MMFactory can suggest
a diverse pool of programmatic solutions by instantiating and combining
visio-lingual tools from its model repository. In addition to synthesizing
these solutions, MMFactory also proposes metrics and benchmarks performance /
resource characteristics, allowing users to pick a solution that meets their
unique design constraints. From the technical perspective, we also introduced a
committee-based solution proposer that leverages multi-agent LLM conversation
to generate executable, diverse, universal, and robust solutions for the user.
Experimental results show that MMFactory outperforms existing methods by
delivering state-of-the-art solutions tailored to user problem specifications.
Project page is available at https://davidhalladay.github.io/mmfactory_demo.Summary
AI-Generated Summary