MMFactory: un motore di ricerca universale per la soluzione di compiti visione-linguaggio

Abstract

Con i progressi nei modelli fondamentali e visione-linguaggio, e nelle tecniche efficaci di fine-tuning, è stato sviluppato un gran numero di modelli sia generali che specializzati per una varietà di compiti visivi. Nonostante la flessibilità e l'accessibilità di questi modelli, nessun singolo modello è in grado di gestire tutti i compiti e/o le applicazioni che potrebbero essere immaginate dagli utenti potenziali. Approcci recenti, come la programmazione visuale e i LLM multimodali con strumenti integrati, mirano a affrontare compiti visivi complessi, tramite la sintesi di programmi. Tuttavia, tali approcci trascurano i vincoli degli utenti (ad esempio, prestazioni/esigenze computazionali), producono soluzioni specifiche per campioni di test che sono difficili da implementare e, a volte, richiedono istruzioni a basso livello che potrebbero essere al di là delle capacità di un utente ingenuo. Per affrontare queste limitazioni, presentiamo MMFactory, un framework universale che include componenti di instradamento di modelli e metriche, agendo come un motore di ricerca di soluzioni attraverso vari modelli disponibili. Sulla base di una descrizione del compito e di poche coppie di input-output di esempio e (opzionalmente) vincoli di risorse e/o prestazioni, MMFactory può suggerire un ampio pool di soluzioni programmatiche istanziando e combinando strumenti visio-linguistici dal suo repository di modelli. Oltre a sintetizzare queste soluzioni, MMFactory propone anche metriche e valuta le caratteristiche delle prestazioni/risorse, consentendo agli utenti di scegliere una soluzione che soddisfi i loro vincoli di progettazione unici. Dal punto di vista tecnico, abbiamo anche introdotto un proposizione di soluzione basata su un comitato che sfrutta la conversazione LLM multi-agente per generare soluzioni eseguibili, diverse, universali e robuste per l'utente. I risultati sperimentali mostrano che MMFactory supera i metodi esistenti fornendo soluzioni all'avanguardia adattate alle specifiche del problema dell'utente. La pagina del progetto è disponibile su https://davidhalladay.github.io/mmfactory_demo.

English

With advances in foundational and vision-language models, and effective fine-tuning techniques, a large number of both general and special-purpose models have been developed for a variety of visual tasks. Despite the flexibility and accessibility of these models, no single model is able to handle all tasks and/or applications that may be envisioned by potential users. Recent approaches, such as visual programming and multimodal LLMs with integrated tools aim to tackle complex visual tasks, by way of program synthesis. However, such approaches overlook user constraints (e.g., performance / computational needs), produce test-time sample-specific solutions that are difficult to deploy, and, sometimes, require low-level instructions that maybe beyond the abilities of a naive user. To address these limitations, we introduce MMFactory, a universal framework that includes model and metrics routing components, acting like a solution search engine across various available models. Based on a task description and few sample input-output pairs and (optionally) resource and/or performance constraints, MMFactory can suggest a diverse pool of programmatic solutions by instantiating and combining visio-lingual tools from its model repository. In addition to synthesizing these solutions, MMFactory also proposes metrics and benchmarks performance / resource characteristics, allowing users to pick a solution that meets their unique design constraints. From the technical perspective, we also introduced a committee-based solution proposer that leverages multi-agent LLM conversation to generate executable, diverse, universal, and robust solutions for the user. Experimental results show that MMFactory outperforms existing methods by delivering state-of-the-art solutions tailored to user problem specifications. Project page is available at https://davidhalladay.github.io/mmfactory_demo.

MMFactory: un motore di ricerca universale per la soluzione di compiti visione-linguaggio

MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Abstract

Support