MMFactory: Um Motor de Busca de Soluções Universais para Tarefas de Visão e Linguagem.
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks
December 24, 2024
Autores: Wan-Cyuan Fan, Tanzila Rahman, Leonid Sigal
cs.AI
Resumo
Com os avanços em modelos fundamentais e de visão-linguagem, e técnicas eficazes de ajuste fino, foi desenvolvido um grande número de modelos tanto gerais quanto de propósito específico para uma variedade de tarefas visuais. Apesar da flexibilidade e acessibilidade desses modelos, nenhum modelo único é capaz de lidar com todas as tarefas e/ou aplicações que podem ser imaginadas pelos usuários potenciais. Abordagens recentes, como programação visual e LLMs multimodais com ferramentas integradas, têm como objetivo lidar com tarefas visuais complexas, por meio da síntese de programas. No entanto, tais abordagens ignoram as restrições do usuário (por exemplo, desempenho/necessidades computacionais), produzem soluções específicas de amostra no tempo de teste que são difíceis de implantar e, às vezes, exigem instruções de baixo nível que podem estar além das habilidades de um usuário inexperiente. Para lidar com essas limitações, apresentamos o MMFactory, um framework universal que inclui componentes de roteamento de modelo e métricas, atuando como um mecanismo de busca de soluções entre vários modelos disponíveis. Com base em uma descrição da tarefa e em poucos pares de entrada-saída de amostra e (opcionalmente) restrições de recursos e/ou desempenho, o MMFactory pode sugerir um conjunto diversificado de soluções programáticas instanciando e combinando ferramentas visio-linguais de seu repositório de modelos. Além de sintetizar essas soluções, o MMFactory também propõe métricas e avalia o desempenho/características de recursos, permitindo que os usuários escolham uma solução que atenda às suas restrições de design exclusivas. Do ponto de vista técnico, também introduzimos um proponente de solução baseado em comitê que aproveita a conversa LLM multiagente para gerar soluções executáveis, diversas, universais e robustas para o usuário. Os resultados experimentais mostram que o MMFactory supera os métodos existentes ao fornecer soluções de ponta adaptadas às especificações do problema do usuário. A página do projeto está disponível em https://davidhalladay.github.io/mmfactory_demo.
English
With advances in foundational and vision-language models, and effective
fine-tuning techniques, a large number of both general and special-purpose
models have been developed for a variety of visual tasks. Despite the
flexibility and accessibility of these models, no single model is able to
handle all tasks and/or applications that may be envisioned by potential users.
Recent approaches, such as visual programming and multimodal LLMs with
integrated tools aim to tackle complex visual tasks, by way of program
synthesis. However, such approaches overlook user constraints (e.g.,
performance / computational needs), produce test-time sample-specific solutions
that are difficult to deploy, and, sometimes, require low-level instructions
that maybe beyond the abilities of a naive user. To address these limitations,
we introduce MMFactory, a universal framework that includes model and metrics
routing components, acting like a solution search engine across various
available models. Based on a task description and few sample input-output pairs
and (optionally) resource and/or performance constraints, MMFactory can suggest
a diverse pool of programmatic solutions by instantiating and combining
visio-lingual tools from its model repository. In addition to synthesizing
these solutions, MMFactory also proposes metrics and benchmarks performance /
resource characteristics, allowing users to pick a solution that meets their
unique design constraints. From the technical perspective, we also introduced a
committee-based solution proposer that leverages multi-agent LLM conversation
to generate executable, diverse, universal, and robust solutions for the user.
Experimental results show that MMFactory outperforms existing methods by
delivering state-of-the-art solutions tailored to user problem specifications.
Project page is available at https://davidhalladay.github.io/mmfactory_demo.Summary
AI-Generated Summary