MMFactory: Um Motor de Busca de Soluções Universais para Tarefas de Visão e Linguagem.

MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

December 24, 2024
Autores: Wan-Cyuan Fan, Tanzila Rahman, Leonid Sigal
cs.AI

Resumo

Com os avanços em modelos fundamentais e de visão-linguagem, e técnicas eficazes de ajuste fino, foi desenvolvido um grande número de modelos tanto gerais quanto de propósito específico para uma variedade de tarefas visuais. Apesar da flexibilidade e acessibilidade desses modelos, nenhum modelo único é capaz de lidar com todas as tarefas e/ou aplicações que podem ser imaginadas pelos usuários potenciais. Abordagens recentes, como programação visual e LLMs multimodais com ferramentas integradas, têm como objetivo lidar com tarefas visuais complexas, por meio da síntese de programas. No entanto, tais abordagens ignoram as restrições do usuário (por exemplo, desempenho/necessidades computacionais), produzem soluções específicas de amostra no tempo de teste que são difíceis de implantar e, às vezes, exigem instruções de baixo nível que podem estar além das habilidades de um usuário inexperiente. Para lidar com essas limitações, apresentamos o MMFactory, um framework universal que inclui componentes de roteamento de modelo e métricas, atuando como um mecanismo de busca de soluções entre vários modelos disponíveis. Com base em uma descrição da tarefa e em poucos pares de entrada-saída de amostra e (opcionalmente) restrições de recursos e/ou desempenho, o MMFactory pode sugerir um conjunto diversificado de soluções programáticas instanciando e combinando ferramentas visio-linguais de seu repositório de modelos. Além de sintetizar essas soluções, o MMFactory também propõe métricas e avalia o desempenho/características de recursos, permitindo que os usuários escolham uma solução que atenda às suas restrições de design exclusivas. Do ponto de vista técnico, também introduzimos um proponente de solução baseado em comitê que aproveita a conversa LLM multiagente para gerar soluções executáveis, diversas, universais e robustas para o usuário. Os resultados experimentais mostram que o MMFactory supera os métodos existentes ao fornecer soluções de ponta adaptadas às especificações do problema do usuário. A página do projeto está disponível em https://davidhalladay.github.io/mmfactory_demo.
English
With advances in foundational and vision-language models, and effective fine-tuning techniques, a large number of both general and special-purpose models have been developed for a variety of visual tasks. Despite the flexibility and accessibility of these models, no single model is able to handle all tasks and/or applications that may be envisioned by potential users. Recent approaches, such as visual programming and multimodal LLMs with integrated tools aim to tackle complex visual tasks, by way of program synthesis. However, such approaches overlook user constraints (e.g., performance / computational needs), produce test-time sample-specific solutions that are difficult to deploy, and, sometimes, require low-level instructions that maybe beyond the abilities of a naive user. To address these limitations, we introduce MMFactory, a universal framework that includes model and metrics routing components, acting like a solution search engine across various available models. Based on a task description and few sample input-output pairs and (optionally) resource and/or performance constraints, MMFactory can suggest a diverse pool of programmatic solutions by instantiating and combining visio-lingual tools from its model repository. In addition to synthesizing these solutions, MMFactory also proposes metrics and benchmarks performance / resource characteristics, allowing users to pick a solution that meets their unique design constraints. From the technical perspective, we also introduced a committee-based solution proposer that leverages multi-agent LLM conversation to generate executable, diverse, universal, and robust solutions for the user. Experimental results show that MMFactory outperforms existing methods by delivering state-of-the-art solutions tailored to user problem specifications. Project page is available at https://davidhalladay.github.io/mmfactory_demo.

Summary

AI-Generated Summary

PDF172December 27, 2024