Artigos de pesquisa em IA selecionados diariamente com traduções
Embora os grandes modelos de linguagem (LLMs) baseados em raciocínio tenham se destacado em matemática e programação, suas capacidades em tarefas de questionamento médico intensivas em conhecimento permanecem pouco exploradas. Para abordar isso, introduzimos o ReasonMed, o maior conjunto de dados de raciocínio médico, composto por 370 mil exemplos de alta qualidade, destilados a partir de 1,7 milhão de caminhos de raciocínio iniciais gerados por diversos LLMs. O ReasonMed é construído por meio de um processo de verificação e refinamento multiagente, no qual projetamos um Refinador de Erros para aprimorar os caminhos de raciocínio, identificando e corrigindo etapas propensas a erros sinalizadas por um verificador. Utilizando o ReasonMed, investigamos sistematicamente as melhores práticas para treinar modelos de raciocínio médico e descobrimos que combinar raciocínios detalhados de Chain-of-Thought (CoT) com resumos concisos de respostas resulta na estratégia de ajuste fino mais eficaz. Com base nessa estratégia, treinamos o ReasonMed-7B, que estabelece um novo padrão para modelos com menos de 10 bilhões de parâmetros, superando o melhor modelo anterior em 4,17% e até mesmo excedendo o LLaMA3.1-70B no PubMedQA em 4,60%.
A construção de conjuntos de dados em grande escala para a tarefa de resolução de problemas no GitHub é crucial tanto para o treinamento quanto para a avaliação das capacidades de engenharia de software dos Modelos de Linguagem de Grande Escala (LLMs). No entanto, o processo tradicional para a criação de tais benchmarks é notoriamente desafiador e intensivo em mão de obra, especialmente nas etapas de configuração de ambientes de avaliação, classificação dos resultados dos testes e validação das instâncias de tarefas. Neste artigo, propomos o SWE-Factory, um pipeline automatizado projetado para enfrentar esses desafios. Para resolver esses problemas, nosso pipeline integra três componentes automatizados principais. Primeiro, apresentamos o SWE-Builder, um sistema multiagente que automatiza a construção do ambiente de avaliação, empregando quatro agentes especializados que trabalham em um ciclo colaborativo e iterativo e utilizam um pool de memória de ambiente para aumentar a eficiência. Segundo, introduzimos um método de classificação padronizado baseado em códigos de saída, que elimina a necessidade de escrever manualmente parsers personalizados. Por fim, automatizamos o processo de validação fail2pass utilizando esses sinais confiáveis de códigos de saída. Experimentos com 671 problemas em quatro linguagens de programação mostram que nosso pipeline pode construir efetivamente instâncias de tarefas válidas; por exemplo, com o GPT-4.1-mini, nosso SWE-Builder constrói 269 instâncias válidas a um custo de 0,045 por instância, enquanto com o Gemini-2.5-flash, ele alcança um desempenho comparável ao menor custo de 0,024 por instância. Também demonstramos que nossa classificação baseada em códigos de saída alcança 100% de precisão em comparação com a inspeção manual, e nossa validação automatizada fail2pass atinge uma precisão de 0,92 e um recall de 1,00. Esperamos que nosso pipeline automatizado acelere a coleta de conjuntos de dados de resolução de problemas no GitHub em grande escala e de alta qualidade, tanto para treinamento quanto para avaliação. Nosso código e conjuntos de dados estão disponíveis em https://github.com/DeepSoftwareAnalytics/swe-factory.
A restauração de imagens visa recuperar imagens degradadas. No entanto, os métodos existentes baseados em difusão, apesar de grande sucesso na restauração de imagens naturais, frequentemente lutam para reconstruir fielmente regiões textuais em imagens degradadas. Esses métodos frequentemente geram padrões plausíveis, mas incorretos, semelhantes a texto, um fenômeno que chamamos de alucinação texto-imagem. Neste artigo, introduzimos a Restauração de Imagem Consciente de Texto (TAIR), uma nova tarefa de restauração que exige a recuperação simultânea de conteúdos visuais e fidelidade textual. Para enfrentar essa tarefa, apresentamos o SA-Text, um benchmark em larga escala de 100 mil imagens de cena de alta qualidade densamente anotadas com instâncias de texto diversas e complexas. Além disso, propomos um framework de difusão multitarefa, chamado TeReDiff, que integra características internas de modelos de difusão em um módulo de detecção de texto, permitindo que ambos os componentes se beneficiem do treinamento conjunto. Isso possibilita a extração de representações ricas de texto, que são utilizadas como prompts nas etapas subsequentes de redução de ruído. Experimentos extensivos demonstram que nossa abordagem supera consistentemente os métodos de restauração state-of-the-art, alcançando ganhos significativos na precisão de reconhecimento de texto. Veja nossa página do projeto: https://cvlab-kaist.github.io/TAIR/
Apresentamos o Magistral, o primeiro modelo de raciocínio da Mistral e nosso próprio pipeline escalável de aprendizado por reforço (RL). Em vez de depender de implementações existentes e traços de RL destilados de modelos anteriores, seguimos uma abordagem de base, contando exclusivamente com nossos próprios modelos e infraestrutura. Notavelmente, demonstramos uma pilha que nos permitiu explorar os limites do treinamento puro de RL em LLMs, apresentamos um método simples para forçar a linguagem de raciocínio do modelo e mostramos que o RL aplicado apenas a dados textuais mantém a maioria das capacidades do checkpoint inicial. Descobrimos que o RL em texto mantém ou melhora a compreensão multimodal, o seguimento de instruções e a chamada de funções. Apresentamos o Magistral Medium, treinado para raciocínio sobre o Mistral Medium 3 apenas com RL, e disponibilizamos em código aberto o Magistral Small (Apache 2.0), que inclui ainda dados de inicialização a frio do Magistral Medium.
Apesar dos rápidos avanços nos modelos de geração de vídeo, a criação de vídeos narrativos coerentes que abrangem múltiplas cenas e personagens continua sendo um desafio. Os métodos atuais frequentemente convertem de forma rígida keyframes pré-gerados em clipes de duração fixa, resultando em narrativas desconexas e problemas de ritmo. Além disso, a instabilidade inerente dos modelos de geração de vídeo significa que mesmo um único clipe de baixa qualidade pode degradar significativamente a coerência lógica e a continuidade visual de toda a animação gerada. Para superar esses obstáculos, apresentamos o AniMaker, uma estrutura multiagente que permite a geração eficiente de múltiplos candidatos de clipes e a seleção de clipes consciente da narrativa, criando assim animações globalmente consistentes e coerentes com a história a partir apenas de entrada de texto. A estrutura é organizada em torno de agentes especializados, incluindo o Agente Diretor para geração de storyboard, o Agente Fotografia para geração de clipes de vídeo, o Agente Revisor para avaliação e o Agente Pós-Produção para edição e narração. Centrais para a abordagem do AniMaker são dois componentes técnicos principais: o MCTS-Gen no Agente Fotografia, uma estratégia eficiente inspirada na Busca em Árvore de Monte Carlo (MCTS) que navega inteligentemente pelo espaço de candidatos para gerar clipes de alto potencial enquanto otimiza o uso de recursos; e o AniEval no Agente Revisor, a primeira estrutura especificamente projetada para avaliação de animações multi-shot, que avalia aspectos críticos como consistência no nível da história, conclusão de ações e características específicas da animação, considerando cada clipe no contexto de seus clipes precedentes e subsequentes. Experimentos demonstram que o AniMaker alcança qualidade superior conforme medido por métricas populares, incluindo o VBench e nossa estrutura proposta AniEval, enquanto melhora significativamente a eficiência da geração de múltiplos candidatos, aproximando a animação narrativa gerada por IA dos padrões de produção.
Apresentamos o VRBench, o primeiro benchmark de vídeos narrativos longos desenvolvido para avaliar as capacidades de raciocínio em múltiplos passos de modelos de grande escala, abordando limitações em avaliações existentes que negligenciam o raciocínio temporal e a validade procedural. Ele é composto por 1.010 vídeos longos (com duração média de 1,6 horas), juntamente com 9.468 pares de perguntas e respostas em múltiplos passos rotulados por humanos e 30.292 etapas de raciocínio com marcas de tempo. Esses vídeos são selecionados por meio de um processo de filtragem em múltiplos estágios, incluindo revisão por especialistas para priorizar a coerência do enredo. Desenvolvemos uma estrutura colaborativa humano-IA que gera cadeias de raciocínio coerentes, cada uma exigindo múltiplos passos temporalmente fundamentados, abrangendo sete tipos (por exemplo, atribuição de eventos, inferência implícita). O VRBench projeta um pipeline de avaliação multifásico que avalia os modelos tanto no nível de resultados quanto no nível de processo. Além das questões de múltipla escolha (MCQs) para os resultados finais, propomos uma métrica de pontuação guiada por LLM no nível de progresso para avaliar a qualidade da cadeia de raciocínio a partir de múltiplas dimensões de forma abrangente. Por meio de avaliações extensas de 12 LLMs e 16 VLMs no VRBench, realizamos uma análise detalhada e fornecemos insights valiosos que avançam o campo do raciocínio em múltiplos passos.
Tokens de áudio discretos são representações compactas que visam preservar a qualidade perceptual, o conteúdo fonético e as características do falante, ao mesmo tempo que permitem armazenamento e inferência eficientes, além de desempenho competitivo em diversas tarefas subsequentes. Eles oferecem uma alternativa prática aos recursos contínuos, possibilitando a integração de fala e áudio em modelos de linguagem de grande escala (LLMs). À medida que o interesse no processamento de áudio baseado em tokens cresce, diversos métodos de tokenização surgiram, e vários estudos revisaram os avanços mais recentes neste campo. No entanto, os trabalhos existentes frequentemente se concentram em domínios ou tarefas específicos e carecem de uma comparação unificada em vários benchmarks. Este artigo apresenta uma revisão sistemática e um benchmark de tokenizadores de áudio discretos, abrangendo três domínios: fala, música e áudio geral. Propomos uma taxonomia das abordagens de tokenização com base em técnicas de codificador-decodificador, quantização, paradigma de treinamento, capacidade de streaming e domínios de aplicação. Avaliamos os tokenizadores em múltiplos benchmarks para reconstrução, desempenho em tarefas subsequentes e modelagem de linguagem acústica, e analisamos trade-offs por meio de estudos de ablação controlados. Nossas descobertas destacam limitações chave, considerações práticas e desafios em aberto, fornecendo insights e orientações para pesquisas futuras nesta área em rápida evolução. Para mais informações, incluindo nossos principais resultados e banco de dados de tokenizadores, consulte nosso site: https://poonehmousavi.github.io/dates-website/.
Apresentamos o Domain2Vec, uma abordagem inovadora que decompõe qualquer conjunto de dados em uma combinação linear de vários meta-domínios, um novo conceito projetado para capturar as características subjacentes essenciais dos conjuntos de dados. O Domain2Vec mantém um vocabulário de meta-domínios e utiliza um classificador para decompor qualquer conjunto de dados fornecido em um vetor de domínio que corresponde a uma distribuição sobre esse vocabulário. Esses vetores de domínio permitem a identificação da mistura de dados ideal para o pré-treinamento de modelos de linguagem (LM) de maneira livre de treinamento, sob a \textbf{Hipótese de Alinhamento de Distribuição} (DA^{2}), que sugere que, quando as distribuições de dados do conjunto de treinamento e do conjunto de validação estão melhor alinhadas, uma menor perda de validação é alcançada. Além disso, o Domain2Vec pode ser integrado de forma contínua a trabalhos anteriores para modelar a relação entre vetores de domínio e o desempenho do LM, aumentando significativamente a eficiência e a escalabilidade dos métodos anteriores. Experimentos extensivos demonstram que o Domain2Vec ajuda a encontrar a mistura de dados que melhora o desempenho em tarefas subsequentes com um custo computacional mínimo. Especificamente, o Domain2Vec alcança a mesma perda de validação no Pile-CC utilizando apenas 51,5% da computação necessária ao treinar na mistura original do conjunto de dados The Pile. Sob um orçamento computacional equivalente, o Domain2Vec melhora o desempenho em tarefas subsequentes em uma média de 2,83%.
Métodos recentes de orientação em modelos de difusão direcionam a amostragem reversa perturbando o modelo para construir um modelo fraco implícito e guiar a geração para longe dele. Entre essas abordagens, a perturbação de atenção demonstrou forte desempenho empírico em cenários incondicionais onde a orientação livre de classificadores não é aplicável. No entanto, os métodos existentes de perturbação de atenção carecem de abordagens fundamentadas para determinar onde as perturbações devem ser aplicadas, particularmente em arquiteturas de Transformadores de Difusão (DiT), onde computações relevantes para a qualidade estão distribuídas entre as camadas. Neste artigo, investigamos a granularidade das perturbações de atenção, variando do nível de camada até cabeças de atenção individuais, e descobrimos que cabeças específicas governam conceitos visuais distintos, como estrutura, estilo e qualidade de textura. Com base nessa percepção, propomos "HeadHunter", um framework sistemático para selecionar iterativamente cabeças de atenção que se alinham com objetivos centrados no usuário, permitindo controle refinado sobre a qualidade de geração e atributos visuais. Além disso, introduzimos o SoftPAG, que interpola linearmente o mapa de atenção de cada cabeça selecionada em direção a uma matriz identitária, fornecendo um controle contínuo para ajustar a força da perturbação e suprimir artefatos. Nossa abordagem não apenas mitiga os problemas de suavização excessiva da perturbação em nível de camada existente, mas também permite a manipulação direcionada de estilos visuais específicos por meio da seleção composicional de cabeças. Validamos nosso método em modelos modernos de texto para imagem baseados em DiT em grande escala, incluindo Stable Diffusion 3 e FLUX.1, demonstrando desempenho superior tanto no aprimoramento geral da qualidade quanto na orientação específica de estilo. Nosso trabalho fornece a primeira análise em nível de cabeça de perturbação de atenção em modelos de difusão, revelando especialização interpretável dentro das camadas de atenção e permitindo o projeto prático de estratégias eficazes de perturbação.
Recentemente, agentes baseados em modelos de linguagem multimodal de grande escala (MLLMs) alcançaram progressos notáveis em diversos domínios. No entanto, construir um agente generalista com capacidades como percepção, planejamento, ação, fundamentação e reflexão em ambientes de mundo aberto, como o Minecraft, ainda apresenta desafios: dados insuficientes específicos do domínio, interferência entre tarefas heterogêneas e diversidade visual em configurações de mundo aberto. Neste artigo, abordamos esses desafios por meio de três contribuições principais. 1) Propomos um pipeline de geração de dados aprimorado por conhecimento para fornecer dados de treinamento escaláveis e de alta qualidade para o desenvolvimento de agentes. 2) Para mitigar a interferência entre tarefas heterogêneas, introduzimos uma arquitetura Mixture-of-Experts (MoE) com roteamento em nível de tarefa. 3) Desenvolvemos uma abordagem de Aprendizado por Reforço Aumentado com Raciocínio Multimodal para aprimorar a capacidade de raciocínio do agente diante da diversidade visual no Minecraft. Com base nessas inovações, apresentamos o Optimus-3, um agente de propósito geral para o Minecraft. Resultados experimentais extensivos demonstram que o Optimus-3 supera tanto os modelos de linguagem multimodal de grande escala generalistas quanto os agentes state-of-the-art existentes em uma ampla gama de tarefas no ambiente do Minecraft. Página do projeto: https://cybertronagent.github.io/Optimus-3.github.io/
Propomos o Ming-Omni, um modelo multimodal unificado capaz de processar imagens, texto, áudio e vídeo, demonstrando proficiência tanto na geração de fala quanto de imagens. O Ming-Omni emprega codificadores dedicados para extrair tokens de diferentes modalidades, que são então processados pelo Ling, uma arquitetura MoE equipada com roteadores específicos para cada modalidade, recentemente propostos. Esse design permite que um único modelo processe e funda eficientemente entradas multimodais em um framework unificado, facilitando diversas tarefas sem a necessidade de modelos separados, ajustes específicos para cada tarefa ou redesenho estrutural. Importante destacar que o Ming-Omni vai além dos modelos multimodais convencionais ao suportar a geração de áudio e imagens. Isso é alcançado por meio da integração de um decodificador de áudio avançado para fala natural e do Ming-Lite-Uni para geração de imagens de alta qualidade, que também permitem ao modelo realizar conversas contextualizadas, converter texto em fala e executar edições de imagem versáteis. Nossos resultados experimentais demonstram que o Ming-Omni oferece uma solução poderosa para percepção e geração unificadas em todas as modalidades. Notavelmente, o Ming-Omni proposto é o primeiro modelo de código aberto que conhecemos a igualar o GPT-4o em suporte a modalidades, e disponibilizamos todo o código e os pesos do modelo para incentivar pesquisas e desenvolvimentos adicionais na comunidade.
Gerar pôsteres esteticamente agradáveis é mais desafiador do que criar imagens de design simples: exige não apenas a renderização precisa de texto, mas também a integração harmoniosa de conteúdo artístico abstrato, layouts impactantes e harmonia estilística geral. Para abordar isso, propomos o PosterCraft, um framework unificado que abandona pipelines modulares anteriores e layouts rígidos predefinidos, permitindo que o modelo explore livremente composições coesas e visualmente atraentes. O PosterCraft emprega um fluxo de trabalho em cascata cuidadosamente projetado para otimizar a geração de pôsteres de alta estética: (i) otimização de renderização de texto em larga escala em nosso novo conjunto de dados Text-Render-2M; (ii) ajuste fino supervisionado com consciência de região no HQ-Poster100K; (iii) reforço de aprendizado estético-textual via otimização de preferência best-of-n; e (iv) refinamento conjunto de feedback visão-linguagem. Cada etapa é suportada por um pipeline de construção de dados totalmente automatizado, personalizado para suas necessidades específicas, permitindo treinamento robusto sem modificações arquitetônicas complexas. Avaliado em múltiplos experimentos, o PosterCraft supera significativamente as baselines de código aberto em precisão de renderização, coerência de layout e apelo visual geral, aproximando-se da qualidade dos sistemas comerciais state-of-the-art (SOTA). Nosso código, modelos e conjuntos de dados podem ser encontrados na página do projeto: https://ephemeral182.github.io/PosterCraft
Como podemos eliciar de forma custo-efetiva um raciocínio robusto em modelos de linguagem, aproveitando suas representações subjacentes? Respondemos a essa pergunta com Resa, uma família de modelos de raciocínio de 1,5B treinados por meio de um novo e eficiente procedimento de ajuste de autoencoder esparso (SAE-Tuning). Esse método primeiro treina um SAE para capturar habilidades de raciocínio de um modelo fonte e, em seguida, usa o SAE treinado para guiar um processo padrão de ajuste fino supervisionado, a fim de eliciar tais habilidades em um modelo alvo, tudo utilizando dados verificados de perguntas e respostas sem qualquer rastro de raciocínio. Notavelmente, quando aplicado a certos modelos base antes de um pós-treinamento adicional com RL, o SAE-Tuning mantém mais de 97% do desempenho de raciocínio de sua contraparte treinada com RL, enquanto reduz os custos de treinamento em mais de 2000x para aproximadamente \$1 e o tempo de treinamento em mais de 450x para cerca de 20 minutos. Além disso, quando aplicado a modelos levemente treinados com RL (por exemplo, dentro de 1 hora em 2 GPUs), ele permite um desempenho de raciocínio como 43,33% de Pass@1 no AIME24 e 90% de Pass@1 no AMC23 por apenas cerca de \$1 adicional. Surpreendentemente, as habilidades de raciocínio extraídas por meio de SAEs são potencialmente generalizáveis e modulares. Generalidade significa que habilidades extraídas de um conjunto de dados ainda elevam o desempenho em um corpus maior e sobreposto. Modularidade significa que habilidades extraídas de Qwen ou Qwen-Math podem ser anexadas ao modelo R1-Distill em tempo de teste, sem qualquer retreinamento, e gerar ganhos comparáveis. Ablações extensivas validam essas descobertas, e todos os artefatos são totalmente disponibilizados como código aberto.
Agentes de Modelos de Linguagem de Grande Escala (LLM) têm demonstrado grande potencial na resolução de problemas reais de ciência de dados. Agentes de ciência de dados impulsionados por LLM prometem automatizar todo o pipeline de aprendizado de máquina, mas sua eficácia no mundo real ainda é limitada. Os frameworks existentes dependem de fluxos de trabalho rígidos e pré-definidos, bem como de estratégias de codificação inflexíveis; consequentemente, eles se destacam apenas em problemas relativamente simples e clássicos, falhando em capturar a expertise empírica que os profissionais humanos trazem para tarefas complexas e inovadoras. Neste trabalho, apresentamos o AutoMind, um framework de agente LLM adaptativo e informado que supera essas deficiências por meio de três avanços principais: (1) uma base de conhecimento especializado curada que fundamenta o agente no conhecimento de especialistas do domínio, (2) um algoritmo de busca em árvore informado e agentivo que explora estrategicamente possíveis soluções, e (3) uma estratégia de codificação auto-adaptativa que ajusta dinamicamente a geração de código à complexidade da tarefa. Avaliações em dois benchmarks automatizados de ciência de dados demonstram que o AutoMind oferece desempenho superior em comparação com as abordagens state-of-the-art. Análises adicionais confirmam eficácia, eficiência e qualidade qualitativa das soluções favoráveis, destacando o AutoMind como um passo eficiente e robusto em direção à ciência de dados totalmente automatizada.
Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) e suas contrapartes multimodais têm despertado um interesse significativo no desenvolvimento de agentes web — sistemas de IA capazes de navegar e completar tarefas de forma autônoma em ambientes web. Embora prometam revolucionar a automação de interações complexas na web, as abordagens atuais enfrentam desafios substanciais devido ao descompasso fundamental entre interfaces projetadas para humanos e as capacidades dos LLMs. Os métodos atuais lutam com a complexidade inerente das entradas web, seja ao processar árvores DOM massivas, depender de capturas de tela complementadas com informações adicionais ou contornar completamente a interface do usuário por meio de interações via API. Este artigo de posicionamento defende uma mudança de paradigma na pesquisa de agentes web: em vez de forçar os agentes web a se adaptarem a interfaces projetadas para humanos, devemos desenvolver um novo paradigma de interação especificamente otimizado para capacidades agentivas. Para isso, introduzimos o conceito de Interface Web Agentiva (AWI), uma interface projetada especificamente para agentes navegarem em um site. Estabelecemos seis princípios orientadores para o design de AWI, enfatizando segurança, eficiência e padronização, para considerar os interesses de todas as partes interessadas principais. Essa reformulação visa superar limitações fundamentais das interfaces existentes, abrindo caminho para um design de agentes web mais eficiente, confiável e transparente, que será um esforço colaborativo envolvendo a comunidade mais ampla de aprendizado de máquina.
A compreensão de vídeos longos (LVU) representa um desafio significativo para os atuais modelos de linguagem multimodal de grande escala (MLLMs) devido à complexidade inerente da tarefa e às limitações da janela de contexto. É amplamente assumido que abordar tarefas de LVU requer MLLMs fundamentais com janelas de contexto estendidas, capacidades robustas de percepção visual e proficiência em expertise de domínio. Neste trabalho, questionamos essa crença comum ao introduzir o VideoDeepResearch, uma nova estrutura agentiva para a compreensão de vídeos longos. Nossa abordagem depende exclusivamente de um modelo de raciocínio de grande escala (LRM) baseado apenas em texto, combinado com um kit de ferramentas multimodais modular, incluindo recuperadores multimodais e perceptores visuais, todos amplamente disponíveis na prática. Para cada tarefa de LVU, o sistema formula uma estratégia de resolução de problemas por meio de raciocínio, enquanto acessa e utiliza seletivamente o conteúdo essencial do vídeo por meio do uso de ferramentas. Realizamos experimentos extensos em benchmarks populares de LVU, incluindo MLVU, Video-MME e LVBench. Nossos resultados demonstram que o VideoDeepResearch alcança melhorias substanciais em relação às linhas de base MLLM existentes, superando o estado da arte anterior em 9,6%, 6,6% e 3,9% no MLVU (teste), LVBench e LongVideoBench, respectivamente. Essas descobertas destacam o potencial dos sistemas agentivos para superar desafios-chave em problemas de LVU.
O design gráfico desempenha um papel crucial tanto em contextos comerciais quanto pessoais, mas a criação de composições gráficas de alta qualidade, editáveis e esteticamente agradáveis continua sendo uma tarefa demorada e que exige habilidades, especialmente para iniciantes. As ferramentas de IA atuais automatizam partes do fluxo de trabalho, mas lutam para incorporar com precisão ativos fornecidos pelo usuário, manter a editabilidade e alcançar um apelo visual profissional. Sistemas comerciais, como o Canva Magic Design, dependem de vastas bibliotecas de modelos, que são impraticáveis de replicar. Neste artigo, apresentamos o CreatiPoster, um framework que gera composições editáveis e multicamadas a partir de instruções em linguagem natural ou ativos opcionais. Um modelo de protocolo, um modelo multimodal grande RGBA, primeiro produz uma especificação JSON detalhando cada camada (texto ou ativo) com layout preciso, hierarquia, conteúdo e estilo, além de um prompt de fundo conciso. Um modelo de fundo condicional então sintetiza um fundo coerente condicionado a essas camadas de primeiro plano renderizadas. Construímos um benchmark com métricas automatizadas para geração de design gráfico e mostramos que o CreatiPoster supera as principais abordagens de código aberto e sistemas comerciais proprietários. Para catalisar mais pesquisas, liberamos um corpus livre de direitos autorais com 100.000 designs multicamadas. O CreatiPoster suporta diversas aplicações, como edição de canvas, sobreposição de texto, redimensionamento responsivo, adaptação multilíngue e pôsteres animados, avançando a democratização do design gráfico assistido por IA. Página do projeto: https://github.com/graphic-design-ai/creatiposter
Shojaee et al. (2025) relatam que os Modelos de Raciocínio de Grande Escala (LRMs) exibem "colapso de precisão" em quebra-cabeças de planejamento além de certos limiares de complexidade. Demonstramos que suas descobertas refletem principalmente limitações no design experimental, em vez de falhas fundamentais de raciocínio. Nossa análise revela três questões críticas: (1) Os experimentos com a Torre de Hanói sistematicamente excedem os limites de tokens de saída dos modelos nos pontos de falha relatados, com os modelos explicitamente reconhecendo essas restrições em suas saídas; (2) O framework de avaliação automatizada dos autores não consegue distinguir entre falhas de raciocínio e restrições práticas, levando à má classificação das capacidades dos modelos; (3) Mais preocupantemente, seus benchmarks de Travessia de Rio incluem instâncias matematicamente impossíveis para N > 5 devido à capacidade insuficiente do barco, mas os modelos são pontuados como falhas por não resolverem esses problemas insolúveis. Quando controlamos esses artefatos experimentais, solicitando funções geradoras em vez de listas exaustivas de movimentos, experimentos preliminares em vários modelos indicam alta precisão em instâncias da Torre de Hanói anteriormente relatadas como falhas completas. Essas descobertas destacam a importância de um design experimental cuidadoso ao avaliar as capacidades de raciocínio da IA.
Modelos de linguagem de grande escala (LLMs) têm sido cada vez mais aplicados a tarefas automatizadas de detecção de conteúdo nocivo, auxiliando moderadores na identificação de violações de políticas e melhorando a eficiência e precisão geral da revisão de conteúdo. No entanto, os recursos existentes para detecção de conteúdo nocivo são predominantemente focados no inglês, com conjuntos de dados em chinês permanecendo escassos e frequentemente limitados em escopo. Apresentamos um benchmark abrangente e profissionalmente anotado para detecção de conteúdo nocivo em chinês, que cobre seis categorias representativas e é construído inteiramente a partir de dados do mundo real. Nosso processo de anotação ainda gera uma base de regras de conhecimento que fornece conhecimento explícito de especialistas para auxiliar LLMs na detecção de conteúdo nocivo em chinês. Além disso, propomos uma linha de base aumentada por conhecimento que integra tanto regras de conhecimento anotadas por humanos quanto conhecimento implícito de modelos de linguagem de grande escala, permitindo que modelos menores alcancem desempenho comparável aos LLMs de última geração. Código e dados estão disponíveis em https://github.com/zjunlp/ChineseHarm-bench.
Avanços recentes em modelos de base multimodal que unificam a compreensão e geração de imagens abriram caminhos promissores para abordar uma ampla gama de tarefas de visão e linguagem dentro de um único framework. Apesar do progresso, os modelos unificados existentes geralmente exigem um extenso pré-treinamento e lutam para alcançar o mesmo nível de desempenho em comparação com modelos dedicados a cada tarefa. Além disso, muitos desses modelos sofrem com velocidades lentas de geração de imagens, limitando sua implantação prática em cenários em tempo real ou com recursos limitados. Neste trabalho, propomos o Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), uma arquitetura nova e eficiente que unifica a compreensão e geração de imagens dentro de um único modelo multimodal. O LaTtE-Flow se baseia em poderosos modelos de Visão e Linguagem (VLMs) pré-treinados para herdar capacidades robustas de compreensão multimodal, e os estende com uma nova arquitetura baseada em fluxo de especialistas por camadas e timesteps para geração eficiente de imagens. O LaTtE-Flow distribui o processo de correspondência de fluxo entre grupos especializados de camadas Transformer, cada um responsável por um subconjunto distinto de timesteps. Esse design melhora significativamente a eficiência de amostragem ao ativar apenas um pequeno subconjunto de camadas em cada timestep de amostragem. Para aprimorar ainda mais o desempenho, propomos um mecanismo de Atenção Residual Condicionada por Timestep para reutilização eficiente de informações entre camadas. Experimentos demonstram que o LaTtE-Flow alcança um desempenho robusto em tarefas de compreensão multimodal, enquanto obtém qualidade competitiva na geração de imagens com uma velocidade de inferência aproximadamente 6x mais rápida em comparação com modelos multimodais unificados recentes.
À medida que o fine-tuning (FT) se torna cada vez mais impraticável em escala, o probing está emergindo como o protocolo de avaliação preferido para o aprendizado auto-supervisionado (SSL). No entanto, o linear probing (LP) padrão falha em refletir adequadamente o potencial dos modelos treinados com Masked Image Modeling (MIM), devido à natureza distribuída dos tokens de patches. Isso motiva a necessidade de attentive probing, uma alternativa que usa atenção para agregar seletivamente características em nível de patch. Apesar de sua crescente adoção, o attentive probing permanece pouco explorado, com os métodos existentes sofrendo de excessiva parametrização e baixa eficiência computacional. Neste trabalho, revisitamos o attentive probing sob a ótica da relação entre precisão e eficiência. Realizamos um estudo sistemático dos métodos existentes, analisando seus mecanismos e avaliando seu desempenho. Introduzimos o efficient probing (EP), um mecanismo de atenção cruzada multi-query que elimina projeções redundantes, reduz o número de parâmetros treináveis e alcança uma aceleração de até 10 vezes em comparação com a atenção multi-head convencional. Apesar de sua simplicidade, o EP supera o LP e abordagens anteriores de attentive probing em sete benchmarks, generaliza bem além do MIM para diversos paradigmas de pré-treinamento, produz mapas de atenção interpretáveis e alcança ganhos significativos em configurações de baixo-shot e camada a camada. Código disponível em https://github.com/billpsomas/efficient-probing.
O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma técnica fundamental para aprimorar modelos de linguagem de grande escala (LLMs), com a engenharia de verificação desempenhando um papel central. No entanto, as melhores práticas para RL no seguimento de instruções ainda são pouco exploradas. Neste trabalho, investigamos o desafio de verificação no RL para o seguimento de instruções e propomos o VerIF, um método de verificação que combina a verificação de código baseada em regras com a verificação baseada em LLM a partir de um modelo de raciocínio de grande escala (por exemplo, QwQ-32B). Para apoiar essa abordagem, construímos um conjunto de dados de alta qualidade para o seguimento de instruções, o VerInstruct, contendo aproximadamente 22.000 instâncias com sinais de verificação associados. Aplicamos o treinamento de RL com VerIF a dois modelos, alcançando melhorias significativas em vários benchmarks representativos de seguimento de instruções. Os modelos treinados atingem desempenho de ponta entre modelos de tamanho comparável e generalizam bem para restrições não vistas. Além disso, observamos que suas capacidades gerais permanecem inalteradas, sugerindo que o RL com VerIF pode ser integrado às receitas existentes de RL para melhorar o desempenho geral do modelo. Disponibilizamos nossos conjuntos de dados, códigos e modelos para facilitar pesquisas futuras em https://github.com/THU-KEG/VerIF.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) e sistemas de IA levaram a uma mudança de paradigma no projeto e otimização de fluxos de trabalho complexos de IA. Ao integrar múltiplos componentes, os sistemas de IA compostos tornaram-se cada vez mais habilidosos na execução de tarefas sofisticadas. No entanto, à medida que esses sistemas crescem em complexidade, novos desafios surgem na otimização não apenas de componentes individuais, mas também de suas interações. Embora métodos tradicionais de otimização, como ajuste fino supervisionado (SFT) e aprendizado por reforço (RL), permaneçam fundamentais, o surgimento de feedback em linguagem natural introduz abordagens promissoras, especialmente para a otimização de sistemas não diferenciáveis. Este artigo fornece uma revisão sistemática dos progressos recentes na otimização de sistemas de IA compostos, abrangendo tanto técnicas numéricas quanto baseadas em linguagem. Formalizamos a noção de otimização de sistemas de IA compostos, classificamos os métodos existentes ao longo de várias dimensões-chave e destacamos desafios de pesquisa em aberto e direções futuras neste campo em rápida evolução. Uma lista dos artigos revisados está disponível publicamente em https://github.com/MiuLab/AISysOpt-Survey.
Modelos de linguagem de grande escala transformaram o processamento de linguagem natural, mas o ajuste fino supervisionado (SFT) continua sendo computacionalmente intensivo. Este artigo prova formalmente que as capacidades adquiridas por meio do SFT podem ser aproximadas por um modelo base de transformadores usando técnicas de inferência, especificamente o aprendizado em contexto (ICL), sem alterar os parâmetros do modelo, sob suposições idealizadas, incluindo recursos computacionais ilimitados e acesso ao conjunto de dados de ajuste fino. Estendemos esses resultados para cenários práticos com comprimentos de contexto finitos e acesso parcial ao conjunto de dados. Para tarefas de geração de texto com comprimento de saída fixo l, conjuntos de dados de tamanho \( O\left( \frac{m V}{\varepsilon^2} \log \frac{m}{\delta} \right) \) ou, com contexto limitado, \( O\left( l \log \frac{V}{\varepsilon^2} \log \frac{1}{\delta} \right) \) são suficientes para aproximar o comportamento ajustado fino em m contextos dentro de um erro \(\varepsilon\), onde V é o tamanho do vocabulário e \(\delta\) é a probabilidade de falha. Para classificação linear, conjuntos de dados de tamanho \( O\left( \frac{d}{\varepsilon} \right) \) ou, com contexto fixo, \( O\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right) \) são suficientes, onde d é a dimensão de entrada. Baseados na completude de Turing dos transformadores, esses resultados fornecem uma fundação teórica para a implantação eficiente de recursos de modelos de linguagem de grande escala, com técnicas práticas como geração aumentada por recuperação conectando a teoria às aplicações do mundo real.
À medida que os modelos de linguagem de grande escala (LLMs) avançam em direção a comunicações mais humanas e as interações humano-IA se tornam prevalentes, o prompting emergiu como um componente decisivo. No entanto, há um consenso conceitual limitado sobre o que exatamente quantifica prompts em linguagem natural. Buscamos abordar essa questão realizando uma meta-análise que examina mais de 150 artigos relacionados a prompting, provenientes de conferências líderes em PLN e IA de 2022 a 2025, além de blogs. Propomos um framework centrado em propriedades e no ser humano para avaliar a qualidade de prompts, abrangendo 21 propriedades categorizadas em seis dimensões. Em seguida, examinamos como os estudos existentes avaliam seu impacto em LLMs, revelando suporte desequilibrado entre modelos e tarefas, além de lacunas significativas de pesquisa. Além disso, analisamos correlações entre propriedades em prompts de alta qualidade em linguagem natural, derivando recomendações para prompting. Exploramos empiricamente aprimoramentos de prompts com múltiplas propriedades em tarefas de raciocínio, observando que aprimoramentos de propriedade única frequentemente têm o maior impacto. Por fim, descobrimos que o ajuste por instrução em prompts aprimorados por propriedades pode resultar em modelos de raciocínio melhores. Nossas descobertas estabelecem uma base para avaliação e otimização de prompts centrada em propriedades, preenchendo as lacunas entre as comunicações humano-IA e abrindo novas direções de pesquisa em prompting.
No comércio eletrônico e no marketing digital, a geração de vídeos de demonstração humano-produto de alta fidelidade é importante para uma apresentação eficaz de produtos. No entanto, a maioria das estruturas existentes falha em preservar as identidades tanto dos humanos quanto dos produtos ou carece de uma compreensão das relações espaciais humano-produto, resultando em representações irreais e interações não naturais. Para enfrentar esses desafios, propomos uma estrutura baseada em Transformador de Difusão (DiT). Nosso método preserva simultaneamente as identidades humanas e os detalhes específicos dos produtos, como logotipos e texturas, ao injetar informações de referência humano-produto emparelhadas e utilizar um mecanismo adicional de atenção cruzada mascarada. Empregamos um modelo de malha corporal 3D e caixas delimitadoras de produtos para fornecer orientação precisa de movimento, permitindo o alinhamento intuitivo de gestos manuais com o posicionamento dos produtos. Além disso, a codificação estruturada de texto é usada para incorporar semânticas de nível de categoria, melhorando a consistência 3D durante pequenas mudanças rotacionais entre os quadros. Treinado em um conjunto de dados híbrido com estratégias extensas de aumento de dados, nossa abordagem supera as técnicas mais avançadas na manutenção da integridade da identidade tanto de humanos quanto de produtos e na geração de movimentos de demonstração realistas. Página do projeto: https://submit2025-dream.github.io/DreamActor-H1/.
A diversidade de escalas dos dados de nuvem de pontos apresenta desafios significativos no desenvolvimento de técnicas unificadas de aprendizado de representação para visão 3D. Atualmente, existem poucos modelos 3D unificados, e nenhum método de pré-treinamento existente é igualmente eficaz para nuvens de pontos em nível de objeto e de cena. Neste artigo, introduzimos o UniPre3D, o primeiro método de pré-treinamento unificado que pode ser aplicado de forma contínua a nuvens de pontos de qualquer escala e a modelos 3D de qualquer arquitetura. Nossa abordagem prevê primitivas Gaussianas como tarefa de pré-treinamento e empreende o splatting Gaussiano diferenciável para renderizar imagens, permitindo supervisão precisa em nível de pixel e otimização de ponta a ponta. Para regular ainda mais a complexidade da tarefa de pré-treinamento e direcionar o foco do modelo para estruturas geométricas, integramos características 2D de modelos de imagem pré-treinados para incorporar conhecimentos bem estabelecidos sobre texturas. Validamos a eficácia universal do método proposto por meio de extensos experimentos em uma variedade de tarefas em nível de objeto e de cena, utilizando diversos modelos de nuvem de pontos como backbones. O código está disponível em https://github.com/wangzy22/UniPre3D.
Um objetivo central da interpretabilidade mecanicista tem sido identificar as unidades de análise corretas em grandes modelos de linguagem (LLMs) que explicam causalmente suas saídas. Embora trabalhos iniciais tenham se concentrado em neurônios individuais, evidências de que neurônios frequentemente codificam múltiplos conceitos motivaram uma mudança em direção à análise de direções no espaço de ativação. Uma questão-chave é como encontrar direções que capturem características interpretáveis de maneira não supervisionada. Métodos atuais dependem de aprendizado de dicionário com autoencoders esparsos (SAEs), comumente treinados sobre ativações do fluxo residual para aprender direções do zero. No entanto, SAEs frequentemente enfrentam dificuldades em avaliações causais e carecem de interpretabilidade intrínseca, pois seu aprendizado não está explicitamente vinculado às computações do modelo. Aqui, abordamos essas limitações decompondo diretamente as ativações de MLPs com fatoração matricial semi-não negativa (SNMF), de modo que as características aprendidas sejam (a) combinações lineares esparsas de neurônios co-ativados e (b) mapeadas para suas entradas ativadoras, tornando-as diretamente interpretáveis. Experimentos com Llama 3.1, Gemma 2 e GPT-2 mostram que características derivadas de SNMF superam SAEs e uma linha de base supervisionada forte (diferença de médias) em direcionamento causal, enquanto se alinham com conceitos interpretáveis por humanos. Análises adicionais revelam que combinações específicas de neurônios são reutilizadas em características semanticamente relacionadas, expondo uma estrutura hierárquica no espaço de ativação do MLP. Juntos, esses resultados posicionam a SNMF como uma ferramenta simples e eficaz para identificar características interpretáveis e dissecar representações de conceitos em LLMs.
O treinamento de grandes modelos de linguagem geralmente é realizado por meio de métodos de otimização em clusters contendo dezenas de milhares de aceleradores, que se comunicam por meio de uma interconexão de alta largura de banda. Escalar esses clusters é caro e pode se tornar impraticável, impondo limites ao tamanho dos modelos que podem ser treinados. Vários estudos recentes propuseram métodos de treinamento que são menos intensivos em comunicação, evitando a necessidade de um cluster de computação altamente conectado. Esses métodos de treinamento de baixa comunicação, que estão no estado da arte, ainda empregam uma etapa de sincronização para os parâmetros do modelo, que, quando realizada em todas as réplicas do modelo, pode se tornar custosa em uma rede de baixa largura de banda. Neste trabalho, propomos um novo método de otimização, o NoLoCo, que não sincroniza explicitamente todos os parâmetros do modelo durante o treinamento e, como resultado, não requer nenhuma comunicação coletiva. O NoLoCo sincroniza implicitamente os pesos do modelo por meio de uma nova variante do otimizador de momentum de Nesterov, realizando uma média parcial dos pesos do modelo com outro selecionado aleatoriamente. Fornecemos tanto uma análise teórica de convergência para o otimizador proposto quanto resultados empíricos do treinamento de modelos de linguagem. Avaliamos o NoLoCo em uma ampla gama de contagens de aceleradores e tamanhos de modelos, entre 125 milhões e 6,8 bilhões de parâmetros. Nosso método requer significativamente menos sobrecarga de comunicação do que o treinamento paralelo de dados totalmente fragmentado ou até mesmo o método de treinamento de baixa comunicação amplamente utilizado, o DiLoCo. A etapa de sincronização em si é estimada como uma ordem de magnitude mais rápida do que o all-reduce usado no DiLoCo para o treinamento de algumas centenas de aceleradores pela internet. Também não temos nenhuma comunicação global de bloqueio que reduza o tempo de inatividade dos aceleradores. Em comparação com o DiLoCo, também observamos uma taxa de convergência até 4% mais rápida em uma ampla gama de tamanhos de modelos e contagens de aceleradores.
A crescente adoção da inteligência artificial nas telecomunicações tem despertado interesse na capacidade dos Modelos de Linguagem de Grande Escala (LLMs) para lidar com tarefas específicas do domínio e intensivas em matemática. Embora avanços recentes tenham melhorado o desempenho dos LLMs no raciocínio matemático geral, sua eficácia em domínios especializados, como processamento de sinais, otimização de redes e análise de desempenho, permanece amplamente inexplorada. Para abordar essa lacuna, apresentamos o TeleMath, o primeiro conjunto de dados de referência especificamente projetado para avaliar o desempenho de LLMs na resolução de problemas matemáticos com soluções numéricas no domínio das telecomunicações. Composto por 500 pares de perguntas e respostas (QnA), o TeleMath abrange uma ampla gama de tópicos no campo das telecomunicações. Este artigo descreve o pipeline proposto para a geração de QnAs, começando com uma seleção de problemas elaborados por Especialistas no Assunto. A avaliação de uma ampla gama de LLMs de código aberto revela que o melhor desempenho no TeleMath é alcançado por modelos recentes explicitamente projetados para raciocínio matemático ou lógico. Em contraste, modelos de propósito geral, mesmo aqueles com um grande número de parâmetros, frequentemente enfrentam dificuldades com esses desafios. Disponibilizamos o conjunto de dados e o código de avaliação para facilitar a reprodutibilidade dos resultados e apoiar pesquisas futuras.
A orientação sem classificador (CFG, do inglês Classifier-Free Guidance) tornou-se um componente essencial dos modelos de difusão modernos para melhorar tanto a qualidade da geração quanto o alinhamento com as condições de entrada. No entanto, a CFG requer procedimentos de treinamento específicos e é limitada à geração condicional. Para abordar essas limitações, propomos a Orientação por Perturbação de Tokens (TPG, do inglês Token Perturbation Guidance), um método novo que aplica matrizes de perturbação diretamente às representações intermediárias de tokens dentro da rede de difusão. A TPG emprega uma operação de embaralhamento que preserva a norma para fornecer sinais de orientação eficazes e estáveis que melhoram a qualidade da geração sem alterações arquitetônicas. Como resultado, a TPG é livre de treinamento e agnóstica às condições de entrada, tornando-a prontamente aplicável tanto à geração condicional quanto à incondicional. Analisamos ainda o termo de orientação fornecido pela TPG e mostramos que seu efeito na amostragem se assemelha mais à CFG em comparação com as técnicas de orientação existentes que não requerem treinamento. Experimentos extensivos no SDXL e no Stable Diffusion 2.1 mostram que a TPG alcança uma melhoria de quase 2 vezes no FID para geração incondicional em relação à linha de base do SDXL, ao mesmo tempo que se aproxima da CFG no alinhamento com prompts. Esses resultados estabelecem a TPG como um método de orientação geral e agnóstico a condições, que traz benefícios semelhantes aos da CFG para uma classe mais ampla de modelos de difusão. O código está disponível em https://github.com/TaatiTeam/Token-Perturbation-Guidance.
A otimização da inferência para modelos de linguagem de grande escala (LLMs) de contexto longo é cada vez mais importante devido à complexidade quadrática de computação e linear de memória dos Transformers. Métodos de aproximação existentes, como o descarte do cache de chave-valor (KV), atenção esparsa e compressão de prompt, geralmente dependem de previsões grosseiras da importância de tokens ou pares KV. Propomos uma nova estrutura para inferência aproximada de LLMs que utiliza modelos de rascunho pequenos para prever com maior precisão a importância de tokens e pares KV. Especificamente, introduzimos duas instanciações da nossa estrutura proposta: (i) SpecKV, que utiliza uma saída de rascunho para avaliar com precisão a importância de cada par KV para um descarte mais eficaz do cache KV, e (ii) SpecPC, que usa as ativações de atenção do modelo de rascunho para identificar e descartar tokens de prompt irrelevantes. Até onde sabemos, este é o primeiro trabalho a utilizar modelos de rascunho para acelerar a inferência aproximada de LLMs, estendendo sua utilidade além da decodificação especulativa tradicional sem perdas. Fundamentamos nossos métodos com análises teóricas e empíricas, e mostramos uma forte correlação entre os padrões de atenção dos modelos de rascunho e alvo. Experimentos extensos em benchmarks de contexto longo demonstram que nossos métodos consistentemente alcançam maior precisão do que as linhas de base existentes, mantendo as mesmas melhorias no uso de memória, latência e taxa de transferência. Nosso código está disponível em https://github.com/furiosa-ai/draft-based-approx-llm.
O esquecimento em Modelos de Linguagem de Grande Escala (LLMs) visa apagar ou suprimir conhecimentos indesejados dentro do modelo, oferecendo potencial para controlar informações prejudiciais ou privadas e prevenir seu uso inadequado. No entanto, estudos recentes destacam sua eficácia limitada em cenários do mundo real, dificultando sua adoção prática. Neste estudo, identificamos um problema subjacente a muitas falhas em tarefas subsequentes: a eficácia dos métodos de esquecimento existentes depende fortemente da forma das amostras de treinamento e frequentemente falha em generalizar para expressões alternativas do mesmo conhecimento. Caracterizamos formalmente esse problema como Viés Dependente da Forma e investigamos sistematicamente seus padrões de manifestação específicos em várias tarefas subsequentes. Para quantificar sua prevalência e apoiar pesquisas futuras, introduzimos ORT, um novo benchmark projetado para avaliar a robustez dos métodos de esquecimento contra variações na expressão do conhecimento. Os resultados revelam que o Viés Dependente da Forma é tanto generalizado quanto severo entre as técnicas atuais. Argumentamos que o esquecimento em LLMs deve ser independente da forma para abordar as infinitas variações de tarefas subsequentes encontradas em cenários críticos de segurança do mundo real. Em direção a esse objetivo, introduzimos o Redirecionamento de Conceito de Rank Um (ROCR), um novo método sem necessidade de treinamento, como uma solução promissora. O ROCR realiza o esquecimento direcionando os invariantes nas tarefas subsequentes, especificamente os conceitos perigosos ativados. Ele é capaz de modificar os parâmetros do modelo em segundos para redirecionar a percepção do modelo sobre um conceito específico de esquecimento para outro conceito inofensivo. Experimentos extensivos demonstram que o ROCR melhora significativamente a eficácia do esquecimento em comparação com métodos tradicionais, gerando saídas altamente naturais.
A rápida evolução das áreas científicas introduz desafios na organização e recuperação da literatura científica. Embora taxonomias curadas por especialistas tenham tradicionalmente atendido a essa necessidade, o processo é demorado e caro. Além disso, os métodos recentes de construção automática de taxonomias ou (1) dependem excessivamente de um corpus específico, sacrificando a generalização, ou (2) dependem fortemente do conhecimento geral dos grandes modelos de linguagem (LLMs) contidos em seus conjuntos de dados de pré-treinamento, muitas vezes negligenciando a natureza dinâmica dos domínios científicos em evolução. Adicionalmente, essas abordagens não levam em consideração a natureza multifacetada da literatura científica, onde um único artigo de pesquisa pode contribuir para múltiplas dimensões (por exemplo, metodologia, novas tarefas, métricas de avaliação, benchmarks). Para abordar essas lacunas, propomos o TaxoAdapt, um framework que adapta dinamicamente uma taxonomia gerada por LLM a um determinado corpus em múltiplas dimensões. O TaxoAdapt realiza classificação hierárquica iterativa, expandindo tanto a largura quanto a profundidade da taxonomia com base na distribuição temática do corpus. Demonstramos seu desempenho de ponta em um conjunto diversificado de conferências de ciência da computação ao longo dos anos para mostrar sua capacidade de estruturar e capturar a evolução das áreas científicas. Como um método multidimensional, o TaxoAdapt gera taxonomias que são 26,51% mais preservadoras de granularidade e 50,41% mais coerentes do que as linhas de base mais competitivas avaliadas por LLMs.
Afirmações feitas por indivíduos ou entidades são frequentemente complexas e não podem ser claramente classificadas como inteiramente "verdadeiras" ou "falsas" — como é comum em afirmações científicas e políticas. No entanto, uma afirmação (por exemplo, "a vacina A é melhor que a vacina B") pode ser decomposta em seus aspectos e subaspectos integrais (por exemplo, eficácia, segurança, distribuição), que são individualmente mais fáceis de validar. Isso permite uma resposta mais abrangente e estruturada, fornecendo uma perspectiva bem equilibrada sobre um determinado problema, ao mesmo tempo em que permite ao leitor priorizar ângulos específicos de interesse dentro da afirmação (por exemplo, segurança em relação a crianças). Assim, propomos o ClaimSpect, um framework baseado em geração aumentada por recuperação para construir automaticamente uma hierarquia de aspectos tipicamente considerados ao abordar uma afirmação e enriquecê-los com perspectivas específicas do corpus. Essa estrutura particiona hierarquicamente um corpus de entrada para recuperar segmentos relevantes, que auxiliam na descoberta de novos subaspectos. Além disso, esses segmentos permitem a descoberta de diferentes perspectivas em relação a um aspecto da afirmação (por exemplo, apoio, neutro ou oposição) e sua respectiva prevalência (por exemplo, "quantos artigos biomédicos acreditam que a vacina A é mais transportável que a B?"). Aplicamos o ClaimSpect a uma ampla variedade de afirmações científicas e políticas do mundo real presentes em nosso conjunto de dados construído, demonstrando sua robustez e precisão na desconstrução de uma afirmação complexa e na representação de perspectivas dentro de um corpus. Por meio de estudos de caso do mundo real e avaliação humana, validamos sua eficácia em relação a múltiplas baselines.
Os modelos de fundação revolucionaram áreas como processamento de linguagem natural e visão computacional ao permitir aprendizado de propósito geral em diversas tarefas e conjuntos de dados. No entanto, a construção de modelos análogos para mobilidade humana permanece desafiadora devido à natureza sensível à privacidade dos dados de mobilidade e aos silos de dados resultantes entre instituições. Para preencher essa lacuna, propomos o MoveGCL, uma estrutura escalável e que preserva a privacidade para treinar modelos de fundação de mobilidade por meio de aprendizado contínuo generativo. Sem compartilhar dados brutos, o MoveGCL permite a evolução progressiva e descentralizada do modelo ao reproduzir trajetórias sintéticas geradas por um modelo professor congelado, e reforça a retenção de conhecimento por meio de uma estratégia de destilação personalizada que mitiga o esquecimento catastrófico. Para lidar com a heterogeneidade dos padrões de mobilidade, o MoveGCL incorpora um Transformer de Mistura de Especialistas com um mecanismo de roteamento de especialistas consciente da mobilidade, e emprega uma estratégia de adaptação progressiva por camadas para estabilizar atualizações contínuas. Experimentos em seis conjuntos de dados urbanos do mundo real demonstram que o MoveGCL alcança desempenho comparável ao treinamento conjunto e supera significativamente as abordagens de aprendizado federado, ao mesmo tempo que oferece forte proteção de privacidade. O MoveGCL representa um passo crucial para desbloquear modelos de fundação para mobilidade, oferecendo um plano prático para o desenvolvimento de modelos abertos, escaláveis e que preservam a privacidade na era dos modelos de fundação.
A construção de um mundo 3D simulado fisicamente realista e com escala precisa é crucial para o treinamento e avaliação de tarefas de inteligência incorporada. A diversidade, realismo, acessibilidade de baixo custo e acessibilidade dos ativos de dados 3D são fundamentais para alcançar generalização e escalabilidade na IA incorporada. No entanto, a maioria das tarefas atuais de inteligência incorporada ainda depende fortemente de ativos tradicionais de computação gráfica 3D criados e anotados manualmente, que sofrem com altos custos de produção e realismo limitado. Essas limitações dificultam significativamente a escalabilidade das abordagens baseadas em dados. Apresentamos o EmbodiedGen, uma plataforma fundamental para a geração interativa de mundos 3D. Ele permite a geração escalável de ativos 3D de alta qualidade, controláveis e foto-realísticos com propriedades físicas precisas e escala do mundo real no formato Unified Robotics Description Format (URDF) a um custo baixo. Esses ativos podem ser importados diretamente em vários motores de simulação física para controle físico refinado, apoiando tarefas subsequentes de treinamento e avaliação. O EmbodiedGen é um kit de ferramentas completo e fácil de usar composto por seis módulos principais: Imagem-para-3D, Texto-para-3D, Geração de Textura, Geração de Objetos Articulados, Geração de Cenário e Geração de Layout. O EmbodiedGen gera mundos 3D diversos e interativos compostos por ativos 3D generativos, aproveitando a IA generativa para enfrentar os desafios de generalização e avaliação das necessidades de pesquisa relacionadas à inteligência incorporada. O código está disponível em https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.
A avaliação fiel das capacidades dos modelos de linguagem é crucial para obter insights acionáveis que possam orientar o desenvolvimento dos modelos. No entanto, avaliações causais rigorosas nesse domínio enfrentam desafios metodológicos significativos, incluindo efeitos de confusão complexos e custos computacionais proibitivos associados a retreinamentos extensivos. Para enfrentar esses desafios, propomos uma estrutura de aprendizado de representação causal na qual o desempenho observado em benchmarks é modelado como uma transformação linear de alguns fatores latentes de capacidade. Crucialmente, esses fatores latentes são identificados como inter-relacionados causalmente após o controle adequado do modelo base como um confundidor comum. Aplicando essa abordagem a um conjunto de dados abrangente que engloba mais de 1500 modelos avaliados em seis benchmarks do Open LLM Leaderboard, identificamos uma estrutura causal linear concisa de três nós que explica de forma confiável as variações de desempenho observadas. A interpretação adicional dessa estrutura causal fornece insights científicos substanciais além de simples classificações numéricas: especificamente, revelamos uma direção causal clara que começa com capacidades gerais de resolução de problemas, avança através da proficiência em seguir instruções e culmina na habilidade de raciocínio matemático. Nossos resultados destacam o papel essencial de controlar cuidadosamente as variações do modelo base durante a avaliação, uma etapa crítica para descobrir com precisão as relações causais subjacentes entre as capacidades latentes dos modelos.
As legendas de figuras são cruciais para ajudar os leitores a entender e lembrar a mensagem principal de uma figura. Muitos modelos foram desenvolvidos para gerar essas legendas, auxiliando os autores a compor legendas de melhor qualidade com mais facilidade. No entanto, os autores quase sempre precisam revisar as legendas geradas genericamente por IA para adequá-las ao seu estilo de escrita e ao estilo do domínio, destacando a necessidade de personalização. Apesar dos avanços na personalização de modelos de linguagem (LaMP), essas tecnologias geralmente se concentram em configurações apenas de texto e raramente abordam cenários em que tanto as entradas quanto os perfis são multimodais. Este artigo apresenta o LaMP-Cap, um conjunto de dados para geração personalizada de legendas de figuras com perfis multimodais de figuras. Para cada figura alvo, o LaMP-Cap fornece não apenas as entradas necessárias, como imagens da figura, mas também até três outras figuras do mesmo documento—cada uma com sua imagem, legenda e parágrafos que mencionam a figura—como um perfil para caracterizar o contexto. Experimentos com quatro LLMs mostram que o uso de informações de perfil ajuda consistentemente a gerar legendas mais próximas das escritas originalmente pelos autores. Estudos de ablação revelam que as imagens no perfil são mais úteis do que os parágrafos que mencionam a figura, destacando a vantagem de usar perfis multimodais em vez de apenas texto.
À medida que as técnicas de ataque automatizado avançam rapidamente, os CAPTCHAs continuam sendo um mecanismo de defesa crítico contra bots maliciosos. No entanto, os esquemas de CAPTCHA existentes abrangem uma ampla gama de modalidades — desde textos distorcidos estáticos e imagens ofuscadas até cliques interativos, quebra-cabeças deslizantes e perguntas baseadas em lógica —, mas a comunidade ainda carece de um benchmark unificado, em larga escala e multimodal para avaliar rigorosamente sua robustez de segurança. Para preencher essa lacuna, apresentamos o MCA-Bench, um conjunto abrangente e reproduzível de benchmarks que integra tipos heterogêneos de CAPTCHA em um único protocolo de avaliação. Aproveitando um modelo de base compartilhado de visão e linguagem, ajustamos agentes especializados em quebrar CAPTCHAs para cada categoria, permitindo avaliações consistentes e cross-modais. Experimentos extensivos revelam que o MCA-Bench mapeia efetivamente o espectro de vulnerabilidade dos designs modernos de CAPTCHA sob diversas configurações de ataque e, crucialmente, oferece a primeira análise quantitativa de como a complexidade do desafio, a profundidade da interação e a capacidade de solução do modelo se inter-relacionam. Com base nessas descobertas, propomos três princípios de design acionáveis e identificamos desafios abertos fundamentais, estabelecendo as bases para o fortalecimento sistemático de CAPTCHAs, benchmarks justos e uma colaboração mais ampla da comunidade. Conjuntos de dados e código estão disponíveis online.
A reconstrução em tempo real de cenas 3D dinâmicas a partir de fluxos de vídeo não calibrados é crucial para inúmeras aplicações do mundo real. No entanto, os métodos existentes lutam para abordar conjuntamente três desafios principais: 1) processar entradas não calibradas em tempo real, 2) modelar com precisão a evolução dinâmica da cena e 3) manter estabilidade a longo prazo e eficiência computacional. Para isso, apresentamos o StreamSplat, o primeiro framework totalmente feed-forward que transforma fluxos de vídeo não calibrados de comprimento arbitrário em representações dinâmicas de 3D Gaussian Splatting (3DGS) de maneira online, capaz de recuperar a dinâmica da cena a partir de observações temporais locais. Propomos duas inovações técnicas principais: um mecanismo de amostragem probabilística no codificador estático para previsão de posição 3DGS e um campo de deformação bidirecional no decodificador dinâmico que permite uma modelagem dinâmica robusta e eficiente. Experimentos extensos em benchmarks estáticos e dinâmicos demonstram que o StreamSplat supera consistentemente trabalhos anteriores tanto na qualidade de reconstrução quanto na modelagem de cenas dinâmicas, enquanto suporta exclusivamente a reconstrução online de fluxos de vídeo de comprimento arbitrário. O código e os modelos estão disponíveis em https://github.com/nickwzk/StreamSplat.