Artigos de pesquisa em IA selecionados diariamente com traduções
Implementar modelos fundamentais multimodais como políticas de malha fechada exige, cada vez mais, condicionar ações em observações que já não estão mais visíveis. No entanto, os benchmarks existentes ou expõem todo o estado, fundem a reconstrução de estado oculto com outras habilidades do agente, ou testam a recordação apenas após o término de um episódio. Apresentamos o RNG-Bench (Reconstructive Non-Markov Games), um conjunto de benchmarks projetado para isolar a capacidade de um modelo base de reconstruir observações passadas e agir com base nelas durante interações de múltiplos passos. O RNG-Bench inclui dois jogos complementares: Matching Pairs, onde identidades de cartas brevemente reveladas em locais específicos devem ser lembradas posteriormente, e 3D Maze, onde visões egocêntricas devem ser integradas em um mapa espacial. Ambos os jogos são avaliados sob uma estrutura unificada com três eixos de dificuldade controlados: tamanho da grade, padrão visual e modalidade de observação. O benchmark também introduz um protocolo de duelo direto (head-to-head) para controlar a variância no nível de instância e uma métrica de Lacuna de Memória (Memory Gap) que separa o esquecimento da má seleção de ações. As configurações mais difíceis exigem contextos de aproximadamente 128 mil tokens e 350 entradas de imagem por episódio, e permanecem longe de serem saturadas pelos MLLMs de fronteira. A análise da Lacuna de Memória mostra que a maioria dos erros residuais decorre do esquecimento de observações anteriores, e não de tomadas de decisão subótimas. Por fim, o ajuste fino do Qwen3.5-9B em rollouts de política ótima e demonstrações filtradas do modelo melhora o desempenho no RNG-Bench e se transfere para benchmarks existentes sem degradar a capacidade multimodal geral.
A previsão de movimento é central para a inteligência visual: agentes devem antecipar como objetos se moverão para planejar ações, raciocinar sobre interações físicas e sintetizar futuros realistas. Argumentamos que pontos 3D em coordenadas mundiais fornecem uma representação geral que é agnóstica a classes, estável a visões, compacta e diretamente útil para tarefas subsequentes. Formalizamos a tarefa de previsão de movimento de pontos 3D condicionada a objetivos: dada uma breve história visual, um conjunto de pontos de consulta 3D sobre um objeto de interesse e uma descrição em linguagem natural do objetivo pretendido, o modelo prevê a trajetória 3D futura de cada ponto. Introduzimos uma pilha completa para estudar essa tarefa em escala: (1) MolmoMotion-1M é um grande corpus de trajetórias de pontos 3D descritas por ações, fundamentadas em objetos, anotadas a partir de 1,16M de vídeos sem restrições; (2) PointMotionBench é um referencial de avaliação verificado por humanos, abrangendo 111 categorias de objetos e 61 tipos de movimento; e (3) MolmoMotion é um modelo geral de previsão de movimento que suporta tanto a previsão autoregressiva de coordenadas quanto a geração de trajetórias baseada em fluxo-matching. O MolmoMotion prevê com precisão diversos padrões de movimento com diferentes instruções em linguagem natural e supera significativamente as linhas de base existentes de previsão de movimento no PointMotionBench. Finalmente, mostramos que o prior de movimento 3D aprendido transfere-se bem para aplicações subsequentes: ele melhora a eficiência do treinamento e a generalização para manipulação robótica, e suas trajetórias previstas fornecem orientação de movimento eficaz para modelos generativos sintetizarem vídeos com movimento de objetos mais realista.
Os modelos de mundo estão em transição de geradores visuais passivos para infraestrutura operacional fundamental para a IA Física: eles devem adquirir nativamente conhecimento do mundo a partir de experiências heterogêneas, manter estados persistentes ao longo de horizontes temporais extensos e executar de forma eficiente dentro das restrições reais de implantação. Apresentamos o Kairos, uma pilha nativa de modelos de mundo projetada em torno desses requisitos. (1) O Kairos aprende o mundo ao introduzir um Paradigma de Pré-treinamento Nativo governado por um Currículo de Dados Inter-corporais, que organiza vídeos de mundo aberto, dados comportamentais humanos e interações robóticas em uma trajetória progressiva de desenvolvimento. (2) O Kairos mantém o mundo por meio de compreensão, geração e previsão unificadas do mundo dentro de uma Arquitetura Nativa Unificada equipada com Atenção Temporal Linear Híbrida, onde a atenção por janela deslizante captura dinâmicas locais, janelas deslizantes dilatadas capturam dependências de médio alcance e a atenção linear com portas mantém memória global persistente. Estabelecemos limites teóricos formais demonstrando que essa fatoração temporal limita estritamente o acúmulo de erros, garantindo matematicamente a propagação de estado por horizontes estendidos. (3) O Kairos executa o mundo ao incorporar um Coprojeto de Sistema Consciente da Implantação para suportar geração de rollouts de baixa latência em hardware de servidor e de consumo para laços reais de observação-ação-feedback. Experimentos em benchmarks de modelo de mundo incorporado, horizonte longo e política de ação mostram que o Kairos atinge desempenho de alto nível enquanto oferece um forte equilíbrio entre eficiência e capacidade. Juntos, esses resultados posicionam o Kairos como uma base operacional coesa para a futura inteligência física auto-evolutiva.
Modelos de linguagem treinados em dados de visão-linguagem em larga escala demonstraram forte potencial para agentes corporificados. A utilização desses modelos por meio de ferramentas corporificadas oferece uma alternativa promissora aos sistemas visão-linguagem-ação ponta a ponta, combinando raciocínio de alto nível com módulos externos para percepção, planejamento e controle. No entanto, ainda não está claro o que constitui uma integração eficaz para manipulação corporificada e até que ponto tal integração pode desbloquear capacidades corporificadas em uma ampla gama de modelos de raciocínio. Neste trabalho, apresentamos o Guava, um framework de integração para uso de ferramentas corporificadas, desenvolvido por meio da exploração sistemática do espaço de design de fluxos de trabalho do agente, espaços de ação e espaços de observação. Nosso estudo identifica três ingredientes-chave para agentes corporificados eficazes: ciclos iterativos de percepção-raciocínio-ação, abstrações semânticas de ação e observações multimodais. Para entender se esses princípios de design são universais mesmo para modelos pequenos, desenvolvemos um pipeline de treinamento ponta a ponta que destila capacidades de manipulação corporificada em um modelo de código aberto de 4B usando menos de 2.000 trajetórias coletadas inteiramente em simulação. Resultados experimentais em ambientes simulados e do mundo real mostram desempenho comparável a modelos proprietários de fronteira, exibindo forte generalização para objetos não vistos, instruções novas e tarefas de longo horizonte. Os resultados sugerem que uma integração bem projetada pode servir como uma interface escalável e agnóstica ao modelo para manipulação corporificada, permitindo fortes capacidades corporificadas emergentes em modelos compactos de código aberto com dados mínimos de treinamento.
Modelos de correspondência de pontuação e fluxo frequentemente dependem de aprendizado por reforço baseado em preferências para dois propósitos: alinhar com preferências subjetivas e, surpreendentemente, recuperar propriedades como realismo visual e estrutura coerente de objetos, que o treinamento baseado em correspondência deveria aprender a partir dos próprios dados. Argumentamos que isso reflete uma incompatibilidade estrutural. As perdas de correspondência medem o erro de regressão ell_2 no campo de velocidade ou pontuação sob as marginais do tempo de treinamento, uma proxy mal alinhada com as propriedades visuais e semânticas que determinam a qualidade da amostra na inferência. Dada uma recompensa alinhada com essas propriedades, o RL contorna a incompatibilidade ao avaliar o modelo em suas próprias amostras e seguir diretamente a paisagem de recompensas. O desafio é obter tal recompensa sem depender de preferências humanas, que são caras e confundem realismo de dados com inclinações dos anotadores. Propomos o RL Guiado por Discriminador (DRL). O DRL treina um discriminador para separar dados de amostras do modelo base em um espaço de representação pré-treinado e usa seu logit como recompensa no RL regularizado por KL. O espaço pré-treinado restringe o discriminador a direções perceptualmente significativas, e o logit estima a razão de verossimilhança logarítmica entre dados e modelo, que é a recompensa ótima para direcionar a distribuição dos dados. Através de SiT, JiT, REPA e RAE, o DRL reduz FID sem orientação (por exemplo, de 9,38 para 2,62 no SiT) e FD no espaço semântico (por exemplo, de 88,2 para 19,3 no DINOv3 para SiT), com ganhos consistentes em todas as arquiteturas, e melhora as recompensas de preferência humana sem treinar nelas. Também produz uma melhor fronteira de Pareto entre recompensa de preferência e fidelidade de imagem sob pós-treinamento subsequente baseado em preferência, aumentando o alinhamento enquanto reduz artefatos de baixo nível, como saturação excessiva e brilho excessivo.
Aprendizado por Reforço (AR) tornou-se um paradigma representativo de pós-treinamento para LLMs, permitindo capacidades robustas de raciocínio e atuação autônoma. No entanto, a geração de rollouts continua sendo um gargalo dominante de latência, pois a amostragem autorregressiva decodifica respostas sequencialmente e um pequeno número de gerações de cauda longa frequentemente determina o tempo de conclusão. A decodificação especulativa (SD) oferece uma maneira natural de lidar com esse gargalo, sendo uma técnica bem estabelecida para servir LLMs fixos, que reduz a latência ao rascunhar tokens rapidamente e aceitá-los por meio de verificação paralela, preservando a distribuição do modelo alvo. No entanto, seus ganhos práticos de velocidade não se transferem diretamente para rollouts de AR: (i) a política alvo em evolução torna qualquer rascunhador fixo cada vez mais incompatível com a distribuição de saída da política; e (ii) os tamanhos de lote ativos diminuem ao longo da decodificação de rollouts, deslocando a decodificação de regimes limitados por computação para regimes limitados por memória, onde a verificação paralela pode explorar a computação subutilizada. Portanto, acelerar rollouts de AR requer tanto um rascunhador que permaneça eficaz sob gerações longas e de alta temperatura de uma política em evolução quanto o uso consciente do sistema de SD que evite regimes limitados por computação. Apresentamos EfficientRollout, uma estrutura de autodecodificação especulativa (self-SD) ciente do sistema, projetada para lidar com essa lacuna em rollouts de AR. O EfficientRollout induz um rascunhador quantizado a partir do modelo alvo (ou seja, autodecodificação especulativa), mantendo-o acoplado à política em evolução sem pré-treinamento separado do rascunhador ou adaptação online. Ele ainda coordena uma política de alternância (toggle) de SD ciente do sistema com adaptação do comprimento do rascunho ciente da aceitação, permitindo especulação apenas em regimes benéficos enquanto ajusta o orçamento de rascunho à qualidade evolutiva do rascunhador. O EfficientRollout reduz a latência de rollout e ponta a ponta em até 19,6% e 12,7%, respectivamente, em relação a uma linha de base acelerada de AR com amostragem autorregressiva, preservando a qualidade final do modelo.
Autoencoders Esparsos (AEs) decompõem ativações do fluxo residual em características interpretáveis. Defesas recentes em espaço latente dependem cada vez mais dessas decomposições, assumindo que características "inseguras" identificadas dos AEs servem como alças acionáveis para monitoramento e intervenção. Nesse paradigma, espera-se que fixar uma característica prejudicial específica impeça de forma confiável o mau comportamento do modelo. No entanto, mostramos que esse sucesso pode ocultar um modo de falha recuperável: a fixação pode bloquear uma rota visível para um comportamento sem eliminar o comportamento em si. Formulamos essa vulnerabilidade como recuperação pós-intervenção, um problema de otimização restrito no espaço residual. Partindo do estado residual pós-intervenção, otimizamos perturbações residuais para recuperar o comportamento pré-intervenção, preservando os valores pós-intervenção das características do AE alvo. Mesmo sob um modelo de ameaça forte, no qual a intervenção permanece ativa durante toda a otimização e geração, a recuperação permanece possível. Para descartar que a recuperação simplesmente desfaça a intervenção, utilizamos atualizações ortogonais ao codificador para intervenções em camada única e o Jacobiano do mapa de características correspondente no cenário entre camadas. Em experimentos com TPP, desaprendizado, IOI e direcionamento de recusa, esse teste de estresse revela comportamento recuperável apesar da intervenção bem-sucedida no nível das características. Especialmente no contexto crítico de segurança do direcionamento de recusa, alcançamos uma taxa de recuperação de 95,8% em amostras válidas, mantendo um desvio relativo da característica defendida em 0,131, substancialmente abaixo das linhas de base baseadas em sufixo. Uma análise de atribuição do caminho de recuperação localiza ainda essa recuperação no resíduo de reconstrução do AE, o componente não explicado pelo AE. Esses resultados expõem uma lacuna entre o controle no nível das características e a completude comportamental: características dos AEs podem apoiar intervenções causais, mas controlá-las não garante o controle sobre o comportamento subjacente.
Os pipelines de aprendizado por reforço para treinamento de Modelos de Linguagem de Grande Escala (LLMs) frequentemente dependem de ambientes redesenhados manualmente entre estágios, exigindo que os profissionais infiram heuristicamente qual configuração melhorará a política atual. Para automatizar esse processo, propomos o framework LLM-como-Engenheiro-de-Ambiente, no qual o modelo de política atual analisa trajetórias de falha juntamente com informações contextuais e propõe modificações na configuração do ambiente de treinamento do próximo estágio. Também introduzimos o MAPF-FrozenLake, um ambiente de teste controlável cujo gerador expõe configurações ambientais multidimensionais, tornando-o adequado para estudar e avaliar o redesenho de ambientes. Nesse ambiente de teste, condicionamos o engenheiro de ambiente a resumos estruturados do comportamento da política, casos de falha e estatísticas do ambiente, a partir dos quais ele produz a configuração para o próximo estágio de treinamento. Com o Qwen3-4B como modelo base, nosso framework alcança o desempenho agregado mais forte em nossos benchmarks, superando LLMs proprietários maiores (por exemplo, GPT, Gemini) e linhas de base de treinamento com ambiente fixo. Analisamos ainda quais formas de contexto são mais eficazes, descobrindo que atualizações bem-sucedidas do ambiente dependem de evidências de falhas e preservam configurações que já funcionam. Curiosamente, o ponto de verificação atual do aprendizado por reforço serve como um engenheiro de ambiente melhor do que o modelo base original, sugerindo que o aprendizado da política melhora a capacidade do modelo de diagnosticar suas próprias fraquezas remanescentes.
VLMs espaciais fizeram progressos substanciais na percepção geométrica, mas o raciocínio espacial complexo, que requer inferência em múltiplas etapas sobre profundidade, distância e relações de cena, continua desafiador. Além disso, diferentes consultas espaciais exigem estratégias fundamentalmente distintas: algumas são melhor abordadas por meio de dedução puramente linguística, passo a passo, enquanto outras requerem fundamentação explícita em 3D antes da inferência quantitativa. Apresentamos o Raciocínio Espacial de Dupla Via via Aprendizagem por Reforço para VLMs Espaciais (SR-REAL), uma estrutura unificada que equipa um VLM espacial com duas vias de raciocínio complementares: Raciocínio Somente por Linguagem (LOR), que realiza dedução linguística passo a passo, e Detectar e Depois Raciocinar (DTR), que detecta pistas geométricas 3D (por exemplo, centros ou caixas delimitadoras) por meio de tokens de região antes da inferência geométrica explícita. O SR-REAL começa com um estágio de ajuste fino supervisionado de inicialização a frio que constrói supervisão de cadeia de pensamento para LOR e DTR e expõe uma interface região-para-3D, seguido por RL que otimiza o modelo de política com recompensas de precisão e formato; para o DTR, uma recompensa de detecção discreta baseada em centro refina ainda mais o alinhamento geométrico. Em diversos benchmarks espaciais, o SR-REAL supera significativamente as linhas de base de VLMs espaciais: (i) um único modelo treinado com RL suporta ambas as vias de raciocínio, com o DTR se destacando em tarefas conscientes de região por meio de localização 3D precisa e o LOR aprimorando o raciocínio espacial geral; (ii) o treinamento conjunto de ambas as vias promove reforço mútuo; (iii) dados de inicialização a frio de alta qualidade e combinados são cruciais para uma otimização estável do RL; e (iv) o modelo generaliza entre conjuntos de dados e domínios sem ajuste por tarefa, demonstrando transferência positiva entre LOR e DTR.
O ancoramento de interface gráfica do usuário (GUI) requer que modelos de visão-linguagem (VLMs) identifiquem pequenos elementos-alvo em capturas de tela de alta resolução e prevejam coordenadas precisas da tela. A autodestilação on-policy (OPSD) é uma abordagem promissora de pós-treinamento para essa tarefa sensível a coordenadas, pois fornece sinais densos do professor em nível de token além de rótulos de coordenadas rígidos. No entanto, a OPSD ingênua não é bem adequada para o ancoramento de GUI: a OPSD avalia o professor em prefixos gerados pelo aluno; a qualidade dos sinais do professor para tokens de coordenada pode degradar quando o prefixo já se desviou da coordenada alvo, levando a um sinal do professor não confiável. Para mitigar isso, propomos uma autodestilação consciente da qualidade para ancoramento de GUI baseado em VLM, que melhora a qualidade do sinal do professor para tokens de coordenada por meio de uma portagem suave consciente da correção e escalonamento da probabilidade do professor. A portagem suave consciente da correção verifica se a previsão atual do professor para o token de coordenada ainda pode ser completada na caixa verdade (ground-truth) sob o prefixo gerado pelo aluno. Caso contrário, o sinal correspondente do professor é reduzido. O escalonamento da probabilidade do professor então usa a confiança do professor como um fator leve para calibrar ainda mais a força da supervisão portada. Uma descoberta empírica chave é que nenhum componente sozinho melhora o desempenho geral, enquanto a combinação deles melhora consistentemente o desempenho. Isso sugere que os dois mecanismos desempenham papéis complementares: a portagem consciente da correção suprime a supervisão não confiável de tokens de coordenada, enquanto o escalonamento da probabilidade do professor calibra a força dos sinais restantes. Experimentos em seis benchmarks de ancoramento de GUI mostram que nosso método melhora consistentemente o modelo base e supera linhas de base fortes.
Modelos passivos para compreensão de vídeos longos geralmente dependem de um paradigma "assistir-tudo", processando quadros uniformemente independentemente da dificuldade da consulta, fazendo com que o custo computacional cresça com a duração do vídeo. Embora estruturas interativas tenham surgido, elas frequentemente dependem de pré-varredura global e seu custo de contexto ainda escala com o comprimento do vídeo. Propomos o OmniAgent, o primeiro agente omni-modal nativo que formula a compreensão de vídeos como um ciclo iterativo Observação-Pensamento-Ação baseado em POMDP. O OmniAgent executa ações sob demanda para destilar seletivamente pistas audiovisuais em uma memória textual persistente, efetivamente desacoplando a complexidade do raciocínio da duração bruta do vídeo. Para operacionalizar isso, introduzimos (1) Ajuste Fino Supervisionado Agêntico para inicializar a percepção ativa nativa por meio de síntese de trajetórias best-of-N com controle de qualidade em duas etapas, e (2) Aprendizado por Reforço Agêntico com TAURA (Vantagem Rescalada por Incerteza Adaptativa Sensível ao Turno), que utiliza entropia em nível de turno para direcionar a atribuição de crédito para turnos de descoberta cruciais. Crucialmente, o OmniAgent apresenta escalonamento positivo em tempo de teste, onde o desempenho melhora à medida que o número de turnos de raciocínio aumenta, validando a eficácia da percepção ativa. Resultados empíricos em dez benchmarks (por exemplo, VideoMME, LVBench) demonstram que o OmniAgent alcança desempenho de estado da arte entre modelos de código aberto. Notavelmente, no LVBench, nosso agente de 7B supera o Qwen2.5-VL-72B, que é 10 vezes maior (50,5% contra 47,3%).
Algoritmos de Aprendizado por Reforço com Recompensas Verificáveis, como o GRPO, emergiram como o paradigma dominante de pós-treinamento para raciocínio complexo em LLMs, mas comumente sofrem de colapso de entropia da política durante o treinamento. Realizamos uma análise de gradiente de primeira ordem da dinâmica da entropia no nível do token sob o GRPO e identificamos uma incompatibilidade na atribuição de crédito no nível do token: a variação de entropia por token se decompõe no produto entre a vantagem no nível da trajetória e uma função de sensibilidade de entropia sobre a distribuição do próximo token, resultando em uma estrutura de quatro quadrantes de vantagem-surpresa e uma propriedade de quase-criticalidade. Motivados por isso, propomos o STARE (Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability), que identifica subconjuntos de tokens críticos para entropia via quantis de surpresa intra-lote, repondera seletivamente suas vantagens efetivas e incorpora uma porta de controle de malha fechada baseada na entropia alvo para regulação estável da entropia. Em escalas de modelo de 1,5B a 32B e três famílias de tarefas (Short CoT, Long CoT e Uso de Ferramentas em Múltiplas Interações), o STARE mantém treinamento estável de RL ao longo de milhares de passos, enquanto mantém a entropia da política dentro da faixa alvo. Nos conjuntos AIME24 e AIME25, o STARE supera o DAPO e outras linhas de base competitivas em 4%-8% na precisão média, com tokens de reflexão e comprimento da resposta crescendo em conjunto, indicando um equilíbrio sustentado entre exploração e aproveitamento que desbloqueia ainda mais o potencial do treinamento de RL. O código está disponível em https://github.com/hp-luo/STARE.
Modelos de difusão tornaram-se uma alternativa promissora aos modelos autorregressivos. Entre estes, os modelos de linguagem de difusão uniforme (UDLMs) permitem que qualquer token seja atualizado a qualquer passo, possibilitando, em princípio, uma geração mais flexível. No entanto, nenhum UDLM foi ainda pré-treinado do zero tanto em grande escala de parâmetros quanto com um grande orçamento de tokens. Tanto a modelagem autorregressiva quanto a modelagem de difusão mascarada já possuem modelos capazes em escala que a comunidade pode estudar e nos quais se basear; a difusão uniforme não possui nenhum. Um UDLM pré-treinado do zero em escala forneceria um ponto de referência limpo para estudar comportamento de escalonamento, dinâmicas de geração, controlabilidade e compromissos em relação aos modelos autorregressivos e de difusão mascarada estabelecidos. Para este fim, apresentamos Sumi ("tinta" em japonês), um modelo de linguagem de difusão uniforme de 7B totalmente aberto, pré-treinado do zero em 1,5T tokens. Sumi tem desempenho competitivo com modelos autorregressivos treinados com orçamentos de tokens comparáveis em benchmarks de conhecimento, raciocínio e codificação, enquanto apresenta desempenho inferior em benchmarks de senso comum, onde nossa mistura de dados com forte viés educacional é um provável fator contribuinte. Disponibilizamos os pesos do nosso modelo, checkpoints e a receita completa de treinamento, incluindo uma especificação completa da mistura de dados sobre corpora publicamente disponíveis. Esperamos que esta disponibilização permita à comunidade estudar a difusão uniforme nativa em escala e catalise o trabalho em seus aspectos ainda mal compreendidos.
À medida que uma maioria cada vez maior do conteúdo global de vídeo é consumida em plataformas sociais para fins sociais interativos, os modelos de geração de vídeo construídos para mundos sociais são importantes, mas amplamente negligenciados por estudos anteriores. Neste trabalho, definimos a posição dos modelos de mundo social e construímos um modelo protótipo como primeiro passo para este objetivo. Embora modelos de mundo anteriores simulem com sucesso ambientes físicos ou exploração de mundos de jogos, eles permanecem fundamentalmente desconectados das dinâmicas sociais centradas no ser humano. Para preencher essa lacuna como primeiro passo para modelos de mundo social, apresentamos o MaineCoon, o primeiro modelo autorregressivo audiovisual em tempo real que possui 22 bilhões de parâmetros e é capaz de geração de streaming em tempo real e interação em menos de um segundo, com uma taxa de quadros recorde de até 47,5 FPS, em uma única GPU. Até onde sabemos, o MaineCoon também é o primeiro modelo de geração audiovisual em tempo real especificamente otimizado para aplicações sociais interativas. Para permitir um treinamento eficiente e estável, introduzimos várias técnicas inovadoras no MaineCoon, incluindo auto-reamostragem, alinhamento de representação cross-modal, otimização de preferência ciente de domínio e destilação de política online reforçada (ROPD). Também projetamos o primeiro framework de inferência de streaming agêntico que suporta geração na escala de milhares de segundos ou mais, mitigando deriva com gerenciamento de cache agêntico e planejamento de prompts. Essas inovações aceleram significativamente o treinamento enquanto otimizam o desempenho de inferência em tempo real. Acreditamos que este trabalho não apenas estabelece um novo benchmark de desempenho de estado da arte (SOTA) para modelos autorregressivos audiovisuais de alta qualidade, baixa latência e horizonte longo, mas também aponta a mudança de paradigma desejada para as plataformas sociais nativas de IA de próxima geração.
Sistemas multiagente multiculturais são cada vez mais implantados em ambientes globalmente diversos, onde diferentes agentes estão fundamentados em diferentes origens culturais. A avaliação cultural existente concentra-se no alinhamento de valores: o quão proximamente um único agente corresponde a uma cultura alvo. No entanto, o alinhamento é uma propriedade por agente e não pode revelar se um sistema, como um todo, preserva a pluralidade cultural que deve representar. Propomos a diversidade de valores como um eixo de avaliação em nível de sistema para sistemas multiagente multiculturais, definida por meio da dissimilaridade entre as respostas de agentes culturalmente condicionados em uma pesquisa de valores compartilhada. Utilizando a World Values Survey, avaliamos 19 culturas e 18 modelos de base em uma ampla gama de configurações do sistema. Descobrimos que a diversidade é amplamente não correlacionada com o alinhamento, indicando que ambos capturam propriedades complementares do sistema, e que os atuais sistemas multiagente multiculturais ficam substancialmente abaixo das sociedades humanas em diversidade de valores. Sistemas com bases mistas reduzem essa lacuna, mas não a fecham, e a lacuna persiste em diferentes composições culturais e escalas de agentes. A interação social erosiona ainda mais a diversidade ao levar os agentes ao consenso, e um estudo de caso de orçamento participativo mostra que essa homogeneização reduz a amplitude da tomada de decisão coletiva. Juntos, nossos resultados estabelecem a diversidade de valores como um eixo de avaliação distinto para sistemas multiagente multiculturais e revelam uma tendência persistente de homogeneização nas atuais sociedades baseadas em LLM. Nosso código e dados estão disponíveis publicamente em https://github.com/iNLP-Lab/MultiAgent-Diversity.
Agentes de modelo de linguagem estão se tornando executores proficientes em tarefas isoladas e de curto horizonte, como engenharia de software e atendimento ao cliente. No entanto, os desafios do mundo real exigem uma combinação de habilidades sofisticadas que ainda não foram amplamente testadas em agentes: (1) navegar por longos horizontes em meio à incerteza; (2) adquirir informações em ambientes ruidosos; (3) adaptar-se a um mundo em mudança; (4) orquestrar múltiplas partes móveis em direção a um objetivo coerente. Apresentamos o CEO-Bench, que avalia essas capacidades em conjunto, simulando uma tarefa representativa do mundo real: operar uma startup por 500 dias. Um agente gerencia preços, marketing, orçamento e muitos outros aspectos de uma empresa fictícia por meio de uma interface Python programável, operando no mesmo ambiente e enfrentando os mesmos desafios que um CEO humano. O sucesso exige analisar bancos de dados empresariais ruidosos e interconectados, traduzir sinais em estratégias sólidas e coordenar muitas decisões com programação. Os agentes mais fortes escrevem código sofisticado que simula coortes de clientes para prever o fluxo de caixa futuro e extrai o histórico de negociações para descobrir preferências ocultas dos clientes. Mesmo assim, a maioria dos modelos de última geração enfrenta dificuldades neste ambiente. Apenas o Claude Opus 4.8 e o GPT-5.5 terminam acima do saldo inicial de $1 milhão, e nenhum deles obtém lucro de forma consistente. O CEO-Bench dá um primeiro passo em direção à medição da inteligência necessária para impulsionar um progresso sustentado e adaptativo ao longo do tempo.
Vision Transformers (ViTs) tornaram-se uma arquitetura dominante para aprendizado de representação visual, fornecendo características de backbone excepcionalmente fortes e amplamente reutilizáveis. No entanto, os ViTs são comumente operados em grades de patch-tokens relativamente pequenas devido ao custo quadrático da autoatenção global, o que cria um gargalo persistente para tarefas de predição densa, como segmentação semântica e estimativa de profundidade. Isso motivou o desenvolvimento de upsamplers de características agnósticos à tarefa. Embora os métodos recentes de última geração produzam representações densas visualmente nítidas, sua dependência de codificadores de imagem rasos para upsampling guiado pode introduzir vazamento de características, fragmentação e borrão. Apresentamos o ViT-Up, uma estrutura de upsampling implícito de características que substitui a orientação externa da imagem pela construção de consultas camada por camada a partir de estados ocultos intermediários do ViT. Isso permite a predição de características em coordenadas contínuas arbitrárias da imagem, preservando o alinhamento com o espaço de características do backbone. Experimentos demonstram que o ViT-Up supera consistentemente os upsamplers guiados por imagem de última geração em predição densa e correspondência semântica. No DINOv3-S+, o ViT-Up melhora em relação aos métodos anteriores em até +2,07 mIoU no Cityscapes e +4,17 PCK@0,10 no SPair-71k. Com o backbone maior DINOv3-B, esses ganhos aumentam para +3,36 mIoU e +8,09 PCK@0,10, demonstrando que o ViT-Up escala favoravelmente com a capacidade do backbone.
Os modelos de fundação mundiais (WFMs) são simuladores poderosos, mas operam predominantemente em um contexto de visão única e carecem da consistência 3D multivista necessária para a manipulação robótica. Embora os sistemas robóticos dependam de múltiplas câmeras (egocêntrica, olho-mão e montada no pulso) para aprendizado de políticas, os atuais modelos de mundo multivista simplesmente concatenam tokens de vista sem raciocínio geométrico explícito. Isso causa deriva de objetos entre vistas, inconsistência de profundidade e desalinhamento de textura. Atribuímos essas falhas a duas deficiências: a ausência de um mecanismo explícito de comunicação entre vistas e a falta de um prior geométrico 3D. Argumentamos que resolver ambas simultaneamente é necessário e suficiente. Para lidar com isso, apresentamos o PAIWorld, uma estrutura que aumenta os modelos de mundo difusão-transformador por meio de três componentes principais: (1) Blocos de Atenção Cruzada entre Vistas com Consciência Geométrica que estabelecem um caminho explícito entre vistas, (2) Embedding Posicional Rotatório Geométrico que codifica as direções dos raios da câmera e as poses extrínsecas no mecanismo de atenção, e (3) Latent 3D-REPA, que destila características conscientes de 3D de modelos de fundação 3D congelados para garantir consistência 3D. Construído sobre um modelo de fundação mundial baseado em DiT, o PAIWorld alcança consistência 3D multivista de última geração em benchmarks de manipulação robótica, classificando-se em 1º lugar no ranking do WorldArena e em 2º lugar no ranking do AgiBot-Challenge2026, enquanto possibilita aplicações downstream como planejamento baseado em modelo, modelos de ação mundial e pós-treinamento de políticas multivista.
O raciocínio científico de fronteira continua sendo um grande desafio para modelos de linguagem de grande porte (LLMs), onde mesmo os sistemas comerciais mais fortes ficam aquém do desempenho em nível de especialista. Um exame mais atento do comportamento dos modelos revela uma complementaridade substancial que a avaliação de um único modelo esconde: diferentes modelos de fronteira se destacam em diferentes tipos de perguntas, e nenhum modelo isolado captura o quadro completo. Apresentamos o SciOrch, uma estrutura que treina um modelo leve de 8B para orquestrar LLMs de fronteira em raciocínio científico. O orquestrador decompõe cada pergunta, delega subproblemas a modelos comerciais selecionados por meio de chamadas de API e sintetiza uma resposta final. Treinar tal orquestrador é fundamentalmente mais difícil do que o RL agentivo convencional: cada ação aciona uma chamada de API que é cara tanto em custo financeiro quanto em latência, tornando rollouts online padrão inviáveis. Abordamos isso com uma abordagem baseada em MCTS, produzindo trajetórias de orquestração diversas, extraindo amostras de nó único por nó e otimizando o orquestrador com treinamento no estilo GRPO. Em um conjunto de teste de 240 perguntas que abrange SGI-Reasoning e Scientists' First Exam, o SciOrch atinge 56,66% de acurácia média, superando o modelo comercial único mais forte em 3,74% e a linha de base multiagente mais forte em 3,33%. Ele também obtém a melhor acurácia tanto no SGI quanto no SFE com menos da metade do custo de API dos métodos multiagente típicos.
O RL de uso de ferramentas em múltiplas rodadas é limitado pelo rápido esgotamento de amostras informativas em conjuntos de dados estáticos. Observamos que o sinal de gradiente no GRPO se concentra em tarefas com a maior variância de recompensa de rollout, uma consequência do limite superior de Popoviciu. Consequentemente, amostras próximas ao limite da capacidade do agente — onde sucessos e falhas são aproximadamente equilibrados — contribuem com gradientes de política desproporcionalmente grandes. Conforme o treinamento avança, esse limite se desloca continuamente, o que gradualmente esgota o pool de amostras informativas em um conjunto de dados estático. Propomos o RODS (Síntese de Dados Online Orientada por Recompensa) para resolver esse esgotamento. O RODS fecha o ciclo entre o treinamento de RL e a geração de dados, reaproveitando a variância da recompensa de progresso como um detector de limites prático e de custo zero que não requer inferência adicional além dos rollouts já computados para o treinamento. Ele identifica continuamente tais amostras de limite, sintetiza novas variantes de múltiplas rodadas que correspondem à sua complexidade estrutural (por exemplo, topologia de API e profundidade de dependência) por meio de um pipeline de reamostragem alinhado a habilidades, e gerencia um buffer de reprodução dinâmico que coevolui com a política. Começando com 400 sementes humanas e mantendo um pool de treinamento ativo de ~800 amostras, o RODS alcança desempenho comparável a um pipeline offline de 17 mil amostras, exigindo aproximadamente 20x menos trajetórias, e melhora em relação ao RL com dados fixos e aumento de ambiente em nosso ambiente controlado.
O aprendizado por reforço offline é tipicamente analisado sob supervisão de recompensa em nível de processo, no entanto, muitos conjuntos de dados de decisão sequencial registram apenas resultados em nível de trajetória. Desenvolvemos uma teoria estatística para otimização de políticas offline a partir dessa supervisão em nível de resultado. Primeiramente, estudamos o cenário canônico onde o alvo permanece a recompensa cumulativa esperada, mas cada trajetória offline fornece apenas um rótulo escalar cuja média condicional é o retorno cumulativo. Propomos o OPAC, um algoritmo ator-crítico pessimista que aprende um modelo de recompensa latente e otimiza uma política a partir de rótulos em nível de trajetória. Provamos uma garantia de alta probabilidade da ordem $\widetilde{O}\big(H^2 C_{\text{sa}(\pi^\star)} / n\big)$ e um limite inferior correspondente, caracterizando o custo estatístico preciso de substituir recompensas em nível de processo por um rótulo em nível de trajetória. Em seguida, estendemos o princípio para feedback baseado em preferências, preservando a dependência principal do horizonte e da concentrabilidade até constantes do modelo de preferência. Finalmente, estudamos o RL offline generalizado baseado em resultados, onde tanto a supervisão quanto o objetivo são quantidades em nível de trajetória induzidas por uma agregação não linear de recompensas latentes por passo. Esse problema não é aprendível em geral: para objetivos de sucesso total, qualquer aprendiz offline pode exigir $\Omega(2^H)$ trajetórias mesmo com transições determinísticas e concentrabilidade constante. Em seguida, identificamos um regime tratável através de dois coeficientes estruturais, $\kappa_\mu(\sigma)$ e $\chi_\mu(\sigma)$, que capturam a perda de informação na agregação de resultados e nas atualizações generalizadas de Bellman, sob os quais o OPAC generalizado alcança complexidade amostral polinomial. Juntos, nossos resultados delineiam quando a supervisão em nível de resultado possibilita um controle offline eficiente em termos de amostras e quando a falta de recompensas em nível de processo cria barreiras estatísticas fundamentais.
Aprender a simular usuários humanos em ambientes interativos poderia avançar o treinamento de assistentes agentes, a avaliação de sistemas de personalização, a pesquisa em ciências sociais e muito mais. Abordagens existentes geralmente fazem isso treinando um modelo de linguagem grande (LLM) para corresponder a uma única resposta de referência, seja maximizando a probabilidade logarítmica ou usando uma recompensa de similaridade. Propomos, em vez disso, o {Turing-RL}: uma abordagem de aprendizado por reforço baseada no Teste de Turing para treinar modelos de simulador de usuário. O {Turing-RL} usa uma recompensa discriminativa de Turing com um juiz LLM para pontuar o quão indistinguível uma resposta gerada é da do usuário real, dado o histórico do usuário, e o LLM simulador de usuário aprende a produzir respostas indistinguíveis do que o usuário poderia ter dito com tais recompensas. Em dois domínios diferentes – chat conversacional e discussão em fórum Reddit – descobrimos que o {Turing-RL} supera consistentemente os métodos de base em métricas de avaliação tanto de LLM quanto humanas. Nosso estudo sugere que otimizar para indistinguibilidade, em vez de correspondência de respostas, é eficaz para aprender simuladores de usuário.
Os modelos generativos de vídeo (VGMs) tornaram-se uma nova fronteira, podendo ser utilizados não apenas para geração de vídeos, mas para uma multiplicidade de tarefas subsequentes, incluindo a modelagem do mundo. Para avançar nessas tarefas, um bom modelo de vídeo deve compreender a realidade física do mundo. Avaliar essa compreensão é um campo emergente e levou à criação do benchmark Physics-IQ, que a quantifica explicitamente ao comparar vídeos gerados por modelos com vídeos do mundo real de experimentos físicos. Neste trabalho, apresentamos uma auditoria sistemática do benchmark Physics-IQ, expomos suas limitações e propomos três soluções que aprimoram a forma como podemos mensurar a compreensão física dos VGMs. Especificamente, melhoramos a qualidade dos prompts e dos dados de referência (ground truth) para reduzir a influência de fatores de confusão, e introduzimos um sistema de pontuação por amostra que pondera cada amostra e cada métrica igualmente. Nosso benchmark resultante, Physics-IQ Verified, refina 57,6% de todas as amostras e melhora 34,8% dos prompts. Em um estudo comparativo utilizando seis modelos generativos de imagem para vídeo, observamos mudanças moderadas, porém significativas, nas classificações (τ de Kendall = 0,46). Esperamos que o Physics-IQ Verified ajude a comunidade ao fornecer um sinal mais confiável em direção a VGMs fisicamente precisos. O código do benchmark pode ser acessado em https://github.com/google-deepmind/physics-iq-benchmark
Sistemas de IA podem automatizar cada vez mais fluxos de trabalho científicos, mas o raciocínio que liga evidências anteriores, ideias geradas, experimentos e afirmações finais frequentemente permanece implícito dentro da inferência do modelo. Aqui apresentamos o Xcientist, um arcabouço de pesquisa que externaliza a síntese de pesquisa e a validação experimental em processos inspecionáveis e regidos por contratos. O Xcientist organiza evidências da literatura, estados de ideias, planos de implementação, registros de ablação e vestígios de reparo como artefatos de pesquisa persistentes, de modo que mecanismos gerados possam ser fundamentados, executados, testados e revisados sem perder sua base probatória. Identificamos o desvio de afirmação como um modo de falha da pesquisa automatizada, onde artefatos executáveis não mais suportam o mecanismo originalmente afirmado. Em sistemas de memória sem treinamento, previsão de tráfego estruturada em grafos e redes neurais informadas por física em múltiplas escalas, o Xcientist preserva trajetórias rastreáveis desde a formulação do problema até o design do mecanismo, validação e revisão limitada. Esses resultados sugerem que cientistas de IA devem ser avaliados não apenas por seus artefatos finais, mas se seus processos de síntese e validação permanecem atribuíveis, inspecionáveis e cientificamente responsáveis.
A escalabilidade em tempo de teste por meio de revisão sequencial emergiu como um paradigma poderoso para aprimorar o raciocínio de Modelos de Linguagem de Grande Porte (LLMs). No entanto, métodos padrão de pós-treinamento otimizam principalmente objetivos de etapa única, criando um desalinhamento fundamental com as dinâmicas de inferência de múltiplas etapas. Embora trabalhos recentes tratem isso como aprendizado por reforço (RL) de múltiplas interações, abordagens convencionais otimizam diretamente as trajetórias de múltiplas etapas, não conseguindo explorar ainda mais os erros de alta qualidade em etapas intermediárias que o modelo pode aprender ao corrigi-los. Propomos um framework iterativo de dois estágios que alterna entre aumento online de dados/prompts e otimização de política. Ao converter as etapas intermediárias (respostas "quase corretas") nas trajetórias de recuperação bem-sucedidas em prompts de revisão e verificação desacoplados, nossa abordagem concentra o treinamento tanto na transformação eficaz de respostas quanto na identificação de erros. Essa abordagem permite a geração eficiente de dados fora da política (off-policy) e reduz a sobrecarga computacional da amostragem de horizonte longo em comparação com RL padrão de múltiplas interações. No LiveCodeBench, usando casos de teste publicamente disponíveis como feedback, observamos ganhos de +6,5 pontos sobre a linha de base RL e +4,0 pontos sobre o treinamento padrão de múltiplas interações. Além da codificação, nossa abordagem corresponde ao resultado SOTA previamente relatado em empacotamento de círculos, utilizando o menor modelo base (4B) e muito menos execuções do que os sistemas de busca evolucionária muito maiores. Resultados matemáticos sob verificação com verdade fundamental confirmam ainda mais a capacidade de correção aprimorada. Também generaliza para quebra-cabeças de satisfação de restrições fora da distribuição, como n_rainhas e mini_sudoku, onde a correção é definida inteiramente pelas restrições do problema. O código está disponível em https://github.com/yxliu02/REVES.git.
Os benchmarks atuais para agentes de uso de computador avaliam modelos em ambientes impessoais. Isso deixa uma lacuna entre avaliação e implantação, onde assistentes pessoais devem operar em toda a vida digital do usuário, incluindo seu contexto, dados históricos e contas logadas. Essa lacuna é mais ampla em tarefas web, onde avaliações web ao vivo não conseguem exercitar sites que exigem login ou informações pessoais — exatamente o tipo de site que um assistente pessoal real precisa manipular. Apresentamos o MyPCBench, que testa agentes de uso de computador como assistentes pessoais em um desktop Linux povoado com 17 aplicações web simuladas do mundo real e uma pilha completa de desktop, todos configurados para uma persona canônica, Michael Scott de The Office. Definimos 184 tarefas nesse ambiente, cada uma inspirada em uma solicitação real extraída da comunidade OpenClaw, e avaliamos seis modelos fechados e de peso aberto com uma superfície uniforme de ferramentas computador+bash. Descobrimos que o melhor modelo, Claude Opus 4.6, resolve completamente 55,4% das tarefas, sendo o único modelo acima de 50%. As falhas dos modelos se concentram em tarefas que abrangem muitas aplicações e em trajetórias longas, onde a personalização mais desafia o assistente. Disponibilizamos o ambiente, o conjunto de tarefas e o arcabouço do agente em https://mypcbench.com.
Um agente telefônico útil precisa ser inteligente de forma personalizada. Ele deve raciocinar sobre a identidade, o histórico e as preferências do usuário conforme existem no dispositivo, não apenas seguir instruções isoladas em uma sandbox impessoal. Os benchmarks existentes para agentes móveis carecem desse tipo de personalização. Apresentamos o iOSWorld, o primeiro benchmark interativo de simulador iOS nativo, construído em torno de uma identidade de usuário persistente que abrange 26 aplicativos iOS recém-desenvolvidos. Esses aplicativos contêm dados conectados, como transações, mensagens, registros de viagem, relações sociais e atividades financeiras. O iOSWorld inclui 133 tarefas em três categorias de dificuldade crescente. Tarefas de aplicativo único (27) testam um aplicativo; tarefas de múltiplos aplicativos (60) abrangem de 2 a 8 aplicativos; e tarefas de memória e personalização (46) exigem que os agentes inferam padrões a partir de dados pessoais. Avaliamos modelos de uso de computador de fronteira e de código aberto em configurações apenas de visão e de visão+XML privilegiada. A melhor configuração atinge 52% no geral, mas apenas 37% nas tarefas de múltiplos aplicativos. O acesso privilegiado a visão+XML melhora os modelos de fronteira em até 26 pontos percentuais, enquanto modelos menores não se beneficiam da entrada adicional da árvore de acessibilidade. Lançamos o iOSWorld como um benchmark de código aberto, com todos os aplicativos, dados semeados, tarefas, rubricas e código de avaliação.
Produtos industriais, como válvulas e disjuntores, são definidos por especificações técnicas densas que regem aquisição, compatibilidade e segurança ao longo das cadeias de suprimentos. Essas especificações estão dispersas em múltiplas imagens heterogêneas dos produtos, incluindo tabelas de especificações, placas de identificação e desenhos técnicos. No entanto, ainda não foi suficientemente investigado se Modelos de Linguagem de Grande Escala Multimodais (MLLMs) conseguem recuperá-las de forma confiável. Para preencher essa lacuna, apresentamos o IndustryBench-MIPU, o primeiro benchmark em larga escala para compreensão de produtos industriais com múltiplas imagens, construído em torno da extração estruturada de atributos — ou seja, a recuperação de pares propriedade-valor a partir de imagens dos produtos. Essa tarefa avalia simultaneamente o reconhecimento de texto em tabelas de especificações e placas de identificação, o raciocínio visual sobre desenhos técnicos, o conhecimento de domínio para decodificar terminologia industrial e a integração de evidências entre imagens para montar especificações dispersas. Concretamente, o benchmark compreende 4.559 produtos distribuídos em 27.652 imagens, com 103.703 anotações abrangendo 18 categorias industriais, construído por meio de consenso entre múltiplos modelos e um sistema de garantia de qualidade em três níveis. A avaliação de nove MLLMs, tanto em configurações de imagem única quanto em configurações de múltiplas imagens por produto, revela uma lacuna acentuada de completude: os modelos alcançam alta precisão (86–94%), mas o melhor recupera apenas 49,9% dos atributos no nível do produto. A transição da extração com imagem única para a extração com múltiplas imagens resulta em uma perda de 15 a 34 pontos percentuais na revocação. A completude com múltiplas imagens, e não a precisão com imagem única, constitui o principal gargalo. O conjunto de dados e o código estão disponíveis publicamente.
Mostramos que a base canônica dos estados ocultos do transformer já fornece uma base de características livre de treinamento e arquiteturalmente geral. Dimensões individuais codificam conteúdo semântico por meio de seus sinais (+/-1) e confiança por meio de suas magnitudes, atuando como registros binários independentes; uma característica é um subconjunto de dimensões com um padrão de sinais consistente, lido pela contagem de concordância de sinais sem rotação aprendida. Validamos essa estrutura Bag of Dims em sete modelos abrangendo linguagem (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), visão (DINOv2, ViT-Base) e áudio (AST). Apenas os sinais carregam conteúdo preditivo: padrões de sinais com magnitude unitária preservam 60-93% da acurácia do top-5 no próximo token através da cabeça de LM, e a pontuação de Hamming sem decodificador atinge 80-90% do top-4096. A partir de um cache de token único (uma passagem direta por token, sem contexto, sem rótulos), detectamos 175 categorias com AUC 0,97-0,99 por concordância de sinais; uma sonda treinada adiciona apenas +0,018 AUC e converge para pesos alinhados aos eixos. Essas características são operacionalmente causais: elas sobrevivem às projeções de atenção K/V, remontam às coalizões de neurônios FFN que as escrevem (controles com pesos aleatórios nunca as reproduzem), e inverter os sinais de uma característica durante a passagem direta ao vivo suprime seu conceito em quatro modelos de linguagem, com magnitude correspondente e especificidade de conceito. As dimensões permanecem independentes ao longo do processo (informação mútua pareada abaixo de 0,006 bits). A estrutura não é específica para linguagem: os mesmos sinais por dimensão aparecem em visão auto-supervisionada (DINOv2, 9/12 superclasses do ImageNet), visão supervisionada (ViT-Base, 11/12) e áudio (AST, 50/50 categorias ESC-50), refletindo assim o treinamento de transformers em geral, e não o objetivo de modelagem de linguagem. A base canônica já é suficiente para a leitura de características em uma única passagem direta, sem otimização, sem dias de GPU. O problema em aberto passa de encontrar a rotação correta para catalogar o que cada dimensão codifica.
Ferramentas criativas de edição de imagem, como os botões Remover ou Preenchimento Generativo do Photoshop, são centrais para o uso cotidiano dos clientes e representam uma parcela significativa do tráfego no Photoshop e no Lightroom. No entanto, os modelos generativos de IA atuais enfrentam desafios significativos de latência, que se tornam ainda mais pronunciados na transição de U-Nets baseadas em convolução para Transformers de Difusão (DiTs). Em nossa avaliação com centenas de amostras representativas de edição de imagem abrangendo uma ampla gama de proporções de máscara, o módulo DiT sozinho responde por uma média de 73% da latência total do modelo, mesmo após ser destilado de 50 etapas de tempo para 8. Para enfrentar esse desafio, propomos o HiLo-Token, uma estrutura de compressão de tokens adaptável à entrada que aloca mais orçamento de tokens para regiões de alta frequência e contexto rico, enquanto atribui menos tokens a áreas de baixa frequência. Especificamente, para a região de edição especificada pela máscara do usuário, mantemos todos os tokens dentro de uma máscara dilatada para preservar forte localidade e relevância contextual. Fora da região de edição, introduzimos uma estratégia simples, porém eficaz, de seleção de tokens de alta frequência baseada na frequência espacial para capturar detalhes locais importantes, enquanto utilizamos tokens de uma imagem subamostrada em 16x para representar componentes de baixa frequência e preservar a estrutura global desfocada. Experimentos extensivos em dados de avaliação em nível de produção validam a eficácia do método proposto, alcançando acelerações DiT de 3,13x, 2,59x e 1,67x no A100-80GB para tarefas de edição de imagem nas categorias de proporção de máscara pequena, média e grande, com proporções médias de 6,38%, 15,92% e 35,36%, respectivamente, sem qualquer regressão na qualidade da geração.
A autodestilação on-policy (OPSD) treina um modelo em seus próprios rollouts e utiliza uma cópia congelada para fornecer alvos densos em nível de token, condicionados a um alvo de referência. Isso funciona bem para o raciocínio de LLMs, mas uma extensão direta para modelos de linguagem multimodais de grande escala (MLLMs) pode criar um atalho: o alvo privilegiado pode guiar os tokens principalmente com base no alvo de referência textual, em vez da imagem. Propomos o ViGOS, uma estrutura OPSD visualmente fundamentada para o pós-treinamento de MLLMs. O estudante primeiro escreve uma descrição visual e depois raciocina em direção à resposta final. Para rollouts válidos, um professor de percepção exclusivamente por imagem supervisiona a descrição, enquanto um professor de raciocínio privilegiado supervisiona o raciocínio e a resposta final no mesmo prefixo do estudante. Um professor de referência é utilizado apenas para rollouts inválidos, a fim de recuperar o formato de saída. Em benchmarks de visão-linguagem geral, raciocínio especializado, matemática visual, fundamentação espacial e prior visão-linguagem, o ViGOS mantém os principais benefícios da OPSD e melhora o comportamento fundamentado em imagem em cenários propensos a atalhos.
O turco é uma língua aglutinante: o significado é veiculado por morfemas. No entanto, os tokenizadores de subpalavras que impulsionam os modelos de linguagem modernos fragmentam as palavras com base em estatísticas de corpus, desmembrando sufixos semanticamente carregados e — no caso do WordPiece e de analisadores baseados em regras — falhando em decodificar sua saída de volta ao texto original. Este artigo apresenta o Morpheus, um modelo neural de fronteira de morfemas para o turco que é, ao mesmo tempo, um tokenizador sem perdas e consciente de morfologia e um produtor de embeddings de palavras. Um programa dinâmico diferenciável de Poisson-binomial transforma probabilidades de fronteira por caractere em pertinências suaves a morfemas durante o treinamento e em segmentos exatos na inferência, sem normalização de strings, de modo que decode(encode(w)) = w é válido por construção. Por ser um modelo neural, a mesma passagem direta que tokeniza também emite um embedding de palavra estruturado. Entre os tokenizadores reversíveis — os únicos válidos para geração — o Morpheus atinge o menor número de bits por caractere (1,425), aproximadamente dobra o alinhamento morfológico de referência da família de subpalavras (MorphScore macro-F1 0,61 vs. ~0,32) e utiliza cerca de 19% menos memória GPU do que tokenizadores de subpalavras com vocabulário de 64K. Como incorporador, os vetores Morpheus congelados lideram na recuperação lexical (MAP da família de raízes 0,85) e na verificação de mesma raiz (ROC-AUC 1,00), superando o recuperador multilingue BGE-M3 e o BERTurk; em tarefas dependentes de contexto e flexão (NER, sondagem de caso/número), os codificadores contextuais mais pesados permanecem à frente — uma troca que atribuímos à geometria centrada na raiz do Morpheus. Código: https://github.com/lonewolf-rd/TurkishMorpheus; modelo: https://huggingface.co/lonewolflab/Morpheus-TR-50K; demonstração interativa: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.
Apesar do crescente interesse, a maioria das avaliações das capacidades de personalização de modelos de linguagem de grande porte (LLMs) tem se baseado em dados sintéticos. Ainda não está claro o quão bem os sistemas de personalização atuais funcionam para usuários reais. Neste artigo, estudamos a lacuna no desempenho de personalização de LLMs ao utilizar dados sintéticos versus dados humanos. Coletamos conversas humanas (550 conversas) e julgamentos em três estágios da personalização: extração de atributos dos usuários a partir de conversas (5.949 julgamentos), associação de atributos relevantes a novos prompts (11.919) e incorporação de atributos relevantes em uma resposta personalizada (1.101). A incorporação de dados humanos revela limitações do sistema em cada estágio. Os modelos têm dificuldade em extrair atributos de conversas humanas, discordam dos julgamentos humanos sobre atributos relevantes e geram respostas personalizadas que os humanos julgam como não melhores do que respostas genéricas (embora o próprio LLM as avalie amplamente como melhores). Introduzimos duas intervenções leves baseadas em treinamento que aproximam a avaliação automatizada de personalização dos dados humanos em nossos dois primeiros estágios. No entanto, em nosso terceiro estágio, descobrimos que modelos de recompensa aprendidos alcançam apenas correlação modesta com as avaliações humanas, sugerindo que julgamentos de qualidade de personalização alinhados com humanos são difíceis de modelar diretamente. Os dados coletados fornecem uma base para estudar como os modelos devem extrair, selecionar e incorporar informações do usuário de maneiras que os humanos considerem úteis.
O preenchimento preditivo de código acelera significativamente a velocidade com que os desenvolvedores trabalham. Em planilhas, apesar de serem muito mais comuns, esses recursos de autocompletar são praticamente inexistentes. Para preencher essa lacuna, introduzimos um benchmark para sistemas que observam uma sequência de ações do usuário em uma planilha e preveem ações futuras. Dois desafios são (1) a ausência de históricos de edição em corpora públicos de planilhas e (2) o espaço complexo de ações em planilhas (espaciais, temporais, compostas). Para abordar (1), curamos manualmente 52 sequências de 12 mil ações que recriam planilhas a partir de corpora públicos, utilizando heurísticas parametrizadas e refinamento com LLM como ponto de partida. Para abordar (2), propomos uma avaliação online que espera uma previsão após cada ação do usuário, aceita ou rejeita essa previsão, atualiza as ações futuras mediante aceitação e repete esse processo até que a planilha alvo seja obtida. Utilizamos diversos preditores de base (incluindo LLMs zero-shot, SLMs ajustados e modelos clássicos) e analisamos diferentes propriedades que nosso benchmark nos ensina, incluindo, mas não se limitando a: propriedades de ações salvas e falsos positivos, eficiência, efeito de perfis de usuário, efeito de gatilhos e efeito de contexto.
Os sistemas robóticos percebem o mundo por meio de múltiplas modalidades de entrada — incluindo fluxos de câmera visual e instruções em linguagem natural — e devem selecionar ações apropriadas com base nesses sinais. No entanto, assumir a disponibilidade permanente de todos os dispositivos de entrada é irrealista, pois sensores podem falhar, sofrer oclusão ou desaparecer completamente durante a operação. O tratamento robusto de tais cenários de modalidades ausentes é, portanto, essencial para a operação robótica no mundo real. Este artigo apresenta o RL4IL, um método guiado por aprendizado por reforço para aprendizado por imitação que seleciona a ação mais adequada para uma dada observação, identificando as demonstrações de especialistas mais relevantes de uma biblioteca de treinamento. Uma política de aprendizado por reforço, treinada via Otimização de Política Proximal sobre conjuntos candidatos de Busca em Largura, ranqueia as demonstrações candidatas, e um cabeçalho de fusão por atenção cruzada suave agrega os sinais de ação para produzir a predição final. Quando uma modalidade está ausente no momento da inferência, uma política de recuperação dedicada por modalidade, baseada em aprendizado por reforço, identifica demonstrações doadoras da biblioteca de treinamento, e um cabeçalho de imputação suave reconstrói a incorporação ausente via atenção cruzada sobre os doadores mais bem ranqueados — sem exigir qualquer re-treinamento do sistema. Experimentos em três conjuntos de testes da suíte LIBERO demonstram que o RL4IL supera substancialmente os métodos de aprendizado por imitação do estado da arte sob condições de falha de sensores, sem necessitar de treinamento da rede de política. O código pode ser encontrado em https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera.
A Função de Análise de Dados de Rede (NWDAF) é fundamental para viabilizar o gerenciamento de rede sem intervenção manual em redes de quinta geração (5G), ao suportar análises em tempo real e automação em malha fechada. Apesar de seu papel crítico, as implementações de NWDAF de código aberto ainda são limitadas em escopo e acessibilidade. Neste artigo, desenvolvemos uma NWDAF de código aberto, compatível com o núcleo de rede aberto Free5GC, que coleta dados de rede por meio de assinaturas de Funções de Rede (NFs) e também inclui uma interface integrada de Modelo de Linguagem de Grande Porte (LLM), que possibilita interação em linguagem natural com operadores humanos. A interface processa as intenções do usuário, codifica-as utilizando um modelo de embedding semântico e as mapeia para uma de sete categorias de intenção predefinidas, a fim de disparar consultas analíticas ou comandos de assinatura de eventos. Essa arquitetura abstrai a complexidade das interfaces tradicionais, permitindo que usuários não especialistas gerenciem análises e assinaturas de rede com facilidade. O sistema suporta assinaturas de eventos da Função de Acesso e Gerenciamento (AMF) e da Função de Gerenciamento de Sessão (SMF), monitoramento em tempo real e recuperação de análises via Prometheus, tudo acessível por meio de uma interface conversacional. Ao integrar o reconhecimento de intenção baseado em IA com análises de rede padronizadas, nossa implementação melhora a usabilidade dos operadores e fornece uma base para redes 6G nativas de IA. O código-fonte e os conjuntos de dados gerados durante o presente estudo estão disponíveis no repositório do GitHub, https://github.com/HenokDanielbfg/testbed.