Artículos de investigación en IA seleccionados diariamente con traducciones
Los agentes LLM operan cada vez más en grandes ecosistemas de herramientas, donde las tareas del mundo real requieren descubrir herramientas relevantes, inferir subobjetivos implícitos y adaptarse a entornos dinámicos en horizontes temporales extensos. Sin embargo, los benchmarks existentes rara vez evalúan la planificación bajo una visibilidad limitada de herramientas debido a la recuperación. Para abordar esta carencia, presentamos PlanBench-XL, un benchmark interactivo de 327 tareas minoristas sobre 1,665 herramientas que evalúa si los agentes pueden recuperar iterativamente herramientas utilizables, invocarlas para descubrir evidencia intermedia que permita llamadas posteriores hacia el objetivo final. PlanBench-XL incorpora además un mecanismo de bloqueo opcional que simula la imprevisibilidad del mundo real mediante funciones de herramientas faltantes, fallidas o distractoras, forzando a los agentes a detectar rutas interrumpidas y adaptarse en tiempo de ejecución. Experimentos con diez LLMs líderes muestran que la planificación con herramientas masivas sigue siendo un desafío: mientras que GPT-5.4 alcanza un 51.90% de precisión en entornos sin bloqueo, su rendimiento cae al 11.36% bajo la condición de bloqueo más severa. Análisis adicionales revelan que los agentes son especialmente vulnerables cuando los fallos carecen de señales de error explícitas o cuando la recuperación requiere trayectorias alternativas más largas de uso de herramientas. Estos resultados establecen a PlanBench-XL como un banco de pruebas para diagnosticar fallos de planificación agente y resaltan la necesidad de una planificación adaptativa robusta en tareas de largo horizonte con entornos de herramientas grandes e imperfectos.
Los sistemas de agentes modernos a menudo sufren de un estado de ejecución fragmentado: las transcripciones, los efectos de herramientas, los eventos de memoria, la colocación en espacios de trabajo, la procedencia de ramificaciones y la evidencia de reproducción se registran por separado y resultan difíciles de inspeccionar o reproducir. OpenRath aborda este problema con un modelo de programación similar a PyTorch para sistemas multi-agente y multi-sesión. La analogía se refiere al papel de una abstracción central de ejecución de primera clase, no al cálculo tensorial. Su abstracción central es Session, el valor de ejecución que se pasa entre agentes y flujos de trabajo. Una Session es ramificable, inspeccionable, reproducible, consciente del backend y componible. Registra fragmentos de conversación, ubicación en espacios de trabajo, metadatos de linaje, uso de tokens, trabajo pendiente y evidencia de herramientas, al tiempo que define dónde las interacciones de memoria ingresan al registro de ejecución. Dado que este estado es transportado por el mismo valor utilizado en la ejecución del programa, la bifurcación, fusión y reproducción se convierten en operaciones de ejecución explícitas, en lugar de estados reconstruidos a partir de trazas externas. OpenRath además define Sandbox, Tool, Agent, Memory, Workflow y Selector, donde Selector convierte el flujo de control en decisiones enrutadas por la ejecución. Este informe presenta el modelo de programación, la arquitectura, los hitos auditados y el protocolo de evidencia. Sus afirmaciones se limitan a propiedades controladas de la ejecución, mientras que las comparaciones cuantitativas amplias, la calidad de los proveedores en vivo, la disponibilidad de backends opcionales y la calidad de la memoria se dejan para una evaluación posterior. La tesis central es que Session proporciona a los sistemas de agentes un valor de ejecución de primera clase para una composición auditable.
Los flujos multimodales masivos no estructurados presentan una alta "entropía de datos", lo que dificulta tanto la adquisición eficiente de conocimiento humano como el post-entrenamiento de alta calidad de la IA. Los paradigmas de anotación pasiva existentes, que dependen en gran medida de reglas heurísticas o VLMs generales, son costosos, monótonos y no logran extraer la lógica procedimental profunda incrustada en los datos brutos. Elevamos el procesamiento de datos a una capacidad aprendible, proponiendo un cambio de paradigma hacia la Adaptación Agentiva de Datos (Agentic Data Tailoring), que refina y estructura activamente los datos para alinearlos con diversas intenciones de usuarios y aplicaciones posteriores. Para superar el cuello de botella de escasez de datos en el entrenamiento de capacidades de tan alto orden, diseñamos un pipeline de dos etapas que fundamenta la síntesis semántica generativa en Anclajes Factuales deterministas, produciendo un conjunto de datos a gran escala que abarca cinco dominios físicos y digitales centrales. Sobre esta base, el modelo DataClaw_0-9B sinergiza el Ajuste Fino Supervisado (SFT) con la Optimización Relativa de Políticas por Grupos (GRPO), logrando una alineación robusta con intenciones complejas de refinamiento y adaptación. Para cuantificar sistemáticamente esta capacidad, construimos DataClaw_0-val, el primer benchmark dedicado al refinamiento de datos. De manera crucial, adoptamos el post-entrenamiento en tareas posteriores como punto de validación definitivo. Las evaluaciones en generación de video, VQA en escenarios reales y navegación en GUI confirman que DataClaw_0 produce datos adaptados de alta densidad informativa, facilitando la adaptación eficiente del modelo a nuevas tareas en regímenes de datos limitados. Página del proyecto: https://czjdsg.github.io/MakeAnyData
Los agentes empresariales operan cada vez más dentro de espacios de trabajo: leen archivos heterogéneos, invocan herramientas y generan artefactos de negocio. Presentamos EnterpriseClawBench, un benchmark para agentes empresariales construido a partir de sesiones reales y propietarias de agentes. Partiendo de un amplio archivo de sesiones laborales, EnterpriseClawBench produce 852 tareas reproducibles, cada una acompañada de fixtures recuperados, indicaciones reescritas, clases de rol, subclases de habilidad, reglas estrictas y rúbricas semánticas. Debido a que las sesiones contienen contenido empresarial interno, no publicamos los datos del benchmark; en su lugar, nuestra contribución reutilizable es el protocolo de construcción y evaluación. En EnterpriseClawBench, la mejor configuración alcanza solo 0,663 (Codex con GPT-5.5). Estos resultados demuestran que la evaluación de agentes empresariales debe reportar combinaciones de harness-modelo, entrega de artefactos, calidad visual, costo, tiempo de ejecución y comportamiento de transferencia de habilidades, en lugar de reducir el rendimiento a una única puntuación. Código: https://github.com/FrontisAI/EnterpriseClawBench
La auto-atención es central para el rendimiento del Transformer y suele ser la parte más costosa del mismo en contextos largos, debido a que sus interacciones entre pares de tokens escalan cuadráticamente con la longitud de la secuencia. La atención densa estándar también aplica el mismo conjunto de cabezas de atención a cada token, independientemente de su dificultad o contenido informativo. Esta activación uniforme puede desperdiciar cómputo, especialmente a medida que las secuencias se alargan y el costo de la atención aumenta rápidamente. Proponemos Grouped Query Experts (GQE), una capa de mezcla de expertos (mixture-of-experts) sobre la atención de consultas agrupadas (GQA). Dentro de cada grupo de GQA, un enrutador selecciona k expertos de cabezas de consulta por token, mientras que todas las cabezas clave-valor (KV) permanecen densas e inalteradas. Así, GQE conserva las ventajas de la caché KV de GQA y reduce únicamente el cómputo activo de las cabezas de consulta. Con un presupuesto fijo de 30 mil millones de tokens a la escala de 250 millones de parámetros, GQE iguala al modelo base GQA con todas las cabezas activas en precisión descendente, mientras activa la mitad de las cabezas de consulta por token.
A medida que los sistemas de recuperación escalan, la reordenación de alta calidad se vuelve cada vez más importante. Sin embargo, la mayoría de los rerankers existentes, ya sean basados en codificadores o en decodificadores, codifican conjuntamente la consulta y el pasaje, acoplando estrechamente su cómputo y limitando la eficiencia de despliegue, así como la flexibilidad. Presentamos KaLM-Reranker-V1, un reranker rápido pero sin interacción tardía (FBNL) que desacopla el cómputo de la consulta y del pasaje mientras mantiene un modelado de relevancia expresivo. Construido sobre una arquitectura codificador-decodificador, KaLM-Reranker-V1 utiliza el codificador para pre-codificar pasajes con agrupación de embeddings Matryoshka, mientras que el decodificador modela la instrucción del sistema, la instrucción del usuario y la intención de la consulta; la atención cruzada captura entonces la relevancia entre el contexto de la consulta y las representaciones del pasaje. Este diseño hace que KaLM-Reranker-V1 sea eficiente mediante la codificación desacoplada de pasajes, pero sin interacción tardía, al preservar un modelado de relevancia rico a través de la atención cruzada. Instanciamos KaLM-Reranker-V1 en tres tamaños: Nano, Small y Large, con 0,27B, 1B y 4B de parámetros activados, respectivamente. Experimentos exhaustivos en BEIR, MIRACL y LMEB demuestran que KaLM-Reranker-V1 logra un rendimiento de reordenación sólido con una eficiencia superior. En BEIR, KaLM-Reranker-V1 alcanza un rendimiento de última generación, a la par de modelos industriales potentes como la serie Qwen3-Reranker; en MIRACL, a pesar de no haber sido entrenado extensamente en datos multilingües, KaLM-Reranker-V1 muestra un excelente rendimiento de reordenación. Además, en LMEB, los modelos de reordenación demuestran una clara ventaja, donde incluso el modelo Nano de 0,27B sigue siendo competitivo con modelos de embedding de 7-12B.
Los Modelos de Acción Mundial (WAMs, por sus siglas en inglés) son modelos predictivos de acción encarnados que ponen a disposición de la acción una previsión del futuro. Los WAMs recientes reutilizan grandes modelos de generación de video, mientras que una línea paralela se basa en arquitecturas de lenguaje o visión-lenguaje sin un núcleo de generación de video. Esta rápida expansión ha desdibujado los límites entre modelos mundiales amplios, modelos de generación de video, modelos de video-mundiales basados en acción, políticas de Visión-Lenguaje-Acción y los propios WAMs. Esta revisión ofrece una visión unificada del campo. Primero, aclara estos límites; luego, organiza los trabajos existentes mediante dos perspectivas complementarias. La primera perspectiva pregunta qué debe generar cada método, abarcando futuros renderizados, futuros latentes y razonamiento de acción sin generación de video. La segunda perspectiva descompone cada método según su sustrato predictivo, arquitectura base, acoplamiento de acción y régimen de despliegue. Esta anatomía permite una discusión unificada sobre interactuabilidad, causalidad, persistencia, plausibilidad física y generalización, seguida de datos, evaluación y desafíos abiertos. A lo largo de estos ejes, emerge un patrón de diseño consistente: los WAMs no son simplemente generadores de video con cabezales de acción, sino métodos predictivos de acción cuyas decisiones de diseño intercambian riqueza representacional por costo computacional, memoria, latencia y costo de etiquetas de acción. El campo avanza hacia métodos que generan menos del futuro mientras preservan lo que requiere el control. La página de inicio de la revisión está disponible en https://world-action-models.github.io/.
Si bien los agentes terminales basados en LLM han demostrado capacidades prometedoras en los últimos años, la escasez de datos de entrenamiento de alta calidad y ejecutables sigue siendo un cuello de botella crítico. Las tuberías de síntesis existentes suelen escalar reajustando artefactos superficiales en tareas, lo que frecuentemente genera instrucciones ambiguas, rutas de ejecución superficiales y pruebas frágiles que proporcionan señales de aprendizaje débiles. Para superar esto, presentamos CLI-Universe, un motor de síntesis basado en principios que construye tareas para agentes terminales. CLI-Universe genera tareas candidatas muestreando combinaciones en una taxonomía de capacidades multidimensional (dominio, tipo de habilidad, capacidad y pilar de ingeniería) y luego fundamenta cada candidato mediante investigación profunda guiada por evidencia sobre materiales técnicos del mundo real. Para garantizar una supervisión rigurosa, los planos validados se instancian en entornos contenerizados con Docker y se someten a una tubería de verificación ejecutable de múltiples etapas que presenta construcción de pruebas con puerta de rúbrica, filtrado condicionado por pistas y verificación estricta de fallo a paso. A lo largo de toda la tubería, desde la generación de candidatos hasta la verificación, aproximadamente dos tercios de los candidatos son descartados, conservando solo aquellos que son genuinos, verificables y desafiantes de manera no trivial. Para validar nuestro marco, instanciamos un conjunto de datos altamente destilado de 6000 trayectorias llamado CLI-Universe-6K. Notablemente, el ajuste fino de Qwen3-32B en CLI-Universe-6K logra un 33.4% en Terminal-Bench 2.0. Esto establece un nuevo estado del arte para modelos entrenados con datos de código abierto con 32B parámetros o menos, y supera a varios modelos de un orden de magnitud mayor, demostrando la profunda eficiencia de datos de una síntesis estructurada y de alta fidelidad.
Los modelos de embedding existentes son inherentemente estáticos: codifican segmentos de texto de forma aislada, ignorando su contexto circundante y su orden temporal. Este artículo presenta EvoEmbedding, un novedoso modelo de embedding que genera representaciones evolutivas para la recuperación. Está diseñado para escenarios de contexto largo, donde la información es dinámica, secuencial y requiere un seguimiento continuo del estado. Nuestro diseño es simple: EvoEmbedding mantiene una memoria latente actualizada continuamente a medida que procesa secuencialmente las entradas, y la utiliza junto con el contenido original para generar embeddings evolutivos de manera conjunta. En consecuencia, para una misma consulta, nuestro modelo adapta su representación para recuperar objetivos distintos según el contexto cambiante, yendo más allá de la búsqueda semántica estática. Para dotar al modelo de esta capacidad, construimos EvoTrain-180K, un conjunto de datos diverso para la optimización conjunta de la memoria latente y la recuperación. Además, introducimos una cola de memoria para evitar el colapso de la representación durante la codificación recurrente, junto con técnicas de procesamiento por lotes de segmentos que abordan la gran variabilidad de longitud y aceleran el entrenamiento en 3.8 veces. Experimentos exhaustivos muestran que nuestro modelo no solo supera a especialistas de mayor escala (por ejemplo, Qwen3-Embedding-8B y KaLM-Embedding-Gemma3-12B) en diversos benchmarks de recuperación de contexto largo, sino que también se generaliza bien a tareas descendentes (por ejemplo, personalización) con contextos 10 veces más largos que su ventana de entrenamiento. Notablemente, EvoEmbedding se integra sin problemas en flujos de trabajo agentivos para mejorar el rendimiento. Por ejemplo, un pipeline RAG básico equipado con nuestro modelo supera a sistemas de memoria agentiva dedicados. Página del proyecto: https://clare-nie.github.io/EvoEmbedding.
Presentamos BioMatrix, el primer modelo base multimodal que integra de forma nativa secuencias, estructuras y lenguaje natural tanto para moléculas como para proteínas dentro de una única arquitectura solo decodificador. Los modelos base biológicos existentes abordan por separado la multimodalidad nativa y la amplia cobertura de entidades: aquellos que fusionan múltiples modalidades bajo un objetivo compartido se limitan a un solo tipo de entidad, mientras que aquellos que abarcan múltiples tipos de entidades omiten el modelado explícito de estructuras o dependen de diseños basados en adaptadores, en los que el modelo no puede generar de forma nativa las mismas modalidades que puede leer. BioMatrix cierra esta brecha al mapear secuencias moleculares (compatibles con las notaciones SMILES y SELFIES), estructuras moleculares, secuencias de proteínas, estructuras proteicas y lenguaje natural en un espacio de tokens discretos compartido mediante un esquema de tokenización unificado, de modo que todas las modalidades se consumen y producen uniformemente bajo un único objetivo de predicción del siguiente token — sin codificadores externos, adaptadores de proyección ni cabezales de salida específicos de cada modalidad. Construido sobre el modelo de lenguaje Qwen3 (1.7B y 4B), BioMatrix se preentrena de forma continua con 304,4 mil millones de tokens que abarcan texto general y específico del dominio, vistas de secuencia y estructura de moléculas y proteínas, y corpus multimodales que entrelazan entidades biomoleculares con texto científico y vinculan entidades distintas mediante datos de interacción molécula-proteína y proteína-proteína. Tras un ajuste en un conjunto exhaustivo de aplicaciones posteriores que cubren 80 tareas en 6 categorías — que abarcan tareas de comprensión y generación de entidades únicas y múltiples, tanto entre modalidades como dentro de ellas — BioMatrix alcanza un rendimiento de vanguardia o competitivo en 77 de las 80 tareas, demostrando que un único modelo generalista nativamente multimodal puede igualar o superar eficazmente a los enfoques especializados en una amplia gama de tareas biológicas.
La complejidad cuadrática de la atención supone un cuello de botella crítico para el procesamiento de contextos largos, lo que ha despertado interés en diseños de atención híbrida. La mayoría de los modelos híbridos de código abierto adoptan una estrategia por capas. Sin embargo, trabajos previos han señalado la dificultad inherente de integrar la Atención Lineal (LA) con la Atención Completa (FA), sugiriendo que el espacio de diseño de la hibridación de la atención sigue siendo poco explorado. Para explorar este espacio, realizamos un análisis de interpretabilidad y observamos que las capas exhiben una similitud funcional a nivel de bloques, mientras que los cabezales individuales dentro de una misma capa muestran una especialización funcional distinta a pesar de compartir características de entrada. Esta heterogeneidad a nivel de cabezales sugiere que la dimensión de los cabezales proporciona una granularidad natural y fundamentada para fusionar señales de atención heterogéneas. Partiendo de esta idea, presentamos HydraHead, una arquitectura novedosa que hibridiza FA y LA a lo largo del eje de los cabezales. HydraHead cuenta con dos innovaciones clave: (1) una estrategia de selección basada en interpretabilidad que identifica los cabezales críticos para la recuperación de información y preserva FA solo para ellos, y (2) un módulo de fusión con normalización de escala que reconcilia la brecha distribucional entre las salidas de los cabezales FA y LA. Mediante el aprovechamiento de un pipeline de transferencia de tres etapas con reutilización de parámetros y destilación, logramos modelos híbridos de alto rendimiento con una sobrecarga de entrenamiento mínima. Bajo una configuración de entrenamiento unificada, HydraHead supera a otros diseños híbridos en tareas de contexto largo, manteniendo a la vez un sólido razonamiento general. Con una selección de cabezales guiada por interpretabilidad, iguala el rendimiento en contexto largo de un híbrido por capas en proporción 3:1 con una relación LA:FA de 7:1. De manera crucial, entrenado con solo 15B de tokens, HydraHead logra una mejora superior al 69% sobre la línea base en una longitud de contexto de 512K, acercándose a Qwen3.5, un modelo líder de tamaño comparable con una longitud de contexto nativa de 256K. Esto destaca el significativo potencial de escalado de la hibridación a nivel de cabezales.
Los Agentes de Uso Computacional (CUA) se despliegan cada vez más en entornos interactivos dinámicos, lo que genera una creciente necesidad de aprendizaje continuo de habilidades durante la interacción. Enfoques recientes abordan este desafío aprendiendo habilidades reutilizables a partir de trayectorias exitosas. Sin embargo, estos métodos de aprendizaje de habilidades asumen en gran medida entornos estáticos y seguros, pasando por alto los riesgos derivados de interacciones adversariales (por ejemplo, inyecciones de instrucciones) y dinámicas ambientales (por ejemplo, ventanas emergentes). En entornos dinámicos, tales supuestos pueden conducir a un aprendizaje de habilidades riesgoso y a una ejecución frágil, socavando la confiabilidad de los CUA. Esto plantea la pregunta: ¿cómo pueden los CUA aprender y usar habilidades de manera segura en entornos dinámicos? Para abordar este problema, proponemos SkillHarness, un marco para el aprovechamiento seguro de habilidades en entornos dinámicos. SkillHarness va más allá de las abstracciones estáticas de habilidades al modelar el aprendizaje y la utilización de habilidades como un proceso de interacción restringido por la seguridad. Específicamente, introducimos el límite de habilidad, que aprovecha señales de supervisión de múltiples fuentes para identificar habilidades seguras a partir de trayectorias de interacción, y construimos restricciones de seguridad auto-mejorantes a lo largo del ciclo de vida de la habilidad. Además, SkillHarness introduce la reutilización selectiva de habilidades, donde las tareas se guían para descomponerse según el contexto y completarse mediante la activación selectiva de subconjuntos de habilidades. Nuestros experimentos demuestran que SkillHarness reduce significativamente la tasa de inseguridad de las habilidades aprendidas en un 57.1% y mejora consistentemente la estabilidad de ejecución bajo cambios ambientales dinámicos, superando las líneas base existentes.
La generación autorregresiva en modelos de lenguaje grandes (LLMs) decodifica convencionalmente desde la última capa, asumiendo que las representaciones más profundas generan predicciones del siguiente token más fiables. Revisamos esta suposición al revelar una dinámica recurrente de Adivinar-Refinar-Perturbar: las capas tempranas forman conjeturas gruesas, las capas intermedias refinan la semántica relevante para el razonamiento, y las capas finales pueden perturbar estas predicciones refinadas hacia tokens genéricos o preferidos por el alineamiento. Introducimos Decodificación Confiada, una estrategia de decodificación sin entrenamiento que selecciona dinámicamente la capa cercana a la final más fiable mediante una búsqueda hacia atrás conservadora guiada por entropía. Además, proporcionamos una formulación teórica de la selección de capas como un problema de parada óptimo, mostrando que, bajo ruido de proyección acotado y perturbación de alineamiento dominante en etapas tardías, nuestra regla de búsqueda filtra la perturbación mientras acota la pérdida en relación con la capa de refinamiento oráculo. Experimentos en LLMs densos y de Mezcla de Expertos demuestran ganancias consistentes en puntos de referencia de razonamiento desafiantes, incluyendo GPQA-Diamond, Omni-MATH y HLE, con cero sobrecarga de memoria y menos del 2% de aumento en latencia. Estos resultados sugieren que sortear dinámicamente las perturbaciones de la capa final puede desbloquear un comportamiento de razonamiento más sólido en LLMs alineados.
La auto-destilación mejora el razonamiento en modelos de lenguaje grandes al utilizar las propias trayectorias del modelo como señal de entrenamiento, generalmente mediante una alineación implícita a nivel de logits que minimiza la divergencia KL hacia una distribución objetivo privilegiada. Sin embargo, dado que esta supervisión se genera mediante un muestreo no controlado, no proporciona un conocimiento diagnóstico sobre los errores específicos del modelo ni una orientación correctiva para sus patrones de fallo individuales. En consecuencia, el modelo aprende a imitar una distribución privilegiada en lugar de recibir correcciones detalladas que señalen dónde y por qué falla su razonamiento. En este artículo, proponemos la Optimización de Política Aumentada con Trayectorias (TAPO), que avanza la auto-destilación desde la alineación distribucional implícita hacia la construcción explícita de trayectorias. Durante el entrenamiento con RL, el modelo produce tanto trayectorias correctas como incorrectas ante la misma consulta, y TAPO aprovecha esta estructura contrastiva para construir correcciones micro-reflexivas: nuevas trayectorias de entrenamiento que retienen el razonamiento erróneo del modelo hasta el punto de fallo, para luego insertar un diagnóstico en lenguaje natural y un razonamiento corregido guiado por una referencia correcta del mismo grupo de muestreo. Dado que cada trayectoria está anclada en el propio prefijo y las soluciones del aprendiz, la señal correctiva preserva en mayor medida la distribución on-policy del modelo que la alineación posicional impuesta por los métodos basados en KL. Para integrar estas trayectorias, TAPO introduce una selección de candidatos consciente de la dificultad en el límite de capacidad del modelo y una estimación de ventaja desacoplada para prevenir la contaminación del gradiente. Los experimentos en AIME 2024, AIME 2025 y HMMT 2025 muestran que TAPO logra mejoras consistentes sobre GRPO bajo el mismo número de pasos de entrenamiento. Análisis adicionales demuestran que TAPO fortalece tanto el razonamiento de primera pasada como la efectividad de corrección de errores.
Recientemente, los modelos OCR de extremo a extremo, ejemplificados por DeepSeek OCR, han vuelto a poner el OCR en el centro de atención. Una opinión ampliamente extendida sostiene que el uso de un modelo de lenguaje grande (LLM) como decodificador permite que el modelo aproveche la distribución previa del lenguaje, mejorando así el rendimiento del OCR. Sin embargo, la desventaja es igualmente evidente: a medida que la secuencia de salida se alarga, la caché KV acumulada incrementa el consumo de memoria y ralentiza progresivamente la generación. Esto contrasta marcadamente con los humanos, quienes no muestran tal declive en eficiencia durante tareas de copia de largo alcance. En este informe técnico, proponemos Unlimited OCR, un modelo diseñado para emular la memoria de trabajo de procesamiento humano. Tomando DeepSeek OCR como línea base, reemplazamos todas las capas de atención en el decodificador con nuestra Atención de Ventana Deslizante de Referencia (R-SWA), la cual reduce los costos computacionales de la atención manteniendo una caché KV constante durante todo el proceso de decodificación. Al combinar la alta tasa de compresión del codificador de DeepSeek OCR con nuestro diseño de caché KV constante, Unlimited OCR puede transcribir docenas de páginas de documentos en una sola pasada hacia adelante bajo una longitud máxima estándar de 32K. Más importante aún, R-SWA es un mecanismo de atención de procesamiento de propósito general: más allá del OCR, es igualmente aplicable a tareas como ASR, traducción, etc. Los códigos y los pesos del modelo están disponibles públicamente en http://github.com/baidu/Unlimited-OCR.
Los agentes de investigación profunda son sistemas basados en modelos de lenguaje de gran escala (LLM) diseñados para el razonamiento científico autónomo y de múltiples pasos, y poseen un inmenso potencial para acelerar la investigación en ciencias físicas. Sin embargo, aún faltan evaluaciones exhaustivas y en profundidad de sus capacidades en este ámbito. Para abordar esta carencia, presentamos PhySciBench, un punto de referencia altamente relevante para la investigación en ciencias físicas, que consta de 200 preguntas seleccionadas por expertos, equilibradas entre física y química, distribuidas en seis categorías de tareas que reflejan flujos de trabajo científicos reales. Las evaluaciones de modelos y sistemas de agentes de vanguardia en PhySciBench revelan un rendimiento limitado; incluso la línea base más sólida, Gemini Deep Research, alcanza una precisión de solo el 33,5 %. El análisis de los casos de fallo identifica tres deficiencias recurrentes: fragilidad en cadenas de razonamiento extensas, transferencia de conocimiento limitada entre pasos y falta de autoverificación fundamentada en la física. Motivados por estos hallazgos, desarrollamos DelveAgent, un marco modular de múltiples agentes equipado con un bucle de planificación adaptativa, memoria de doble granularidad y un mecanismo jerárquico de reflexión fundamentada en la física. En cuatro puntos de referencia científicos, DelveAgent mejora la precisión hasta en 7,5 puntos porcentuales, a la vez que reduce los costos de inferencia a aproximadamente un tercio de la línea base más sólida. Estos resultados establecen la importancia de PhySciBench como un punto de referencia crítico para evaluar sistemas de IA en ciencias físicas y demuestran que la especialización arquitectónica puede mejorar de manera efectiva la fiabilidad de la investigación científica autónoma.
Las tareas de horizonte largo son comunes en despliegues robóticos del mundo real, pero la detección de fallos en dichas tareas sigue estando poco explorada. Detectar fallos en tareas robóticas de horizonte largo es particularmente desafiante porque el inicio del fallo suele ser ambiguo y, típicamente, no se dispone de anotaciones temporales densas. Presentamos Foresight, un marco de detección de fallos que monitorea trayectorias de manipulación utilizando representaciones latentes de un modelo del mundo condicionado por la acción. Foresight se entrena únicamente con etiquetas finales de éxito o fallo a nivel de tarea. Al aprovechar las incrustaciones predictivas del modelo del mundo, nuestro método proporciona un marco unificado para la detección de fallos en diferentes políticas. Además, utilizamos predicción conforme funcional (FCP) para calibrar los umbrales de detección de forma adaptativa. Evaluamos Foresight con políticas de visión-lenguaje-acción de última generación en simulación en LIBERO-Long, ManiSkill-Long y BEHAVIOR-1K, lo comparamos con métodos de detección de fallos del estado del arte y lo validamos en robots reales con tres tareas de horizonte largo en un brazo ReactorX-200 y una tarea en un brazo Franka. Nuestros resultados sugieren que las incrustaciones del modelo del mundo condicionadas por la acción proporcionan una representación escalable para un monitoreo confiable de fallos en la manipulación de horizonte largo.
Los rastros largos de agente compuestos por cadenas de pensamiento y llamadas a herramientas acumulan contenido obsoleto que ancla las generaciones posteriores y, eventualmente, supera la ventana de contexto. Los andamios existentes lo mitigan con compactación a intervalos fijos desencadenada por un umbral de tokens. Estos desencadenantes no prestan atención a la estructura de la trayectoria, arriesgando el descarte de resultados parciales a mitad de una derivación o búsqueda. Proponemos SelfCompact, un andamio que permite al propio modelo decidir cuándo y cómo compactar. Específicamente, combina dos elementos en tiempo de inferencia: (i) una herramienta de compactación que el modelo invoca para resumir el contexto acumulado, y (ii) una rúbrica ligera que especifica cuándo activarse (una subtarea se ha resuelto, o la trayectoria está convergiendo) y cuándo suprimirse (a mitad de derivación, o cuando está estancado). Ambos son necesarios. La herramienta por sí sola se usa de manera desigual entre modelos de pesos abiertos, a menudo invocada en momentos poco útiles o no en absoluto; la rúbrica por sí sola no puede actuar. Juntos, provocan una compactación adaptativa efectiva sin ningún ajuste fino ni supervisión externa. Presentamos resultados empíricos en seis puntos de referencia (matemáticas competitivas y búsqueda agéntica) y siete modelos. Nuestros resultados muestran que SelfCompact iguala o supera la sumarización a intervalos fijos con una fracción del costo de tokens, mejorando con respecto a una línea base sin sumarización hasta en 18.1 puntos en matemáticas y 5-9 puntos en búsqueda agéntica con un costo por pregunta un 30-70% menor. Nuestros resultados exponen una brecha metacognitiva: aunque los modelos no instruidos no pueden determinar de manera confiable cuándo su propio contexto se está deteriorando, una rúbrica ligera cierra esta brecha, reformulando el cuándo compactar como una capacidad que los andamios pueden proporcionar sin entrenamiento.
Los teléfonos se están convirtiendo en una superficie de ejecución importante para agentes de propósito general, pero entrenar modelos abiertos para un uso fiable del teléfono sigue siendo difícil porque el entorno que importa en el despliegue —dispositivos reales ejecutando aplicaciones reales— es lento, con estado, con efectos secundarios y difícil de reiniciar o verificar, mientras que los entornos simulados escalables solo aproximan el comportamiento real. Presentamos PhoneBuddy, una receta de entrenamiento y una línea de modelos abiertos para el uso agéntico del teléfono que combina un entorno real de aplicaciones con un entorno simulado, PhoneWorld, que reconstruye aplicaciones simuladas ejecutables a partir de la estructura real de uso de la interfaz gráfica. PhoneBuddy primero construye una etapa compartida de ajuste fino supervisado a partir de trayectorias recolectadas en ambos entornos, y luego compara el aprendizaje por refuerzo (RL) en entorno real con el RL mixto en ambos entornos. En una evaluación humana de 150 tareas en teléfonos reales que abarca aplicaciones, mini-aplicaciones y flujos de trabajo entre aplicaciones, la tasa de éxito de las tareas mejora del 36,67 % después del ajuste fino supervisado al 40,67 % después del RL en entorno real y al 45,33 % después del RL mixto. En AndroidWorld, la misma progresión aumenta del 60,3 % al 77,2 % y al 83,2 %. Estos resultados muestran que el entrenamiento con aplicaciones simuladas no reemplaza al RL en entorno real, sino que es una fuente complementaria de interacción escalable, reiniciable y verificable automáticamente. Las mejoras son más pronunciadas en tareas de aplicaciones y mini-aplicaciones, mientras que los flujos de trabajo entre aplicaciones de largo alcance siguen siendo un desafío abierto importante.
Los flujos de trabajo del descubrimiento científico suelen incluir y depender en gran medida de notas de laboratorio, donde los investigadores registran observaciones, interpretan resultados inciertos y planifican experimentos de seguimiento. Estas notas de laboratorio informativas preservan el razonamiento científico en evolución y la incertidumbre del autor, en lugar de los resultados finales pulidos que se presentan en las publicaciones, ofreciendo una valiosa oportunidad para que la IA participe en la exploración científica a un nivel más completo y profundo. Sin embargo, la mayoría de los trabajos previos sobre texto científico se centran en artículos, protocolos o bases de datos estructuradas, dejando las notas de laboratorio informales poco exploradas como entradas para agentes de IA en ciencia. Esta brecha es relevante porque las notas de laboratorio a menudo mezclan observaciones validadas, juicios tentativos y posibles pasos experimentales posteriores dentro del mismo pasaje. Si estas señales se confunden, un agente de IA podría malinterpretar juicios científicos inciertos como conclusiones confirmadas o acciones ejecutables. Con este fin, presentamos Notes2Skills, un marco de dos etapas para convertir cuadernos de laboratorio en habilidades verificables para agentes científicos de IA, preservando al mismo tiempo la certeza del autor. En siete condiciones y tres sesiones de laboratorio húmedo, Notes2Skills es la única configuración que no confunde notas inciertas con instrucciones firmes ni descarta las firmes. Demostramos que la preservación de la certeza es la pieza faltante entre los cuadernos de laboratorio y las habilidades confiables de los agentes, abriendo un camino hacia sistemas de co-científico de IA más seguros.
Los Agentes de Búsqueda (SA) suelen aprovechar modelos de lenguaje grandes (LLMs) para apoyar tareas complejas de búsqueda de información, explorando fuentes web de forma autónoma y sintetizando la información en respuestas completas. Para la evaluación de los SA, los puntos de referencia previos se centran principalmente en tareas especializadas que difícilmente surgen en escenarios reales de uso. Además, su dependencia de rúbricas toscas a nivel de tarea suele limitar la interpretabilidad de la evaluación. Para cerrar esta brecha, presentamos DailyReport, un punto de referencia de propósito abierto para evaluar las capacidades de los SA en tareas de búsqueda cotidianas. Contiene 150 tareas de propósito abierto con 3,546 rúbricas asociadas, capturando demandas de información ampliamente discutidas y oportunas de usuarios reales. Cada tarea se descompone en subtareas y se evalúa con rúbricas en cascada a través de dimensiones desglosadas. Mediante la atribución de rendimiento en cascada y la agregación centrada en el usuario, obtenemos puntuaciones altamente interpretables para cada dimensión, junto con una puntuación de preferencia del usuario. Nuestros resultados en 17 sistemas agentivos muestran que los sistemas actuales aún no alcanzan las expectativas de los usuarios. Para facilitar futuras investigaciones, nuestro conjunto de datos y código están disponibles públicamente en https://github.com/AGI-Eval-Official/DailyReport.
Los agentes que utilizan terminales se han convertido rápidamente en la aplicación descendente más popular de los modelos de lenguaje (ML). A pesar de su prevalencia, pocos trabajos académicos han examinado el entrenamiento basado en RL de estos modelos, probablemente debido a la dificultad de los benchmarks, la falta de datos y la ausencia de recetas base sencillas. Presentamos Tmax, la receta de RL abierta más potente hasta la fecha para agentes de terminal, que acerca las recetas abiertas de datos a la frontera. Aunque simple, nuestra receta alcanza un 27% en Terminal-Bench 2.0 con solo 9 mil millones de parámetros, superando modelos mucho más grandes de trabajos previos. En concreto, generamos datos utilizando una taxonomía novedosa que combina control de dificultad, personajes y diversificación de verificadores, lo que nos permite generar de forma económica grandes cantidades de entornos de terminal para entrenamiento RL y SFT. Publicamos nuestro conjunto de datos de terminal, que es más de 2.5 veces mayor que los conjuntos de datos de agentes de terminal publicados anteriormente. Luego, entrenamos modelos de pesos abiertos mediante RL con nuestros datos, utilizando una receta sencilla basada únicamente en resultados. Liberamos nuestros datos, modelos y código como una referencia sólida para futuros trabajos académicos abiertos sobre agentes de terminal en https://github.com/hamishivi/tmax.
Alinear modelos de flujo de texto a imagen con preferencias humanas mediante retropropagación directa de recompensas es eficiente en términos de muestras, pero se ve obstaculizado por dos patologías bien conocidas: las activaciones no pueden almacenarse a lo largo de toda la trayectoria de muestreo a la escala de los modelos modernos, y los productos jacobianos encadenados a través de los pasos inflan el gradiente de recompensa a medida que se propaga hacia los índices iniciales. Los métodos basados en conectores, como LeapAlign, abordan estos problemas reemplazando la trayectoria completa hacia atrás por un camino corto y fijo, destacando un desacoplamiento útil entre el muestreo y la optimización. Sin embargo, la calidad del gradiente resultante depende de qué tan precisamente este camino corto aproxima el despliegue completo, especialmente en intervalos largos. Proponemos FlowBP, un marco unificado de trayectorias sustitutas que trata la trayectoria hacia atrás como el objeto de diseño. FlowBP mantiene un despliegue en caché sin gradiente para el muestreo, y luego construye un sustituto ligero hacia atrás a partir de velocidades en caché y selectivamente reenviadas. Esta visión separa cuatro opciones: la entrada del modelo de recompensa, el conjunto activo, los pesos de integración y el acoplamiento puente, y recupera métodos previos de gradiente directo como configuraciones particulares. Dentro de este marco, instanciamos tres variantes: FlowBP-Sparse usa reconstrucción de Euler dispersa, FlowBP-Bridge añade acoplamiento puente controlado, y FlowBP-Lagrange eleva el orden de la cuadratura de salto. Las tres limitan la memoria por el tamaño del conjunto activo y limitan el encadenamiento de gradientes a como máximo un factor jacobiano. En SD3.5-M, FLUX.1-dev y FLUX.2-Klein-base, en métricas de preferencia, calidad y composición, las tres variantes mejoran con respecto a las líneas base de gradiente directo en la mayoría de las métricas.
El flow matching ha surgido recientemente como un paradigma sólido para la generación de texto a imagen (T2I) de última generación, permitiendo una generación de alta calidad con un número reducido de pasos de muestreo. A medida que estos modelos se integran cada vez más en aplicaciones del mundo real, garantizar una generación de contenido seguro y no sensible se ha convertido en un requisito crítico. Sin embargo, adaptar los métodos de seguridad y eliminación de conceptos a este nuevo marco de generación sigue siendo un desafío abierto. En concreto, los métodos anteriores dependen en gran medida de la dirección iterativa de la trayectoria a través de varios pasos de eliminación de ruido o de la manipulación del embedding del prompt centrada en CLIP. Estos supuestos de diseño plantean cuellos de botella fundamentales para la seguridad en la generación T2I basada en flow matching, donde los pasos de muestreo limitados restringen la corrección iterativa y los codificadores de texto modernos sensibles al contexto reducen la efectividad de las intervenciones a nivel de embedding. En este artículo, proponemos VESFlow, un método de seguridad sin entrenamiento adaptado al flow matching con un número extremadamente reducido de pasos de muestreo. Aprovechando el hecho de que los modelos de flow matching aprenden la velocidad marginal, editamos directamente el campo de velocidad mediante una posteriori condicional segura. VESFlow dirige la trayectoria hacia salidas seguras mientras deja el prompt condicionante sin cambios. Basándonos en la observación de que VESFlow deja las salidas sin cambios bajo prompts benignos, introducimos además un filtrado basado en puntuación de riesgo que omite la edición de velocidad para reducir el costo computacional mientras preserva la generación de prompts benignos. Basándonos en este filtrado, proponemos VESFlow+, una variante más potente de VESFlow que no solo edita la velocidad hacia la dirección segura, sino que también la aleja de la dirección no segura. Los resultados experimentales muestran que VESFlow+ elimina el concepto objetivo, reduciendo la tasa de éxito de ataque por NudeNet al 6.3% en Ring-A-Bell y al 6.8% en MMA-Diffusion en el modelo MeanFlow de 4 pasos, mientras preserva la fidelidad en prompts benignos.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) con pesos abiertos permiten el progreso científico y una implementación generalizada. Sin embargo, dificultan el control del acceso a capacidades sensibles. La práctica actual suprime las capacidades peligrosas antes del lanzamiento o media el acceso a través de servicios cerrados que utilizan variantes de modelos especializadas, monitores de entrada/salida y permisos de API. El primer enfoque es susceptible a ataques de jailbreak, sacrificando la capacidad para todos los usuarios con el fin de mitigar los riesgos planteados por unos pocos; el segundo es fundamentalmente incompatible con la publicación de pesos abiertos. En este artículo, proponemos los Modelos de Lenguaje por Niveles (TLMs, por sus siglas en inglés), donde un único conjunto de pesos publicados admite múltiples niveles de capacidad. En su configuración pública predeterminada, un TLM se comporta como un LLM convencional. Una clave secreta compacta especifica una permutación sobre un subconjunto pequeño de parámetros, induciendo un grafo de cómputo alternativo sobre los mismos pesos que expone capacidades adicionales. Desarrollamos un protocolo de entrenamiento que preentrena conjuntamente ambas configuraciones desde cero y luego ajusta finamente la configuración con clave en datos privados con regularización para preservar el comportamiento del modelo público. Preentrenamos TLMs de 180M y 650M de parámetros y demostramos que la configuración con clave puede adquirir un nuevo idioma, obtener capacidad de seguir instrucciones y memorizar conocimiento factual privado, mientras que la configuración pública no presenta ninguna de estas capacidades. Además, mostramos que nuestro enfoque se extiende de forma natural a múltiples niveles jerárquicos. Dado que la autorización opera sobre la estructura de pesos del modelo en lugar del espacio de entrada, el mecanismo resiste la extracción basada en ajuste fino y el compromiso parcial de la clave. En general, los TLMs representan un paso hacia la reconciliación de la publicación de pesos abiertos con el control selectivo de capacidades.
El preentrenamiento de acciones latentes aprende representaciones de cambios visuales a partir de pares de observaciones, pero los métodos existentes suelen codificar cada transición como una representación única no estructurada que enreda la magnitud y el modo de la transición. Introducimos Acciones Latentes Polares con Estructura Radial (PoLAR), que impone una estructura de dirección radial en las acciones latentes, incentivando que el radio codifique la magnitud de la transición y la dirección retenga el modo de transición. PoLAR utiliza el desplazamiento temporal entre dos observaciones como un proxy débil de la magnitud de la transición, favoreciendo que las acciones latentes de pares de observaciones separados por mayores intervalos temporales ocupen radios más grandes. Materializamos esta estructura en el espacio hiperbólico, cuyo volumen expansivo con el radio ofrece un ajuste natural para modos de transición más diversos a mayores magnitudes. En entornos de preentrenamiento intra-tarea y a gran escala, PoLAR mejora el rendimiento de la política descendente en experimentos robóticos simulados y reales, superando a las líneas base de acciones latentes y a los VLA preentrenados de alto rendimiento. Estos resultados sugieren que la geometría del espacio de acciones latentes es una elección de diseño importante para transferir el preentrenamiento visual al aprendizaje de políticas robóticas descendentes.
Este trabajo presenta un marco general para entrenar modelos de lenguaje de gran escala (LLMs) a "Conectar los Puntos" (CoD), una meta-capacidad requerida por agentes de ciclo de vida largo: a medida que un agente de IA basado en LLM se despliega en un entorno, resuelve una larga secuencia de tareas mientras explora continuamente el entorno, aprende de sus propias experiencias y actualiza iterativamente su contexto sobre el entorno, logrando así un rendimiento progresivamente mejor en tareas futuras condicionadas por el contexto actualizado. Los componentes principales del marco CoD incluyen: (1) diseño de algoritmos e infraestructura para aprendizaje por refuerzo (RL) de extremo a extremo con secuencias largas de despliegue que intercalan episodios de resolución de tareas y actualización de contexto; (2) tareas y entornos para incentivar y elicitar la meta-capacidad objetivo en los LLMs durante el entrenamiento, así como para medir fielmente el progreso durante la evaluación. Presentamos implementaciones de prueba de concepto del marco CoD, incluyendo un algoritmo RL de estilo GRPO con asignación de crédito detallada, así como tareas y entornos adaptados a la meta-capacidad objetivo (en lugar de capacidades LLM específicas de dominio o RL estándar tarea por tarea). Los resultados empíricos validan la eficacia del entrenamiento RL de extremo a extremo en el entorno CoD, y demuestran el potencial de generalización fuera de la distribución —dentro de los dominios de entrenamiento, a través de diferentes dominios, y desde CoD a entornos Ralph-loop— de la meta-capacidad elicitada. Nuestra investigación de CoD conecta varias líneas de trabajos previos y abre nuevas oportunidades para avanzar en LLMs y agentes de IA. Para facilitar futuras investigaciones y aplicaciones, publicamos nuestras implementaciones en https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.
Intentos recientes de combinar grandes modelos de lenguaje (LLMs) con el descubrimiento causal piden a los modelos inferir direcciones por pares, proponer estructuras de grafos, o inyectar salidas de modelos de lenguaje como previas y restricciones. Estos enfoques prometen un análisis más rápido, pero también ocultan si una evidencia causal está respaldada por datos y supuestos o por asociaciones textuales, artefactos de instrucciones y mecanismos alucinados. Defendemos un rol diferente para los agentes en el descubrimiento causal. Los agentes deben inspeccionar datos, recuperar contexto, explicar los supuestos del método y aclarar las salidas del grafo, pero no deben proporcionar aristas, orientaciones, previas, restricciones ni conclusiones causales. Proponemos el principio de que los agentes asisten al flujo de trabajo, mientras que las afirmaciones causales permanecen fundamentadas en datos, supuestos explícitos, algoritmos formales, diagnósticos y decisiones del usuario o del experto en el dominio. Materializamos este principio en causal-learn+, una plataforma en línea que coordina análisis de datos, preprocesamiento, recomendación de métodos, incorporación de conocimiento experto, descubrimiento formal e interpretación en torno al ecosistema algorítmico de causal-learn. Un caso de estudio con datos de personalidad Big Five ilustra el pipeline asistido por agentes de descubrimiento causal sin convertir la falta de fiabilidad del modelo de lenguaje en evidencia causal. La plataforma está disponible en causallearn.com.
Los modelos de lenguaje modernos, incluyendo las variantes basadas en transformadores, redes recurrentes y mecanismos de memoria, comparten un chasis común: una pila de capas idénticas en las que los parámetros se distribuyen uniformemente a lo largo de la profundidad. Se trata de un valor por defecto heredado del transformador original y que apenas ha cambiado desde entonces, aunque un creciente cuerpo de evidencia sugiere que las capas contribuyen de manera no uniforme a la salida final, refinando las capas posteriores el flujo residual en lugar de transformarlo. Nos preguntamos si la capacidad paramétrica debería reflejar esta asimetría. Nuestro experimento controlado muestra que, bajo un presupuesto fijo, asignar más capacidad a las capas iniciales y menos a las finales mejora la perplejidad en comparación con una línea base de anchura uniforme, mientras que la asignación inversa la perjudica. Partiendo de este resultado, introducimos los Modelos de Lenguaje con Reducción Gradual (TLMs, por sus siglas en inglés), un principio arquitectónico en el que un componente portador de parámetros se reduce monótonamente a lo largo de la profundidad bajo un presupuesto total fijo. Los MLP (Perceptrones Multicapa) son el lugar natural para esta instanciación: dominan el recuento de parámetros en todas las familias modernas de LM y exponen la anchura como un único eje limpio de variación. A lo largo de tres escalas de modelo y cuatro arquitecturas (Transformador, Atención con Compuerta, Atención-Hope y Titans), la reducción gradual de la anchura de los MLP mediante un programa coseno suave mejora sistemáticamente la perplejidad y el rendimiento en benchmarks descendentes en comparación con las líneas base uniformes, sin coste adicional de parámetros ni computacional. Estos hallazgos establecen la asignación de capacidad consciente de la profundidad como un eje simple y agnóstico a la arquitectura en el diseño de modelos de lenguaje, una palanca gratuita oculta a plena vista.
A medida que los sistemas agentivos abordan tareas multi-paso cada vez más complejas, evaluar sus trayectorias presenta un cuello de botella importante: la anotación humana de una sola trayectoria en benchmarks agentivos populares puede llevar horas, dificultando la escalabilidad de las evaluaciones tanto para medir el rendimiento como para curar datos de entrenamiento. Esto ha impulsado una dependencia generalizada de enfoques automatizados, como el uso de un LLM como juez (LLMJ), para criticar agentes a nivel de proceso y de resultado a escala; sin embargo, la solidez de las críticas generadas por LLMJ a menudo no se mide. Aquí presentamos Counsel, el primer conjunto de datos público de meta-evaluaciones para tareas agentivas. Counsel consiste en críticas a nivel de proceso provenientes de LLMJs de peso abierto sobre dos benchmarks agentivos: tau-bench (agentes de atención al cliente) y DA-Code (agentes de codificación), junto con meta-evaluaciones humanas de dichas críticas. Los anotadores humanos etiquetan cada error señalado como "acertado", "ubicación correcta pero razonamiento pobre" o "no debería haberse señalado", logrando un acuerdo fiable entre anotadores (alfa de Krippendorff de 0.78). El conjunto de datos resultante estratifica las críticas de LLMJ según la alineación humana, tanto en la ubicación del error dentro de una trayectoria como en la calidad del razonamiento, sirviendo como datos valiosos para calibrar, mejorar o entrenar LLMJs para agentes. Al comparar jueces de peso abierto, encontramos que modelos de juez más capaces y un mayor esfuerzo de razonamiento mejoran el acuerdo con los humanos, alcanzando el juez más fuerte aproximadamente un 88% de acuerdo en ubicación y un 65% en razonamiento. Counsel se genera utilizando modelos de peso abierto y está licenciado de forma permisiva para un uso amplio por parte de la comunidad, lo que esperamos permita un estudio riguroso y una mejor alineación de los evaluadores basados en LLM para sistemas agentivos.
La tarea de Preguntas y Respuestas Visuales 3D Multivista (MV3D-VQA) requiere integrar observaciones parciales en una representación de escena 3D coherente y seleccionar puntos de vista informativos para un razonamiento espacial de múltiples pasos. Sin embargo, los LLM multimodales actuales suelen entrenarse con una supervisión dispersa a nivel de respuesta, lo que a menudo produce un razonamiento inconsistente entre vistas y una selección de vistas frágil. Presentamos DR-MV3D (Recompensa Densa para MV3D-VQA), un marco de aprendizaje basado en mapas que proporciona recompensas densas y verificables para supervisar el proceso de razonamiento. Nuestro enfoque descompone MV3D-VQA en (i) la construcción de un mapa global alocéntrico, (ii) la planificación de una trayectoria de vistas condicionada a la pregunta, y (iii) la fundamentación egocéntrica para la predicción de respuestas. Para que los pasos intermedios sean aprendibles sin anotaciones manuales, introducimos dos recompensas: una recompensa de consistencia global que alinea el mapa predicho con pseudoobjetivos geométricamente consistentes provenientes de modelos fundamentales de visión 3D congelados (por ejemplo, VGGT + SAM3), y una recompensa de trayectoria local que supervisa la selección ordenada de puntos de vista. Optimizamos todo el flujo mediante optimización de políticas a nivel de trayectoria (GRPO). Los experimentos en MindCube, VSI-Bench y BLINK (MV) muestran que DR-MV3D mejora consistentemente en comparación con líneas base sólidas de múltiples imágenes, respaldando la efectividad de la supervisión densa a nivel de proceso para el razonamiento 3D multivista.
Los modelos Visión-Lenguaje-Acción (VLA) proporcionan un paradigma unificado para la manipulación robótica, pero su despliegue en el mundo real a menudo se ve limitado por la eficiencia de ejecución. Si bien los esfuerzos existentes se centran predominantemente en la eficiencia centrada en el cómputo para reducir la latencia de inferencia por paso, la eficiencia intrínseca de la política de estos modelos sigue siendo en gran medida inexplorada. La eficiencia de la política se ve afectada fundamentalmente por dos factores: la longitud ejecutable efectiva de los fragmentos de acción predichos y el total de pasos físicos necesarios para completar una tarea. Estos dos factores determinan conjuntamente el número total de llamadas de inferencia hacia adelante durante la ejecución. Observamos que las políticas VLA actuales presentan problemas de falta de fiabilidad en la planificación y redundancia de acciones, sufriendo una severa degradación de la predicción en la cola de los fragmentos de acción y tendiendo a generar pasos físicos innecesariamente redundantes. Para abordar esto, proponemos PolicyTrim, un marco de post-entrenamiento basado en aprendizaje por refuerzo que extiende la longitud confiable de los fragmentos de acción y reduce los pasos físicos redundantes. Para la extensión confiable de fragmentos, empleamos una estrategia de exploración dinámica que recompensa explícitamente la finalización exitosa de longitudes ejecutables más largas, llevando progresivamente el horizonte de predicción confiable a su límite empírico. Para la eficiencia de pasos, diseñamos una recompensa consciente de la redundancia que favorece directamente las finalizaciones exitosas de tareas con menos pasos, mientras penaliza los atajos no reproducibles, eliminando efectivamente las acciones físicas redundantes. Experimentos extensos en tres referencias y tres modelos VLA demuestran que PolicyTrim mejora la utilización de fragmentos de acción en 3 veces y reduce los pasos de ejecución física en un 51,4%. En última instancia, nuestro marco proporciona una aceleración de despliegue de extremo a extremo de hasta 5,83 veces sin comprometer las tasas de éxito de las tareas.
Es tentador suponer que cualquier tarea resoluble mediante un programa corto puede enseñarse a un modelo como su cadena de pensamiento: escribir los pasos, ajustar finamente, y el modelo los sigue. Este artículo demuestra que esta suposición falla para una clase identificable de procedimientos. El banco de pruebas consta de nueve tareas de razonamiento, cada una proveniente de un generador determinista; las divisiones pública y oculta comparten generadores, por lo que los datos retenidos actúan como proxy de la precisión en la prueba. Los generadores se revierten a solucionadores en Python, se renderizan como cadena de pensamiento y se destilan en un LoRA de rango ≤ 32 sobre un modelo Nemotron de 30B (3,5B activos). Las tareas computables hacia adelante se instalan fácilmente: búsqueda/aritmética y una tarea booleana de 8 bits se transfieren (≥ 0,99 y 0,68). La criptoaritmética no lo logra: destilar su búsqueda con retroceso se mantiene en 0,01-0,07 a lo largo de once diseños de cadena de pensamiento, aprendizaje por refuerzo a partir de recompensas verificables y autoentrenamiento, aunque un solucionador de búsqueda responde al 71% de los casos. Esto no es una brecha de capacidad. El modelo realiza la aritmética en el 97-100% de las líneas y clasifica el cifrado correcto entre sus ocho primeros en el 71%; no puede llevar la búsqueda hacia adelante como una derivación de izquierda a derecha. El ajuste fino aprende la forma de un paso de eliminación verificable, mientras que sus veredictos se convierten en plantillas incondicionales, correctas solo el 16-57% de las veces ("veredicto como token"). El techo se mantiene a través de backbones desde 3B hasta 671B y a través de ajuste fino y prompting; una intervención controlada aísla la causa: revelar la clave del cifrado, lo que vuelve la derivación hacia adelante, eleva los mismos casos de 0,03 a 0,57. Cuando la única solución de un procedimiento es la búsqueda sobre una estructura libre de información, no existe una cadena de pensamiento hacia adelante fiel que imitar. La tarea se vuelve aprendible solo eliminando la búsqueda, precomputando su núcleo combinatorio en un catálogo y reduciendo el trazo a recuerdo más verificación; la solución en primer lugar alcanza LB privada 0,92 de esta manera. Lo que se destila es memorización y verificación, no búsqueda.
Los modelos de difusión de video han permitido avances notables en la generación y edición de video. Sin embargo, la preservación del contenido sigue siendo un desafío central: los métodos existentes regeneran cada píxel y a menudo alteran elementos que deberían permanecer invariables, como personajes o escenas de fondo. Presentamos Vera, un marco de difusión en capas para la edición de video con preservación de contenido. En lugar de regenerar el video completo, Vera genera una capa de edición junto con una máscara alfa para su composición con el video fuente, separando por diseño la edición creativa de la preservación del contenido. Para fomentar una composición coherente con el video fuente, extendemos el DiT de texto a video a una arquitectura de Mixtura de Transformadores (MoT), con DiTs separados para cada capa que interactúan a través de autoatención conjunta. Para respaldar el entrenamiento de Vera, construimos además un conjunto de datos en capas de alta calidad con máscaras alfa precisas, escenas y dinámicas diversas, y efectos visuales. En nuestro punto de referencia cuantitativo y estudio de preferencia humana, Vera supera a los modelos líderes de edición de video de código abierto en preservación de contenido, manteniéndose competitiva en calidad de edición, utilizando 486K fotogramas de datos de entrenamiento en capas.
El aprendizaje por refuerzo (RL) es un enfoque central para mejorar las capacidades de razonamiento en modelos de lenguaje grandes (LLMs), donde la eficiencia del entrenamiento depende críticamente de cómo se muestrean los problemas durante la optimización. Los métodos existentes de aprendizaje curricular adaptativo suelen priorizar los prompts de dificultad intermedia, tratando la selección de problemas como un problema de bandidos estándar con brazos independientes y pasando por alto la naturaleza estructurada y heterogénea del espacio de tareas. En este trabajo, enmarcamos el muestreo de problemas como un problema de bandidos estructurado por variedades con no estacionariedad endógena: los problemas se relacionan a través del espacio de representación latente del modelo, y las decisiones de muestreo pueden dirigir cómo evolucionan las señales de aprendizaje a través de ese espacio. Para operacionalizar esta perspectiva, introducimos el Currículo Bayesiano de Variedades (BMC), un marco consciente de la estructura que organiza los problemas en un árbol de tareas jerárquico y aplica aprendizaje bayesiano para guiar el muestreo. Empíricamente, encontramos que diferentes estrategias de muestreo inducen compensaciones no triviales entre productividad (señal de aprendizaje), diversidad (cobertura de la variedad de tareas) y utilidad (relevancia evaluativa). Estos resultados muestran que priorizar únicamente la dificultad es insuficiente para obtener un rendimiento sólido en etapas posteriores, destacando la importancia de incorporar la estructura y el conocimiento del tipo en el muestreo de problemas.
Las sondas lineales se utilizan ampliamente en la investigación en interpretabilidad y a menudo se comparan mediante la similitud coseno. La similitud coseno de Mahalanobis (MCS) entre dos direcciones, que repondera el producto interno con la covarianza de los datos de prueba, constituye un refinamiento natural y consciente de la tarea. Ying et al. (2026) reportan que la MCS de una sonda con respecto a una sonda de referencia entrenada con datos fuera de distribución (OOD) predice de manera casi perfectamente lineal el AUROC OOD de la sonda (R² = 0,98). Aquí extendemos este hallazgo empírico a través de modelos, capas y dominios conceptuales, y demostramos este fenómeno general en forma cerrada: para clases balanceadas cuyas proyecciones son gaussianas, el AUROC OOD y la MCS con respecto a la sonda de referencia son lineales porque ambos son funciones sigmoideas de la relación señal-ruido (SNR) de la sonda sobre los datos de prueba. La teoría también predice cuándo esta linealidad falla, lo cual verificamos empíricamente. La MCS ofrece una alternativa fundamentalmente teórica y empíricamente eficaz a la similitud coseno euclidiana para comparar sondas lineales.
Aunque los conjuntos de datos grandes y diversos han impulsado los avances recientes en modelos de gran escala, identificar la mezcla óptima de datos para el pre-entrenamiento y el post-entrenamiento sigue siendo un problema abierto significativo. Abordamos este desafío con FASTMIX, un marco novedoso que automatiza el descubrimiento de mezclas de datos mientras entrena solo un único modelo proxy. En lugar de depender de heurísticas predefinidas o simulaciones que consumen muchos recursos, FASTMIX optimiza conjuntamente los coeficientes de mezcla y los parámetros del modelo, mejorando sustancialmente la eficiencia y escalabilidad respecto a enfoques anteriores. El núcleo de FASTMIX es una reformulación de la selección de mezcla como un problema de optimización bilevel. Bajo esta reformulación, mostramos que optimizar las proporciones de mezcla es matemáticamente equivalente a asignar pesos de pérdida por fuente bajo un muestreo uniforme de fuentes. Esto incorpora los coeficientes de mezcla directamente en el objetivo de optimización iterativa diferenciable, permitiendo una optimización eficiente basada en gradientes tanto de la mezcla como del modelo. Para resolver el problema de optimización, FASTMIX implementa un procedimiento de optimización iterativa aproximada, alternando entre (i) la actualización de los parámetros del modelo con datos muestreados según las proporciones de mezcla actuales (bucle interno) y (ii) la actualización de las proporciones de mezcla basándose en la retroalimentación de validación (bucle externo). Tanto en pre-entrenamiento como en post-entrenamiento, FASTMIX supera a las líneas base al tiempo que reduce drásticamente el costo de búsqueda. Código (https://github.com/hrtan/fastmix)
Los Transformers de Visión (ViT) dominan la visión por computadora. Sin embargo, su dependencia de proyectores de parches rígidos dificulta su transferencia a la Observación de la Tierra (EO), donde las modalidades, escalas y resoluciones de entrada varían ampliamente. Presentamos UniverSat, una arquitectura tipo ViT construida alrededor de un Codificador Universal de Parches que mapea parches de resoluciones espaciales, espectrales y temporales arbitrarias, tanto de sensores ópticos como no ópticos, a un espacio de incrustación compartido con un conjunto de pesos común. Esto permite entrenar un único modelo en corpus multimodales heterogéneos mediante autosupervisión, obteniendo características espaciales robustas y agnósticas al sensor. Validamos este enfoque con resultados sólidos en clasificación y segmentación sobre benchmarks estándar de EO de GeoBench, PANGEABench y SpectralEarth. Nuestro código y modelos están disponibles en https://github.com/gastruc/UniverSat.
A medida que los laboratorios de inteligencia artificial se aproximan a un techo de datos donde la capacidad computacional supera la tasa de generación de nuevo texto de alta calidad, el preentrenamiento de modelos de lenguaje está transitando hacia un régimen con restricciones de datos y abundancia computacional que exige un entrenamiento productivo con múltiples épocas sobre corpus fijos. El preentrenamiento autorregresivo (AR) estándar presenta un sobreajuste severo en este escenario, alcanzando su óptimo tempranamente y deteriorándose luego de forma continua. Investigamos la aumentación de datos en tiempo de entrenamiento como regularizador para mitigar este sobreajuste y permitir un entrenamiento productivo durante cientos de épocas sobre los mismos datos. Introducimos tres categorías ortogonales de aumentación para el preentrenamiento AR: ruido a nivel de tokens (enmascaramiento, reemplazo aleatorio), permutaciones de secuencias (predicción de derecha a izquierda, Fill-in-the-Middle) y predicción de desplazamiento de objetivo (x_{t+i} para i > 1). Mediante ablationes sistemáticas, encontramos que las aumentaciones individuales retrasan el sobreajuste y reducen la pérdida de validación en comparación con la línea base, siendo el reemplazo aleatorio de tokens el que logra la mejor pérdida mínima entre los métodos individuales. La combinación de categorías de aumentación reduce aún más la pérdida mínima de validación. Nuestros experimentos demuestran que las aumentaciones de datos mitigan la ineficiencia de datos del preentrenamiento AR y ofrecen una solución prometedora para el régimen con restricciones de datos~\footnote{Todo el código y los datos están disponibles en https://github.com/michaelchen-lab/data-augmentations-for-pretraining.}.
Los agentes de LLM en la respuesta a preguntas intensivas en conocimiento realizan acciones de recuperación y razonamiento con conocimiento incompleto sobre si su respuesta actual es incierta, no fundamentada o ya completa. Esto produce dos modos de fallo: comprometerse con respuestas seguras pero no fundamentadas, lo que perjudica la precisión, y realizar una recuperación excesiva cuando la evidencia disponible ya es suficiente, lo que resulta en un cómputo desperdiciado. Para proporcionar a los agentes una imagen más completa del espacio de estados en el que operan, introducimos la telemetría de verificador calibrado (CalVerT), que aumenta el estado del agente con telemetría adicional: una puntuación de autoconfianza calibrada y una puntuación de verificador de fundamentación. Demostramos que CalVerT puede mejorar a los agentes tanto en entornos sin entrenamiento como basados en entrenamiento. En cuatro puntos de referencia de QA, encontramos que CalVerT aumenta el F1 al activar la recuperación en casos donde los agentes dependen en exceso del conocimiento paramétrico, mientras reduce la recuperación redundante en casos donde los agentes tienen suficiente contexto para responder. Mostramos que CalVerT puede aumentar los marcos de trabajo de QA existentes sin entrenamiento. Además, CalVerT también mejora los sistemas entrenados: simplemente al aumentar el estado de un agente con telemetría, observamos mejoras después del aprendizaje por refuerzo, en comparación con un agente con entrenamiento idéntico pero sin telemetría CalVerT.
La optimización discreta de desencadenantes textuales —la búsqueda de secuencias de texto que, al ser ingeridas por un modelo, lo dirijan hacia un objetivo específico— sustenta el red-teaming de modelos (por ejemplo, jailbreaks de LLM), así como la auditoría y la interpretabilidad. Sin embargo, el estado actual de los optimizadores discretos dificulta su adopción y progreso. Primero, los optimizadores existentes, cuando se publican como código abierto, están dispersos en bases de código de investigación vinculadas a modelos, objetivos y dominios problemáticos específicos. Segundo, proliferan variantes de optimizadores, cada una requiriendo una sobrecarga de ingeniería para su uso o extensión, y resultando difícil compararlas cara a cara. En conjunto, esto eleva la barrera para adoptar optimizadores en dominios existentes o nuevos, y para avanzarlos mediante nuevas estrategias. Abordamos estas deficiencias con TROPT, el primer marco de código abierto que unifica la ejecución de optimizadores discretos y estandariza su desarrollo bajo una única interfaz. TROPT facilita la personalización de recetas de optimización completas al permitir intercambiar cualquier componente (modelos, objetivos y optimizadores), extendiendo su alcance a través de dominios y nuevas aplicaciones. Actualmente, TROPT incluye más de 30 recetas de optimización —que abarcan aplicaciones como jailbreaking y sondear internas de modelos— construidas a partir de más de 15 optimizadores (que van desde acceso de caja blanca a caja negra) y más de 15 funciones de pérdida, desde métodos fundamentales hasta los más avanzados. Demostrando su utilidad, aprovechamos TROPT en varios estudios: (i) experimentos controlados a gran escala que comparan y mejoran estrategias de optimización para jailbreaks de LLM, revelando técnicas potentes pero subadoptadas; y (ii) portar optimizadores de un dominio (por ejemplo, jailbreak de LLM) a nuevos dominios (por ejemplo, un modelo de incrustaciones envenenadas por corpus). En conjunto, TROPT reduce significativamente la barrera para adoptar y avanzar en la optimización discreta de texto.
Los agentes LLM de horizonte largo pueden fallar silenciosamente: se asientan en una interpretación temprana de la evidencia y luego dedican el resto de la ejecución a defenderla. A esto lo llamamos compromiso prematuro. La puntuación de respuesta final pasa por alto este modo de fallo porque solo ve la respuesta, no si el proceso ya ha colapsado en una trayectoria estable. Definimos el compromiso representacional como la convergencia de estados ocultos entre ejecuciones en un paso de razonamiento fijo, y lo utilizamos como un diagnóstico temprano de la consistencia de la trayectoria. En Llama-3.1-70B ejecutando ReAct en HotpotQA, la similitud de estados ocultos en el paso 4 predice la consistencia conductual posterior (r = -0.35, r parcial = -0.45), con una firma localizada temporal y por capas. La señal se replica en Qwen-2.5-72B y Phi-3-14B, y en StrategyQA (r = -0.83). No sigue la corrección: las preguntas con compromiso erróneo y las de compromiso correcto no son separables en la similitud de activación. Esa frontera es central para la afirmación. El compromiso nos indica si un agente se ha asentado, no si tiene razón. Un monitor en tiempo de ejecución detecta trayectorias inconsistentes a partir de estados ocultos con AUROC de hasta 0.97 (0.85–0.88 bajo una división más estricta), y una intervención de indicaciones reduce la varianza conductual en un 28% en comparación con un control emparejado por tokens, mientras que la precisión se mantiene estadísticamente sin cambios. También probamos si la señal puede dirigir el cómputo de autoconsistencia; en un punto de referencia más difícil, ayuda solo modestamente y se iguala con una línea base más simple basada en salidas. El resultado es un diagnóstico para un fallo de proceso oculto, con límites claros, más que una palanca de precisión general.
Los agentes de uso informático (CUAs) ahora actúan en nombre del usuario en aplicaciones personales como el correo electrónico, los calendarios y las listas de tareas pendientes. Este acceso entre aplicaciones es útil, pero también crea un riesgo de privacidad que ha sido en gran medida pasado por alto: cuando un agente trabaja en un contexto, puede extraer información de otro contexto que resulta inapropiada en el primero. Por ello, presentamos AgentCIBench, un banco de pruebas de evaluación que convierte este riesgo en escenarios ejecutables y puntuados de forma determinista. Abordamos tres modos de fallo comunes en los CUAs: colocación visual, donde el agente extrae elementos prohibidos que se ubican junto al objetivo de la tarea en la interfaz de usuario; sobreexposición por ambigüedad de la tarea, donde el agente vierte un denso estado personal en respuesta a una instrucción poco especificada; y desalineación del destinatario, donde el agente envía contenido a un destinatario para quien resulta inapropiado. Evaluamos 15 agentes de vanguardia y encontramos una tasa de fallos sorprendentemente alta: 11 de 15 filtran información en más del 50% de los escenarios, con una fuga promedio del 67,9%, y los mismos fallos persisten cuando los agentes actúan de extremo a extremo en el entorno para completar la tarea. Publicamos AgentCIBench para fomentar el desarrollo de agentes informáticos más seguros y posicionar las pruebas de divulgación contextual como una verificación de seguridad previa al despliegue.
Los modelos de generación 3D condicionados por texto e imagen ahora producen activos convincentes, pero aún ofrecen poco control directo sobre el espacio que un objeto debe ocupar o evitar. En la creación, esta intención espacial suele conocerse antes de iniciar la generación. Una silla debe ajustarse a un volumen de asiento, un accesorio debe dejar espacio para el movimiento, o una pieza debe exponer una superficie de contacto. Las indicaciones textuales y las vistas de imagen son portadores deficientes para tales restricciones, lo que requiere una interfaz de control explícita. Presentamos Arbor, un componente entrenable para la generación latente 3D condicionada por texto. Arbor introduce las mallas de restricción como una interfaz de control 3D nativa. La interfaz utiliza regiones de volumen donde debe existir geometría, regiones de evitación que deben permanecer vacías y regiones de contacto que el objeto debe tocar. A diferencia del completado o del control con andamios de objetos completos, estas mallas no son evidencia objetivo. Son requisitos tipificados locales y pueden incluir regiones donde no debe aparecer ninguna superficie. Arbor mantiene esta señal como geometría convirtiendo las mallas de restricción en tokens y aprendiendo una conexión enrutada dentro de un eliminador de ruido congelado. Cada región latente puede así recibir la parte de la restricción que es relevante para su ubicación espacial. Evaluamos Arbor en puntos de referencia de control automáticos y curados por artistas con restricciones de volumen, evitación y contacto, y comparamos las tendencias de las métricas con un estudio de preferencia del usuario. Incluso sin pérdidas de cumplimiento dedicadas, Arbor mejora la obediencia a las restricciones mientras preserva la calidad y variación del objeto bajo restricciones fijas.
Las mallas se encuentran entre las representaciones de escenas 3D más comunes, pero generarlas directamente es un desafío porque la representación contiene simetrías importantes, incluida la invariancia a permutaciones de caras y vértices. MeshFlow aprende a generar mallas triangulares directamente como sopas de triángulos, evitando la necesidad de serializar las mallas en largas secuencias autorregresivas. Adoptamos modelos de flujo con transporte óptimo equivariante que respetan las simetrías clave de las sopas de triángulos: permutaciones arbitrarias de caras y permutaciones de los vértices dentro de cada cara. Con este objetivo, proponemos una modificación simple pero efectiva de la arquitectura Diffusion Transformer, dando como resultado una red escalable capaz de modelar un campo de velocidad mientras mantiene la equivariancia deseada. Además, introducimos un objetivo de entrenamiento basado en transporte óptimo que mejora la convergencia al eliminar señales de supervisión que violan estas simetrías. MeshFlow logra una calidad de malla comparable a los generadores autorregresivos de última generación, al tiempo que proporciona una aceleración de aproximadamente 18 veces durante la inferencia. La página del proyecto está en https://qiisun.github.io/MeshFlow/.
Con la rápida difusión de la generación aumentada por recuperación y la búsqueda semántica, seleccionar la configuración adecuada de embedding y recuperación resulta cada vez más difícil. Los grandes benchmarks de recuperación son exhaustivos, pero demasiado pesados para reejecutarlos durante el desarrollo, y existe poca infraestructura para comparar configuraciones de producción —reducción de dimensionalidad, cuantización, reordenamiento— entre múltiples modelos bajo condiciones idénticas. Presentamos HAKARI-Bench, un benchmark ligero que reconstruye suites de recuperación existentes en conjuntos de datos pequeños (Nano-conjuntos): 35 benchmarks y 551 tareas en 43 lenguajes en un formato unificado, que permite la comparación en condiciones equivalentes y de manera agnóstica al modelo de cinco familias de recuperación (BM25, denso, disperso, interacción tardía y reordenadores) y sus variantes de eficiencia. En 55 modelos, su ranking general reproduce el MTEB retrieval v2 oficial, MMTEB v2 retrieval y English BEIR (completo) con Spearman > 0.97. HAKARI-Bench no reemplaza la evaluación completa; permite una selección rápida de modelos, detección de regresiones y lectura de la frontera de Pareto calidad-eficiencia. El código, los datos y el leaderboard se publican bajo la licencia MIT.
Reconstruir objetos dinámicos no rígidos a partir de videos monoculares requiere integrar pistas visuales provenientes de observaciones directas con priors basados en datos sobre geometría y apariencia. Los enfoques previos aprenden a predecir directamente representaciones 4D a partir de la entrada visual o inicializan una representación 3D que posteriormente se deforma y refina utilizando la evidencia del video. Sin embargo, los primeros están limitados por la escasez de datos de entrenamiento 4D, mientras que los segundos utilizan priors solo para la reconstrucción inicial y dependen exclusivamente de la supervisión del video en adelante; ninguno maneja bien escenarios complejos del mundo real con grandes deformaciones y oclusiones. Presentamos Lift4D, un marco de optimización en tiempo de prueba que aborda ambas limitaciones. Primero, adaptamos un modelo existente de reconstrucción 3D desde una sola vista para producir predicciones temporalmente coherentes por cuadro mediante condicionamiento latente causal, proporcionando una inicialización coherente para una representación de Splatting Gaussiano 3D deformable. Luego, "esculpimos" esta representación para que coincida con el video de entrada mediante una optimización consciente de oclusiones que recupera fielmente los detalles de la superficie visible, mientras completa las regiones no observadas utilizando un prior de difusión condicionado por vista. Demostramos que Lift4D mejora claramente con respecto a los métodos anteriores de reconstrucción 4D, particularmente en secuencias desafiantes del mundo real con oclusiones severas y movimiento no rígido.
Los sistemas de música generativa pueden ahora producir impresionantes audios a partir de indicaciones textuales, pero las salidas de audio son difíciles de inspeccionar, editar y diagnosticar como estructura musical. Presentamos Libretto, un marco orientado a agentes para la generación y revisión de música simbólica. Libretto utiliza una gramática nativa de LLM con ranuras de inicio explícitas, voces y organización a nivel de compás, y luego evalúa cada pieza en un espacio estadístico calibrado con corpus sobre ritmo, armonía, melodía, textura, forma y variación. Los mismos ejes estructurales respaldan la recuperación, el diagnóstico, el control de riesgo de copia y la autorrevisión iterativa. En tareas de relleno de huecos, generación de piezas completas guiada por referencia, transformación gradual y generación de música educativa, Libretto convierte la música simbólica de una secuencia de tokens en bruto en un objeto medible y editable para agentes de modelos de lenguaje.
La realización cinematográfica exige un control preciso del movimiento y la composición de imágenes de referencia — capacidades que los métodos existentes tratan por separado. Los modelos de imagen a video condicionados por seguimiento de puntos restringen la inserción de contenido al primer fotograma, mientras que los modelos de referencia a video carecen de un control espacio-temporal detallado sobre cómo el contenido de referencia se integra a lo largo de los fotogramas. Presentamos Go-with-the-Track, que unifica ambas capacidades mediante el condicionamiento conjunto en múltiples imágenes de referencia y trayectorias de puntos ancladas a referencia — extendiendo las trayectorias de puntos convencionales para establecer explícitamente correspondencias entre los fotogramas generados y las imágenes de referencia, permitiendo así una composición y un control del movimiento precisos en todo el video. Para lograr esto, introducimos incrustaciones de trayectorias de puntos con conciencia espacial que codifican la secuencia completa de coordenadas de la trayectoria utilizando un MLP por coordenadas seguido de una agrupación temporal. Esta representación captura las características espaciales de cada trayectoria de puntos (sirviendo como un identificador único), mientras que la similitud de las incrustaciones se correlaciona directamente con la proximidad espacial, mejorando la capacidad del modelo para distinguir y asociar trayectorias de puntos. Inyectamos estas incrustaciones de trayectorias de puntos en un transformador de difusión de video mediante un adaptador ligero, resolviendo el desajuste de resolución píxel a parche y evitando la pérdida sustancial de detalles de movimiento inherente al submuestreo ingenuo de trayectorias de puntos. Utilizamos una estrategia de entrenamiento híbrido para entrenar conjuntamente en conjuntos de datos de video de escenas dinámicas, estáticas y sintéticas para mejorar el control del movimiento. Los experimentos demuestran que Go-with-the-Track logra un control superior del movimiento y de la referencia en un solo modelo y habilita nuevas capacidades: generación de video condicionada por múltiples referencias con composición impulsada por trayectorias de puntos, así como control de cámara tanto para escenas estáticas como dinámicas. Página del proyecto: https://eyeline-labs.github.io/Go-with-the-Track/
Optimizar la composición de los datos de preentrenamiento es fundamental para la generalización de los LLM. Si bien la mezcla dinámica supera a las estrategias estáticas al capturar dinámicas de entrenamiento en evolución, los métodos actuales no logran conciliar la eficiencia computacional con la eficiencia de muestreo y la flexibilidad estructural para canalizaciones diversas. Presentamos Actor--Critic Online Data Mixing (AC-ODM), que aborda la mezcla de datos desde una perspectiva de aprendizaje por refuerzo con una política parametrizada que demostramos teóricamente que actúa como un sustituto lineal dinámico que maximiza la interferencia constructiva de los gradientes. Para mejorar la flexibilidad práctica, AC-ODM admite dos modos operativos: (i) un modo proxy para corpus fijos y previamente preparados, donde una política aprendida en un modelo pequeño se transfiere a un objetivo más grande; y (ii) un modo no proxy para entrenamiento directo de extremo a extremo desde cero sin conocimientos previos. Empíricamente, AC-ODM supera significativamente a métodos anteriores en velocidad de convergencia y precisión en tareas posteriores en diversas arquitecturas. En Pythia-1B, alcanza la perplejidad de validación óptima utilizando hasta un 66% menos de pasos de entrenamiento que las líneas base competitivas, ofreciendo una mejora relativa del 27.5% en precisión en MMLU y un pass@1 2.23 veces mayor en HumanEval, todo ello con un aumento de tiempo real por paso prácticamente insignificante (0.4%) y solo un 2% adicional de sobrecarga de memoria. El código está disponible en https://github.com/DANG-ai/AC-ODM.
A medida que los vehículos autónomos continúan expandiéndose internacionalmente y emplean sistemas multimodales, como los VLM, como columna vertebral cognitiva de sus modelos de acción, ¿qué tan bien se generalizarán estos sistemas en entornos nuevos, en particular en escenarios de casos extremos fuera de distribución (OOD) en nuevas geografías? En este artículo, estudiamos esta pregunta abierta mediante un análisis factorial completo con conductores humanos de Lima, conductores humanos de Nueva York y VLM, mostrándoles grabaciones de dashcam recolectadas en Lima y Nueva York, y planteándoles diversas preguntas bajo un paradigma de Respuesta a Preguntas Visuales (VQA). En particular, seleccionamos estas dos ciudades por ser ubicaciones de conducción altamente desafiantes donde ninguna empresa de vehículos autónomos opera actualmente, y formulamos preguntas que abarcan cuatro categorías: factuales, valoraciones, contrafactuales y razonamiento. Encontramos que los humanos y los VLM divergen en sus respuestas, aunque esto está modulado por el tipo de preguntas formuladas, y que los humanos responden de manera similar independientemente de su lugar de origen (Lima/NYC). Para nuestra sorpresa, no encontramos una diferencia significativa en las respuestas (humanos o VLM) que estuviera modulada por la geografía, probablemente debido a su naturaleza altamente fuera de distribución. Nuestro conjunto de datos está disponible en: https://huggingface.co/datasets/Artificio/robusto-2
Presentamos ShotcreteDepth, un conjunto de datos bimodal del ámbito de la construcción que captura tanto un proceso activo de proyección de hormigón como entornos generales de construcción. El conjunto de datos comprende imágenes estéreo RGB y nubes de puntos LiDAR adquiridas en condiciones reales adversas, incluyendo alta turbidez y mala iluminación. Estas condiciones afectan negativamente las mediciones de los sensores, dando lugar a observaciones incompletas y ruidosas que plantean desafíos significativos para los sistemas de percepción en aplicaciones autónomas. Junto con el conjunto de datos, publicamos una herramienta de anotación ligera diseñada para el etiquetado eficiente en tiempo de nubes de puntos LiDAR. ShotcreteDepth consta de 11,252 muestras de datos sincronizadas temporalmente, de las cuales 220 están anotadas con fines de evaluación. El conjunto de datos apoya la investigación en correspondencia estéreo, completitud de profundidad y estimación de profundidad en condiciones que reflejan fielmente las complejidades operativas presentes en entornos industriales. Repositorio del proyecto: https://github.com/dtu-pas/shotcrete-depth
Describimos nuestra participación en la pista de eficiencia del Gran Desafío de Texto a Música Académico (ATTM) en ICME 2026. Más allá de la puntuación FAD-CLAP y CLAP del protocolo del desafío, añadimos una recompensa aprendida de preferencia humana de TuneJury, un ranker por pares gemelo entrenado sobre conjuntos de datos abiertos de preferencias musicales. La recompensa sirve tanto como señal de condicionamiento en tiempo de entrenamiento como criterio de selección de muestras. El pipeline combina cinco decisiones de ingeniería sobre un backbone FluxAudio-S de 120 millones de parámetros, cuatro en tiempo de entrenamiento y una en inferencia: (i) condicionamiento de recompensa en tiempo de entrenamiento que funciona también como eje CFG en inferencia, (ii) un barrido sobre cinco arquitecturas de condicionamiento de puntuación, donde el entrenamiento y la inferencia utilizan variantes diferentes, (iii) iteración experta en el decil superior, (iv) un breve pase de ajuste de preferencias (CRPO) para alineación audio-texto, y (v) posprocesamiento de inferencia mediante CFG conjunto, separación de fuentes y normalización de volumen. La descomposición por etapas en 100 indicaciones de Song Describer muestra que el condicionamiento de recompensa en tiempo de entrenamiento es un eje de condicionamiento funcional, la iteración experta es el contribuyente dominante, el pase de ajuste de preferencias añade solo una ganancia a nivel de ruido, y que el escalar de puntuación en inferencia ya está saturado al final de la cadena.
Los grandes modelos de lenguaje (LLMs) se utilizan cada vez más para apoyar el desarrollo de software, pero su utilidad práctica en entornos aplicados de desarrollo de videojuegos sigue siendo poco explorada, especialmente cuando el código generado debe integrarse en un sistema de software de juego existente. Este artículo presenta un estudio de caso empírico exploratorio de GPT-4o en un corredor infinito personalizado en Python/Pygame. El estudio examina seis tareas de desarrollo seleccionadas: tres tareas de refactorización localizada y tres tareas que implican la generación de funcionalidades de juego. Las implementaciones resultantes se evaluaron mediante métricas de software, pruebas unitarias y evaluaciones manuales de jugabilidad. En este estudio de caso, las tres tareas de refactorización seleccionadas se completaron con éxito en términos funcionales, mientras que solo una de las tres tareas de generación de funcionalidades de juego dio lugar a una funcionalidad correctamente integrada. Los hallazgos sugieren que, en este contexto, GPT-4o manejó las transformaciones localizadas de manera más fiable que las tareas que requieren nuevas interacciones de juego a través de múltiples sistemas existentes. Dado el diseño exploratorio de caso único, estos resultados se interpretan mejor como observaciones indicativas que como evidencia generalizable del rendimiento del modelo a nivel de categoría. En conjunto, el artículo contribuye con un relato transparente basado en casos sobre las oportunidades y limitaciones de la refactorización asistida por LLM y la generación de funcionalidades de juego en un sistema de software de juego existente.
A medida que las áreas urbanas se expanden, la monitorización automática de estacionamientos se vuelve esencial para ciudades eficientes y sostenibles. Este trabajo propone un enfoque autosupervisado para el reconocimiento de ocupación de plazas de estacionamiento que no requiere muestras etiquetadas del estacionamiento objetivo. Basándose en un protocolo de ajuste fino por transferencia de aprendizaje autosupervisado, la estrategia de entrenamiento propuesta consta de dos etapas autosupervisadas: primero con datos genéricos no etiquetados y luego con datos específicos del objetivo no etiquetados, seguidas de un ajuste fino supervisado utilizando únicamente etiquetas de estacionamientos genéricos. Adoptamos SimCLR con un codificador ResNet-50 y evaluamos el método bajo un protocolo de validación cruzada de dejar-uno-fuera por entorno en tres conjuntos de datos públicos: PKLot, CNRPark-EXT y PLds. También introducimos una estrategia de despliegue en dos etapas en la que inicialmente se implementa un Modelo General Fuerte, seguido de un Modelo Especializado que incorpora imágenes no etiquetadas recolectadas durante los primeros N días de despliegue de manera autosupervisada. Los resultados experimentales muestran que el Modelo General Fuerte por sí solo supera a las líneas base supervisadas y autosupervisadas, logrando una precisión promedio del 97.2%, que mejora aún más al 97.8% con la estrategia de dos etapas propuesta. Estos resultados demuestran que el aprendizaje autosupervisado permite una solución escalable y eficiente en etiquetas para la monitorización de ocupación de estacionamientos en el mundo real. Nuestros modelos entrenados y código fuente están disponibles públicamente en https://github.com/LoanMaikon/Parking-Spot-Occupancy-Recognition.