Artículos de investigación en IA seleccionados diariamente con traducciones
Superar las limitaciones cognitivas humanas representa una frontera crítica en el entrenamiento de modelos de lenguaje grandes (LLM). Sistemas agentes propietarios como DeepResearch han demostrado capacidades sobrehumanas en puntos de referencia extremadamente complejos de búsqueda de información, como BrowseComp, un logro previamente inalcanzable. Postulamos que su éxito depende de un patrón de razonamiento sofisticado ausente en los modelos de código abierto: la capacidad de reducir sistemáticamente la incertidumbre extrema al navegar vastos paisajes de información. Basándonos en esta idea, presentamos WebSailor, una metodología completa de posentrenamiento diseñada para inculcar esta capacidad crucial. Nuestro enfoque implica generar tareas novedosas de alta incertidumbre mediante muestreo estructurado y ofuscación de información, inicio en frío con RFT (Reinforcement Fine-Tuning) y un algoritmo eficiente de entrenamiento RL (Reinforcement Learning) agente, llamado Duplicating Sampling Policy Optimization (DUPO). Con esta canalización integrada, WebSailor supera significativamente a todos los agentes de código abierto en tareas complejas de búsqueda de información, igualando el rendimiento de los agentes propietarios y cerrando la brecha de capacidades.
Recuperar estructuras 3D con comprensión de escenas de vocabulario abierto a partir de imágenes 2D es una tarea fundamental pero desafiante. Los avances recientes han logrado esto mediante la optimización por escena con información lingüística integrada. Sin embargo, estos métodos dependen en gran medida del paradigma de reconstrucción de vistas densas calibradas, lo que resulta en artefactos de renderización severos y síntesis semántica poco plausible cuando solo se dispone de vistas limitadas. En este artículo, presentamos un marco generativo novedoso, denominado LangScene-X, para unificar y generar información multimodual consistente en 3D para la reconstrucción y comprensión. Potenciado por la capacidad generativa de crear observaciones novedosas más consistentes, podemos construir escenas 3D con lenguaje integrado generalizables a partir de solo unas pocas vistas. Específicamente, primero entrenamos un modelo de difusión de video TriMap que puede generar apariencia (RGBs), geometría (normales) y semántica (mapas de segmentación) a partir de entradas dispersas mediante la integración progresiva de conocimiento. Además, proponemos un Compresor Cuantizado de Lenguaje (LQC), entrenado en conjuntos de datos de imágenes a gran escala, para codificar eficientemente los embeddings lingüísticos, permitiendo la generalización entre escenas sin necesidad de reentrenamiento por escena. Finalmente, reconstruimos los campos de superficie lingüística alineando la información del lenguaje en la superficie de las escenas 3D, lo que permite consultas lingüísticas abiertas. Experimentos extensos en datos del mundo real demuestran la superioridad de nuestro LangScene-X sobre los métodos más avanzados en términos de calidad y generalización. Página del proyecto: https://liuff19.github.io/LangScene-X.
Presentamos IntFold, un modelo base controlable para la predicción de estructuras biomoleculares tanto generales como especializadas. IntFold demuestra una precisión predictiva comparable al estado del arte de AlphaFold3, mientras utiliza un núcleo de atención personalizado superior. Más allá de la predicción estándar de estructuras, IntFold puede adaptarse para predecir estados alostéricos, estructuras restringidas y afinidad de unión mediante el uso de adaptadores individuales. Además, introducimos un nuevo cabezal de confianza para estimar la calidad del acoplamiento, ofreciendo una evaluación más matizada para objetivos desafiantes como los complejos antígeno-anticuerpo. Finalmente, compartimos las perspectivas obtenidas durante el proceso de entrenamiento de este modelo computacionalmente intensivo.
A pesar de los avances significativos en los modelos de difusión de texto a imagen, lograr un control espacial preciso sobre las salidas generadas sigue siendo un desafío. ControlNet aborda este problema mediante la introducción de un módulo de condicionamiento auxiliar, mientras que ControlNet++ refina aún más la alineación mediante una pérdida de consistencia cíclica aplicada solo a los pasos finales de eliminación de ruido. Sin embargo, este enfoque descuida las etapas intermedias de generación, limitando su efectividad. Proponemos InnerControl, una estrategia de entrenamiento que impone consistencia espacial en todos los pasos de difusión. Nuestro método entrena sondas convolucionales ligeras para reconstruir señales de control de entrada (por ejemplo, bordes, profundidad) a partir de características intermedias de UNet en cada paso de eliminación de ruido. Estas sondas extraen señales de manera eficiente incluso a partir de latentes altamente ruidosos, permitiendo controles pseudo ground truth para el entrenamiento. Al minimizar la discrepancia entre las condiciones predichas y las deseadas a lo largo de todo el proceso de difusión, nuestra pérdida de alineación mejora tanto la fidelidad del control como la calidad de la generación. Combinado con técnicas establecidas como ControlNet++, InnerControl logra un rendimiento de vanguardia en diversos métodos de condicionamiento (por ejemplo, bordes, profundidad).
A pesar del papel crucial de los modelos de recompensa (RMs) en el aprendizaje por refuerzo basado en retroalimentación humana (RLHF), los modelos de recompensa abiertos más avanzados actualmente tienen un rendimiento deficiente en la mayoría de los puntos de referencia de evaluación existentes, fallando en capturar el espectro de preferencias humanas matizadas y sofisticadas. Incluso los enfoques que incorporan técnicas avanzadas de entrenamiento no han logrado mejoras significativas en el rendimiento. Hipotetizamos que esta fragilidad se debe principalmente a las limitaciones en los conjuntos de datos de preferencias, que a menudo tienen un alcance reducido, están etiquetados sintéticamente o carecen de un control de calidad riguroso. Para abordar estos desafíos, presentamos un conjunto de datos de preferencias a gran escala que comprende 40 millones de pares de preferencias, denominado SynPref-40M. Para permitir la curación de datos a gran escala, diseñamos una canalización sinérgica humano-IA en dos etapas que aprovecha las fortalezas complementarias de la calidad de la anotación humana y la escalabilidad de la IA. En esta canalización, los humanos proporcionan anotaciones verificadas, mientras que los modelos de lenguaje grandes realizan una curación automática basada en la guía humana. Entrenando en esta mezcla de preferencias, presentamos Skywork-Reward-V2, una suite de ocho modelos de recompensa que van desde 0.6B hasta 8B de parámetros, entrenados en un subconjunto cuidadosamente seleccionado de 26 millones de pares de preferencias de SynPref-40M. Demostramos que Skywork-Reward-V2 es versátil en una amplia gama de capacidades, incluyendo la alineación con las preferencias humanas, la corrección objetiva, la seguridad, la resistencia a los sesgos estilísticos y la escalabilidad de mejor-de-N, logrando un rendimiento de vanguardia en siete puntos de referencia principales de modelos de recompensa. Los estudios de ablación confirman que la efectividad de nuestro enfoque no solo se debe a la escala de los datos, sino también a la alta calidad de la curación. La serie Skywork-Reward-V2 representa un avance sustancial en los modelos de recompensa abiertos, destacando el potencial no explotado de los conjuntos de datos de preferencias existentes y demostrando cómo la sinergia de curación humano-IA puede desbloquear una calidad de datos significativamente mayor.
Los avances recientes en el razonamiento multimodal han sido impulsados significativamente por el paradigma de la Cadena de Pensamiento (CoT, por sus siglas en inglés) textual, en el que los modelos realizan razonamientos dentro del lenguaje. Sin embargo, este enfoque centrado en el texto trata la visión como un contexto inicial estático, creando una "brecha semántica" fundamental entre los datos perceptivos ricos y el pensamiento simbólico discreto. La cognición humana a menudo trasciende el lenguaje, utilizando la visión como una pizarra mental dinámica. Una evolución similar está ocurriendo ahora en la inteligencia artificial, marcando un cambio de paradigma fundamental desde modelos que simplemente piensan sobre imágenes hacia aquellos que pueden pensar verdaderamente con imágenes. Este paradigma emergente se caracteriza por modelos que aprovechan la información visual como pasos intermedios en su proceso de pensamiento, transformando la visión de una entrada pasiva en un espacio cognitivo dinámico y manipulable. En este estudio, trazamos esta evolución de la inteligencia a lo largo de una trayectoria de creciente autonomía cognitiva, que se desarrolla en tres etapas clave: desde la exploración de herramientas externas, pasando por la manipulación programática, hasta la imaginación intrínseca. Para estructurar este campo en rápida evolución, nuestro estudio realiza cuatro contribuciones clave. (1) Establecemos los principios fundamentales del paradigma de pensar con imágenes y su marco de tres etapas. (2) Ofrecemos una revisión exhaustiva de los métodos centrales que caracterizan cada etapa de esta hoja de ruta. (3) Analizamos el panorama crítico de los puntos de referencia de evaluación y las aplicaciones transformadoras. (4) Identificamos desafíos significativos y esbozamos direcciones futuras prometedoras. Al proporcionar esta visión estructurada, nuestro objetivo es ofrecer una hoja de ruta clara para futuras investigaciones hacia una IA multimodal más poderosa y alineada con la cognición humana.
El razonamiento sigue siendo una tarea desafiante para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), especialmente en el entorno lógicamente restringido de la demostración automática de teoremas (ATP, por sus siglas en inglés), debido a las recompensas escasas y la gran escala de las demostraciones. Estos desafíos se amplifican en puntos de referencia como PutnamBench, que contiene problemas de nivel universitario que requieren un razonamiento complejo y de múltiples pasos. Para abordar esto, introducimos los MDPs condicionados por objetivos autogenerados (sG-MDPs, por sus siglas en inglés), un nuevo marco en el que los agentes generan y persiguen sus subobjetivos basándose en el estado evolutivo de la demostración. Dada esta generación más estructurada de objetivos, el problema resultante se vuelve más susceptible a la búsqueda. Luego aplicamos algoritmos similares a la Búsqueda de Árbol de Monte Carlo (MCTS, por sus siglas en inglés) para resolver el sG-MDP, implementando nuestro enfoque en Bourbaki (7B), un sistema modular que puede ensamblar múltiples LLMs de 7B para la generación de subobjetivos y la síntesis de tácticas. En PutnamBench, Bourbaki (7B) resuelve 26 problemas, logrando nuevos resultados de vanguardia con modelos de esta escala.
Las necesidades complejas de información en escenarios de búsqueda del mundo real requieren un razonamiento profundo y la síntesis de conocimientos a través de diversas fuentes, lo que los enfoques tradicionales de generación aumentada por recuperación (RAG) no logran abordar de manera efectiva. Los enfoques actuales basados en razonamiento presentan una limitación fundamental: utilizan un único modelo para manejar tanto la planificación de alto nivel como la ejecución detallada, lo que conduce a un razonamiento ineficiente y una escalabilidad limitada. En este artículo, presentamos HiRA, un marco jerárquico que separa la planificación estratégica de la ejecución especializada. Nuestro enfoque descompone tareas de búsqueda complejas en subtareas enfocadas, asigna cada subtarea a agentes específicos de dominio equipados con herramientas externas y capacidades de razonamiento, y coordina los resultados a través de un mecanismo de integración estructurado. Esta separación evita que los detalles de ejecución interrumpan el razonamiento de alto nivel, al mismo tiempo que permite al sistema aprovechar la experiencia especializada para diferentes tipos de procesamiento de información. Los experimentos en cuatro puntos de referencia complejos de búsqueda profunda multimodal demuestran que HiRA supera significativamente a los sistemas RAG y basados en agentes más avanzados. Nuestros resultados muestran mejoras tanto en la calidad de las respuestas como en la eficiencia del sistema, destacando la efectividad de la planificación y ejecución desacopladas para tareas de búsqueda de información de múltiples pasos. Nuestro código está disponible en https://github.com/ignorejjj/HiRA.
Trabajos recientes han demostrado que la pérdida durante el entrenamiento escala como una ley de potencia tanto con el tamaño del modelo como con el número de tokens, y que lograr modelos óptimos en términos de cómputo requiere escalar conjuntamente el tamaño del modelo y el recuento de tokens. Sin embargo, estas leyes de escalado asumen un suministro infinito de datos y se aplican principalmente en entornos limitados por el cómputo. A medida que los modelos de lenguaje modernos y de gran escala dependen cada vez más de conjuntos de datos masivos a escala de internet, la suposición de que están limitados por el cómputo se está volviendo menos válida. Este cambio resalta la necesidad de arquitecturas que prioricen la eficiencia en el uso de tokens. En este trabajo, investigamos el uso del Transformer 2-simplicial, una arquitectura que generaliza la atención estándar de producto punto a funciones trilineales mediante una implementación eficiente de un kernel Triton. Demostramos que el Transformer 2-simplicial logra una mayor eficiencia en el uso de tokens que los Transformers estándar: para un presupuesto fijo de tokens, modelos de tamaño similar superan a sus contrapartes de producto punto en tareas que involucran matemáticas, programación, razonamiento y lógica. Cuantificamos estas mejoras al demostrar que la atención 2-simplicial modifica el exponente en las leyes de escalado para tareas de conocimiento y razonamiento en comparación con la atención de producto punto.
La revisión por pares es fundamental para la investigación científica, pero el creciente volumen de publicaciones ha intensificado los desafíos de este proceso que requiere un alto nivel de especialización. Si bien los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) muestran potencial en diversas tareas científicas, su capacidad para asistir en la revisión por pares, particularmente en la identificación de limitaciones en los artículos, sigue siendo poco estudiada. En primer lugar, presentamos una taxonomía exhaustiva de los tipos de limitaciones en la investigación científica, con un enfoque en la inteligencia artificial. Guiados por esta taxonomía, para el estudio de las limitaciones, presentamos LimitGen, el primer punto de referencia integral para evaluar la capacidad de los LLM de brindar retroalimentación en etapas tempranas y complementar la revisión por pares humana. Nuestro punto de referencia consta de dos subconjuntos: LimitGen-Syn, un conjunto de datos sintético cuidadosamente creado mediante perturbaciones controladas de artículos de alta calidad, y LimitGen-Human, una colección de limitaciones reales escritas por humanos. Para mejorar la capacidad de los sistemas LLM en la identificación de limitaciones, los complementamos con la recuperación de literatura, que es esencial para fundamentar la identificación de limitaciones en hallazgos científicos previos. Nuestro enfoque mejora las capacidades de los sistemas LLM para generar limitaciones en artículos de investigación, permitiéndoles ofrecer retroalimentación más concreta y constructiva.
El ajuste fino supervisado (SFT, por sus siglas en inglés) se utiliza ampliamente para alinear modelos de lenguaje de gran escala (LLMs) con tareas de extracción de información (IE), como el reconocimiento de entidades nombradas (NER). Sin embargo, anotar etiquetas tan detalladas y entrenar modelos específicos para dominios resulta costoso. Los trabajos existentes suelen entrenar un modelo unificado en múltiples dominios, pero estos enfoques carecen de adaptación y escalabilidad, ya que no todos los datos de entrenamiento benefician a los dominios objetivo y escalar los modelos entrenados sigue siendo un desafío. Proponemos el marco SaM, que selecciona y fusiona dinámicamente modelos expertos durante la inferencia. Específicamente, para un dominio objetivo, seleccionamos expertos específicos del dominio preentrenados en dominios existentes basándonos en (i) la similitud del dominio con el dominio objetivo y (ii) el rendimiento en instancias muestreadas, respectivamente. Luego, los expertos se fusionan para crear modelos específicos de la tarea optimizados para el dominio objetivo. Al fusionar dinámicamente expertos beneficiosos para los dominios objetivo, mejoramos la generalización en varios dominios sin necesidad de entrenamiento adicional. Además, los expertos pueden agregarse o eliminarse convenientemente, lo que conduce a una gran escalabilidad. Experimentos exhaustivos en múltiples benchmarks demuestran la efectividad de nuestro marco, que supera al modelo unificado en un promedio del 10%. Además, ofrecemos ideas sobre posibles mejoras, experiencia práctica y extensiones de nuestro marco.
Aunque los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han vuelto transformadores, aún cometen errores y pueden explorar caminos de razonamiento improductivos. La autocorrección es una capacidad importante para un LLM confiable, particularmente un LLM autoregresivo. Si bien los LLMs pueden identificar errores en la entrada del usuario, exhiben un "Punto Ciego de Autocorrección" sistemático: no corrigen errores idénticos en sus propias salidas. Para estudiar sistemáticamente este fenómeno, presentamos Self-Correction Bench, un marco sistemático para medir este fenómeno mediante la inyección controlada de errores en tres niveles de complejidad. Al probar 14 modelos, encontramos una tasa promedio de punto ciego del 64,5%. Encontramos múltiples evidencias de que esta limitación está relacionada con la composición de los datos de entrenamiento: las demostraciones de entrenamiento humano muestran predominantemente respuestas sin errores en lugar de secuencias de corrección de errores, a diferencia de los modelos entrenados con aprendizaje por refuerzo (RL) que aprenden a corregir errores a través de retroalimentación de resultados. Notablemente, simplemente añadir "Espera" reduce los puntos ciegos en un 89,3%, lo que sugiere que la capacidad existe pero requiere activación. Nuestro trabajo destaca una limitación crítica en los LLMs actuales y ofrece posibles vías para mejorar su confiabilidad y fiabilidad.
Las técnicas de computación en tiempo de inferencia, análogas al Pensamiento de Sistema 2 humano, han ganado recientemente popularidad para mejorar el rendimiento de los modelos. Sin embargo, la mayoría de los enfoques existentes presentan varias limitaciones: son específicos de una modalidad (por ejemplo, funcionan solo en texto), específicos de un problema (por ejemplo, dominios verificables como matemáticas y programación), o requieren supervisión/entrenamiento adicional además del preentrenamiento no supervisado (por ejemplo, verificadores o recompensas verificables). En este artículo, nos planteamos la pregunta: "¿Es posible generalizar estos enfoques de Pensamiento de Sistema 2 y desarrollar modelos que aprendan a pensar únicamente a partir del aprendizaje no supervisado?" Curiosamente, encontramos que la respuesta es sí, al aprender a verificar explícitamente la compatibilidad entre las entradas y las predicciones candidatas, y luego reformular los problemas de predicción como una optimización con respecto a este verificador. Específicamente, entrenamos Transformadores Basados en Energía (EBTs, por sus siglas en inglés) —una nueva clase de Modelos Basados en Energía (EBMs)— para asignar un valor de energía a cada par de entrada y predicción candidata, permitiendo predicciones mediante la minimización de energía basada en descenso de gradiente hasta la convergencia. En ambas modalidades, discreta (texto) y continua (visual), encontramos que los EBTs escalan más rápido que el enfoque dominante Transformer++ durante el entrenamiento, logrando una tasa de escalado hasta un 35% mayor con respecto a datos, tamaño de lote, parámetros, FLOPs y profundidad. Durante la inferencia, los EBTs mejoran el rendimiento con Pensamiento de Sistema 2 en un 29% más que el Transformer++ en tareas de lenguaje, y los EBTs superan a los Transformadores de Difusión en la eliminación de ruido de imágenes mientras utilizan menos pasos hacia adelante. Además, encontramos que los EBTs obtienen mejores resultados que los modelos existentes en la mayoría de las tareas posteriores, dado el mismo o peor rendimiento de preentrenamiento, lo que sugiere que los EBTs generalizan mejor que los enfoques existentes. En consecuencia, los EBTs representan un nuevo paradigma prometedor para escalar tanto las capacidades de aprendizaje como de pensamiento de los modelos.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en una tecnología fundamental en la fase de posentrenamiento de los modelos de lenguaje de gran escala (LLMs). Los marcos tradicionales de RL con tareas colocalizadas enfrentan cuellos de botella significativos en términos de escalabilidad, mientras que los marcos de RL con tareas separadas se enfrentan a desafíos en flujos de datos complejos y el correspondiente tiempo de inactividad de recursos y desequilibrio de cargas de trabajo. Además, la mayoría de los marcos existentes están estrechamente acoplados con los motores de entrenamiento o inferencia de los LLMs, lo que dificulta la compatibilidad con motores personalizados. Para abordar estos desafíos, proponemos AsyncFlow, un marco de RL de transmisión asíncrona para un posentrenamiento eficiente. Específicamente, introducimos un módulo distribuido de almacenamiento y transferencia de datos que proporciona una gestión unificada de datos y una capacidad de planificación detallada en un flujo completamente continuo. Esta arquitectura facilita inherentemente la superposición automatizada de tuberías entre tareas de RL y el equilibrio dinámico de cargas. Además, proponemos un motor de flujo de trabajo asíncrono basado en productor-consumidor diseñado para minimizar el tiempo de inactividad computacional mediante la postergación estratégica del proceso de actualización de parámetros dentro de umbrales de obsolescencia. Finalmente, la capacidad central de AsyncFlow está arquitectónicamente desacoplada de los motores subyacentes de entrenamiento e inferencia y encapsulada por interfaces de usuario orientadas a servicios, ofreciendo una experiencia modular y personalizable. Experimentos exhaustivos demuestran una mejora promedio de 1.59 veces en el rendimiento en comparación con los baselines más avanzados. La arquitectura presentada en este trabajo proporciona ideas prácticas para el diseño de sistemas de entrenamiento de RL de próxima generación.
Los mecanismos de atención lineal ofrecen ventajas significativas para los Modelos de Lenguaje a Gran Escala (LLMs) al proporcionar una complejidad computacional lineal, permitiendo el procesamiento eficiente de secuencias ultra largas (por ejemplo, 1 millón de tokens de contexto). Sin embargo, los métodos existentes de Paralelismo de Secuencias (SP, por sus siglas en inglés), esenciales para distribuir estas cargas de trabajo entre dispositivos, se convierten en el principal cuello de botella debido a un sobrecarga sustancial de comunicación. En este artículo, presentamos ZeCO (Zero Communication Overhead) para paralelismo de secuencias en modelos de atención lineal, un nuevo método SP diseñado para superar estas limitaciones y lograr una escalabilidad casi lineal de extremo a extremo en el entrenamiento de secuencias largas. Por ejemplo, entrenar un modelo con una secuencia de 1 millón de tokens en 64 dispositivos utilizando ZeCO toma aproximadamente el mismo tiempo que entrenar con una secuencia de 16k tokens en un solo dispositivo. En el núcleo de ZeCO se encuentra All-Scan, una nueva primitiva de comunicación colectiva. All-Scan proporciona a cada rango de SP exactamente el estado inicial del operador que requiere, manteniendo una huella de comunicación mínima, eliminando efectivamente la sobrecarga de comunicación. Teóricamente, demostramos la optimalidad de ZeCO, mostrando que introduce solo un tiempo y espacio adicional insignificante. Empíricamente, comparamos los costos de comunicación de diferentes estrategias de paralelismo de secuencias y demostramos que All-Scan logra la comunicación más rápida en escenarios de SP. Específicamente, en 256 GPUs con una secuencia de 8 millones de tokens, ZeCO logra una aceleración del 60\% en comparación con el método SP más avanzado actual (SOTA). Creemos que ZeCO establece un camino claro hacia el entrenamiento eficiente de la próxima generación de LLMs en longitudes de secuencia previamente intratables.