每日精選AI研究論文及翻譯
超越人類認知限制,已成為大型語言模型(LLM)訓練中的一個關鍵前沿。諸如DeepResearch等專有代理系統,在BrowseComp等極其複雜的信息檢索基準測試中展現了超乎人類的能力,這一成就此前難以企及。我們認為,其成功關鍵在於開源模型所不具備的一種高級推理模式:在浩瀚信息海洋中航行時,系統性地降低極端不確定性的能力。基於這一洞見,我們推出了WebSailor,這是一套完整的後訓練方法論,旨在培養這一至關重要的能力。我們的方法包括通過結構化採樣與信息模糊化生成新穎的高不確定性任務、RFT冷啟動,以及一種高效的代理強化學習訓練算法——複製採樣策略優化(DUPO)。憑藉這一整合流程,WebSailor在複雜信息檢索任務中顯著超越了所有開源代理,與專有代理的性能比肩,縮小了能力差距。
从二维图像中恢复三维结构并实现开放词汇场景理解,是一项基础而艰巨的任务。近期研究通过结合语言信息进行逐场景优化,已取得一定进展。然而,这些方法严重依赖校准的密集视角重建范式,在视角有限时,会遭受严重的渲染伪影和不可信的语义合成问题。本文提出了一种新颖的生成框架,命名为LangScene-X,旨在统一并生成三维一致的多模态信息,以支持重建与理解。得益于生成一致新观察的能力,我们能够仅从稀疏视角构建可泛化的三维语言嵌入场景。具体而言,我们首先训练了一个TriMap视频扩散模型,该模型通过渐进式知识整合,能够从稀疏输入生成外观(RGB)、几何(法线)和语义(分割图)。此外,我们提出了一种在大规模图像数据集上训练的语言量化压缩器(LQC),以高效编码语言嵌入,实现跨场景泛化而无需逐场景重新训练。最后,我们通过将语言信息对齐到三维场景表面,重建了语言表面场,从而支持开放式的语言查询。在真实世界数据上的大量实验表明,LangScene-X在质量和泛化能力上均优于现有最先进方法。项目页面:https://liuff19.github.io/LangScene-X。
儘管文本到圖像擴散模型取得了顯著進展,但在生成輸出上實現精確的空間控制仍然具有挑戰性。ControlNet通過引入輔助條件模塊來解決這一問題,而ControlNet++則通過僅應用於最終去噪步驟的循環一致性損失進一步優化對齊。然而,這種方法忽略了中間生成階段,限制了其有效性。我們提出了InnerControl,這是一種在所有擴散步驟中強制執行空間一致性的訓練策略。我們的方法訓練輕量級卷積探針,以在每個去噪步驟中從中間UNet特徵重建輸入控制信號(例如,邊緣、深度)。這些探針即使在高度噪聲的潛在特徵中也能高效提取信號,從而為訓練提供偽地面真值控制。通過在整個擴散過程中最小化預測條件與目標條件之間的差異,我們的對齊損失提高了控制保真度和生成質量。結合ControlNet++等成熟技術,InnerControl在多種條件方法(例如,邊緣、深度)上實現了最先進的性能。
我們介紹了IntFold,這是一個可控的基礎模型,適用於一般及專業生物分子結構的預測。IntFold展現出與當前最先進的AlphaFold3相媲美的預測準確性,同時採用了更優化的自定義注意力核心。除了標準的結構預測外,IntFold還能夠通過使用個別適配器來預測變構態、受限結構以及結合親和力。此外,我們引入了一種新穎的置信度頭部來評估對接質量,為諸如抗體-抗原複合體等挑戰性目標提供了更細緻的評估。最後,我們分享了在這一計算密集型模型訓練過程中所獲得的洞見。
儘管獎勵模型(RMs)在基於人類反饋的強化學習(RLHF)中扮演著關鍵角色,當前最先進的開源RMs在大多數現有評估基準上表現不佳,未能捕捉到細膩且複雜的人類偏好光譜。即便是採用了先進訓練技術的方法,也未能帶來顯著的性能提升。我們假設這種脆弱性主要源於偏好數據集的局限性,這些數據集往往範圍狹窄、標籤合成或缺乏嚴格的質量控制。為應對這些挑戰,我們提出了一個包含4000萬偏好對的大規模偏好數據集,命名為SynPref-40M。為了實現大規模數據策展,我們設計了一個人機協同的兩階段流程,該流程結合了人類註釋質量和AI可擴展性的互補優勢。在此流程中,人類提供經過驗證的註釋,而大型語言模型則基於人類指導進行自動策展。基於這一偏好混合數據進行訓練,我們推出了Skywork-Reward-V2,這是一套包含從0.6B到8B參數的八個獎勵模型,它們在從SynPref-40M中精心策展的2600萬偏好對子集上進行訓練。我們展示了Skywork-Reward-V2在多種能力上的廣泛適用性,包括與人類偏好的一致性、客觀正確性、安全性、對風格偏見的抵抗力以及最佳N項擴展,在七大主要獎勵模型基準上達到了最先進的性能。消融研究證實,我們方法的有效性不僅源於數據規模,還得益於高質量的策展。Skywork-Reward-V2系列代表了開源獎勵模型的重大進步,凸顯了現有偏好數據集的未開發潛力,並展示了人機協同策展如何能顯著提升數據質量。
近期,多模态推理领域因文本链式思维(Chain-of-Thought, CoT)的引入而取得显著进展,该范式使模型能够在语言内部进行推理。然而,这种以文本为中心的方法将视觉视为静态的初始背景,在丰富的感知数据与离散的符号思维之间形成了根本性的“语义鸿沟”。人类认知往往超越语言,利用视觉作为动态的心理画板。人工智能领域正经历着类似的演变,标志着从仅仅思考图像的模型向真正能够用图像思考的模型发生根本性的范式转变。这一新兴范式的特征在于,模型将视觉信息作为其思维过程中的中间步骤,从而将视觉从被动输入转变为动态、可操控的认知工作空间。在本综述中,我们沿着认知自主性不断增强的轨迹,描绘了这一智能演化的历程,该历程跨越三个关键阶段:从外部工具探索,到程序化操控,再到内在想象。为了构建这一快速发展的领域,我们的综述做出了四项关键贡献:(1)确立了“用图像思考”范式的基本原则及其三阶段框架;(2)全面回顾了表征这一路线图各阶段的核心方法;(3)分析了评估基准与变革性应用的关键格局;(4)识别了重大挑战并勾勒了未来发展的前景。通过提供这一结构化概述,我们旨在为未来研究提供清晰的路线图,以推动更强大且与人类认知一致的多模态人工智能的发展。
推理对于大型语言模型(LLMs)而言仍是一项具有挑战性的任务,特别是在自动定理证明(ATP)这一逻辑约束严格的环境中,由于奖励稀疏且证明规模庞大,这一挑战尤为突出。在诸如PutnamBench这样的基准测试中,这些挑战被进一步放大,因为其中包含的大学级别问题需要复杂、多步骤的推理。为解决这一问题,我们引入了自生成目标条件马尔可夫决策过程(sG-MDPs),这是一种新框架,在此框架下,代理根据不断演进的证明状态生成并追求其子目标。鉴于目标生成更为结构化,由此产生的问题更易于搜索。随后,我们应用类似蒙特卡洛树搜索(MCTS)的算法来求解sG-MDP,并在Bourbaki(7B)中实例化我们的方法,Bourbaki(7B)是一个模块化系统,能够集成多个7B规模的LLM用于子目标生成与策略合成。在PutnamBench上,Bourbaki(7B)解决了26个问题,以这一规模的模型取得了新的最先进成果。
在現實世界的搜索場景中,複雜的信息需求要求跨多種來源進行深度推理和知識綜合,而傳統的檢索增強生成(RAG)管道難以有效應對。當前基於推理的方法存在一個根本性限制:它們使用單一模型來處理高層次規劃和詳細執行,導致推理效率低下且可擴展性有限。本文介紹了HiRA,這是一種分層框架,將戰略規劃與專業執行分離。我們的方法將複雜的搜索任務分解為專注的子任務,將每個子任務分配給配備外部工具和推理能力的領域特定代理,並通過結構化的集成機制協調結果。這種分離防止了執行細節干擾高層次推理,同時使系統能夠利用專業知識進行不同類型的信息處理。在四個複雜的跨模態深度搜索基準上的實驗表明,HiRA顯著優於最先進的RAG和基於代理的系統。我們的結果顯示了在答案質量和系統效率方面的改進,突出了分離規劃和執行對於多步驟信息尋求任務的有效性。我們的代碼可在https://github.com/ignorejjj/HiRA獲取。
近期研究表明,訓練損失隨模型規模與標記數量呈冪律關係增長,且實現計算最優模型需同步擴展模型規模與標記數量。然而,這些擴展定律基於數據無限供應的假設,主要適用於計算受限的場景。隨著現代大型語言模型日益依賴於海量的互聯網規模數據集,它們處於計算受限的假設正逐漸失效。這一轉變凸顯了對優先考慮標記效率的架構之需求。 在本研究中,我們探討了2-單純形Transformer的應用,該架構通過高效的Triton內核實現,將標準點積注意力推廣至三線性函數。我們證明,2-單純形Transformer在標記效率上優於標準Transformer:在固定標記預算下,規模相近的模型在涉及數學、編程、推理及邏輯的任務上表現更佳。我們通過展示2-單純形注意力相較於點積注意力,在知識與推理任務的擴展定律中改變了指數,從而量化了這些增益。
同行評審是科學研究的基石,然而日益增長的出版物數量加劇了這一專業密集型過程的挑戰。儘管大型語言模型(LLMs)在各種科學任務中展現出潛力,但其在協助同行評審,尤其是在識別論文侷限性方面的潛力仍未被充分研究。我們首先提出了一個針對科學研究,特別是人工智慧領域的侷限性類型綜合分類法。基於此分類法,我們推出了LimitGen,這是首個全面評估LLMs在支持早期反饋和補充人類同行評審能力的基準。我們的基準由兩個子集組成:LimitGen-Syn,一個通過對高質量論文進行受控擾動精心創建的合成數據集;以及LimitGen-Human,一個收集了真實人類撰寫的侷限性描述的數據集。為了提升LLM系統識別侷限性的能力,我們為其增加了文獻檢索功能,這對於將識別侷限性建立在先前科學發現的基礎上至關重要。我們的方法增強了LLM系統在研究論文中生成侷限性的能力,使其能夠提供更具體和建設性的反饋。
監督式微調(SFT)被廣泛用於將大型語言模型(LLMs)與信息抽取(IE)任務對齊,例如命名實體識別(NER)。然而,標註此類細粒度標籤並訓練特定領域模型的成本高昂。現有工作通常跨多個領域訓練統一模型,但這種方法缺乏適應性和可擴展性,因為並非所有訓練數據都對目標領域有益,且擴展已訓練模型仍具挑戰性。我們提出了SaM框架,該框架在推理時動態選擇並合併專家模型。具體而言,針對目標領域,我們根據(i)與目標領域的相似性和(ii)在採樣實例上的表現,分別選擇預訓練於現有領域的特定領域專家。然後,這些專家被合併以創建針對目標領域優化的任務特定模型。通過動態合併對目標領域有益的專家,我們無需額外訓練即可提升跨領域的泛化能力。此外,專家可以方便地添加或移除,從而實現極佳的可擴展性。在多個基準上的廣泛實驗證明了我們框架的有效性,其平均性能優於統一模型10%。我們還進一步探討了潛在的改進、實踐經驗以及框架的擴展方向。
尽管大型语言模型(LLMs)已展现出变革性力量,它们仍会犯错,并可能探索无效的推理路径。自我纠错是构建可信赖LLM,尤其是自回归LLM的重要能力。虽然LLMs能够识别用户输入中的错误,但它们却表现出一种系统性的“自我纠错盲点”——无法纠正自身输出中的相同错误。为了系统研究这一现象,我们引入了自我纠错基准(Self-Correction Bench),这是一个通过三个复杂度级别进行可控错误注入来测量此现象的系统框架。测试14个模型后,我们发现平均盲点率高达64.5%。多项证据表明,这一局限与训练数据构成有关:人类训练示范主要展示无错误的响应,而非错误纠正序列,这与通过结果反馈学习错误纠正的强化学习训练模型形成对比。值得注意的是,仅简单附加“等待”一词即可将盲点减少89.3%,表明这一能力存在但需激活。我们的研究揭示了当前LLMs的一个关键局限,并为其可靠性与可信度的提升提供了潜在途径。
推理時計算技術,類似於人類的系統二思維,近年來在提升模型性能方面變得流行。然而,現有方法大多存在若干限制:它們或是特定於某種模態(如僅適用於文本)、特定於某類問題(如數學和編程等可驗證領域),或是在無監督預訓練基礎上需要額外的監督/訓練(如驗證器或可驗證獎勵)。本文探討了“能否將這些系統二思維方法推廣,並開發出僅通過無監督學習就能學會思考的模型?”這一問題。有趣的是,我們發現答案是肯定的,方法是學習顯式驗證輸入與候選預測之間的相容性,然後將預測問題重新表述為針對此驗證器的優化問題。具體而言,我們訓練了基於能量的變壓器(EBTs)——一類新的基於能量的模型(EBMs)——為每一對輸入和候選預測分配能量值,從而通過基於梯度下降的能量最小化直至收斂來實現預測。在離散(文本)和連續(視覺)模態中,我們發現EBTs在訓練期間的擴展速度超過了主流的Transformer++方法,在數據、批量大小、參數、浮點運算次數和深度方面實現了高達35%的擴展率提升。在推理時,EBTs在語言任務上通過系統二思維將性能提升了29%,超過了Transformer++;在圖像去噪任務上,EBTs在使用更少前向傳遞的情況下,表現優於擴散變壓器。此外,我們發現,在相同或更差的預訓練性能條件下,EBTs在大多數下游任務上取得了比現有模型更好的結果,這表明EBTs比現有方法具有更好的泛化能力。因此,EBTs為擴展模型的學習與思維能力提供了一個有前景的新範式。
強化學習(RL)已成為大型語言模型(LLM)後訓練階段的關鍵技術。傳統的任務共置RL框架存在顯著的可擴展性瓶頸,而任務分離的RL框架則面臨複雜數據流以及相應的資源閒置和工作負載不平衡的挑戰。此外,大多數現有框架與LLM訓練或推理引擎緊密耦合,難以支持自定義設計的引擎。為解決這些挑戰,我們提出了AsyncFlow,一種用於高效後訓練的異步流式RL框架。具體而言,我們引入了一個分佈式數據存儲和傳輸模塊,以完全流式的方式提供統一的數據管理和細粒度調度能力。這種架構本質上促進了RL任務之間的自動化管道重疊和動態負載平衡。此外,我們提出了一種基於生產者-消費者的異步工作流,通過在陳舊度閾值內策略性地延遲參數更新過程,最大限度地減少計算閒置。最後,AsyncFlow的核心能力在架構上與底層訓練和推理引擎解耦,並通過面向服務的用戶界面進行封裝,提供了模塊化和可定制的用戶體驗。大量實驗表明,與最先進的基線相比,平均吞吐量提高了1.59倍。本文提出的架構為下一代RL訓練系統設計提供了可操作的見解。
线性注意力机制为大型语言模型(LLMs)带来了显著优势,通过提供线性计算复杂度,实现了超长序列(例如,100万上下文)的高效处理。然而,现有的序列并行(SP)方法,对于跨设备分配这些工作负载至关重要,却因巨大的通信开销成为主要瓶颈。本文提出了一种针对线性注意力模型的零通信开销序列并行方法——ZeCO,旨在克服这些限制,实现长序列训练的端到端近线性扩展。例如,在64台设备上使用ZeCO训练一个100万序列长度的模型,所需时间与在单台设备上训练16k序列大致相同。ZeCO的核心在于All-Scan,一种新的集体通信原语。All-Scan为每个SP等级提供其所需的初始操作符状态,同时保持最小的通信足迹,有效消除了通信开销。理论上,我们证明了ZeCO的最优性,表明其仅引入可忽略的时间和空间开销。实证上,我们比较了不同序列并行策略的通信成本,并证明All-Scan在SP场景中实现了最快的通信。具体而言,在256个GPU上处理800万序列长度时,ZeCO相比当前最先进的SP方法实现了60%的加速。我们相信,ZeCO为在以往难以处理的序列长度上高效训练下一代LLMs开辟了一条清晰的道路。