每日精選AI研究論文及翻譯
現實世界中的許多時刻並不會等待使用者提問——保全監視器上竄出火苗、視訊通話中閃過一抹表情、直播裡觀眾心儀的商品一閃而過。然而,當今的大型模型大多仍停留在回合制設計:它們只在被呼叫時才回應,即使是看似具互動性的視訊通話應用程式,本質上仍是問答系統,僅在輪詢或提示時才有所反應。我們主張另一種範式:一個像人類一樣「臨在」於世界中的模型。它持續觀察當下發生的一切,自主決定該發言或保持沉默,即時互動,並在問題困難時委託給後台模型處理。為推動互動模式的發展及其在各領域的採用,我們貢獻了兩項完全開源的成果。首先,我們釋出 JoyAI-VL-Interaction——一個 8B 規模、以視覺為優先的視覺語言互動模型。該模型在內部做出回應決策,每秒鐘選擇保持沉默、回應或委託給後台模型,並擅長視覺觸發的反應速度與時間感知。我們還為其配備了一套可遷移的訓練配方,從中湧現出從未刻意訓練的能力,例如引導購物者切換應用程式畫面,或是根據投影片即興授課。其次,我們釋出了一套完整的可部署系統,以該模型為核心。該系統能將任何持續進行的視訊串流輸入模型,使其真正「臨在」於世界中。所有其他元件均可插拔,包括 ASR/TTS 模組、記憶體、視覺化 UI,以及可連接任何 API 或代理程式的後台「大腦」。在六個真實世界場景中,人類評審者對 JoyAI-VL-Interaction 的偏好程度大幅優於豆包與 Gemini 的應用內視訊通話助手。據我們所知,這是首個開放原始碼的視覺驅動互動模型,一併釋出了其訓練配方、資料與完整的可部署系統。
資料講述故事,進而塑造社會;資料記者的職責,就是將原始資訊轉化為非專業人士也能信賴的故事。一則高品質的新聞專題,需要新聞編輯室團隊花費數週時間:尋找背景脈絡、執行統計分析、選定切入角度、設計視覺呈現。近期的智能代理程式能妥善處理個別步驟:資料科學代理程式能完成分析循環,而設計代理程式則能綜整出美觀的網站。但一個代理程式能否從頭到尾擔任資料記者的角色?我們提出「資料記者代理」(Data2Story),這是一個多代理框架,能將各種專業角色統合於單一虛擬新聞編輯室中。Data2Story 帶來了兩項創新:(i) 主張有證據佐證:審查代理會將每個數字、角度與素材,連結回資料、程式碼或外部參考文獻。(ii) 文章採多模態生成:Data2Story 不會預設使用純文字與靜態圖表,而是推論讀者會想看什麼,再部署多模態工具,例如地理相關的互動地圖,以及音樂相關的音訊。我們從四個面向評估 Data2Story,共計 18 篇文章,每篇皆與原始發表的專家文章配對:(a) 人類與代理在報導角度上的涵蓋範圍;(b) 透過 53 位參與者、涵蓋五個維度的評分量表評估;(c) 以電腦使用代理作為評審,作為衡量讀者如何瀏覽互動式文章的節省成本替代方案;(d) 可驗證性,由程式碼驗證器針對資料重新執行陳述,並比對主張與參考文獻。Data2Story 能產出具有競爭力、可追溯證據的多媒體報導,尤其在透明度與可稽核性方面表現突出。人類文章則在編輯角度、創意設計與呈現上仍保有優勢。我們將 Data2Story 定位為記者的協作夥伴,促成更具證據基礎、更透明且更可驗證的報導。程式碼與示範請見 https://data2story.github.io。
通用型機器人策略必須遵循使用者指令,同時推理物體、相機與機器人動作在三維物理世界中的互動關係。近期的視覺-語言-行動模型(VLA)與視訊世界-行動模型(WAM)雖繼承大型基礎模型的強大語義或時間先驗,但其運作仍主要依賴二維影像幀或二維衍生的潛在空間,隱含了接觸密集型操作所需的三維幾何資訊。為此,我們提出幾何行動模型(GAM),這是一種語言條件化的操作策略,直接將預訓練的幾何基礎模型(GFM)重新定位為感知、時間預測與行動解碼的共享基礎架構。GAM在GFM的中間層進行分割:淺層作為觀測編碼器,並在分割層插入因果未來預測器,根據語言、本體感知與行動歷史預測未來的潛在標記。這些預測的未來標記隨後通過其餘GFM區塊進行特徵傳播與解碼,使單一骨幹網路能同時產出未來幾何資訊與行動。此設計僅需最小的架構修改,即可為GFM配備語言條件化的時間世界模型,同時保留其豐富的幾何先驗知識。在廣泛的模擬與真實機器人操作基準測試中,GAM在準確度、穩健性、執行速度與輕量化方面,均超越當前基礎模型規模的基準方法。
DreamX-World 1.0 是一個通用型的互動式文字/圖像到影片世界模型,專為可控的長時間序列生成而設計。它支援相機導航、重新造訪先前觀察過的區域,以及在寫實、遊戲風格與風格化領域中進行可提示事件的生成。我們的資料引擎結合了具備準確相機參數的 Unreal Engine 渲染、動作豐富的遊戲錄製片段,以及經過相機幾何恢復的真實世界影片。在相機控制方面,我們引入了 E-PRoPE,這是一種投影位置編碼的輕量級變體,保留了 PRoPE 的投影相機幾何特性,同時對空間縮減後的令牌施加了相機感知注意力。我們利用因果強制、DMD 風格蒸餾以及長展開訓練,將雙向影片生成器轉換為少步驟的自回歸世界模型。在自生成長時序列上下文上進行訓練,使模型接觸到自身生成的歷史,從而減少在自回歸區塊間累積的風格與色彩漂移。記憶條件場景持久性透過基於相機幾何的檢索來恢復較早的視角,而殘差回收則使條件路徑對不完美的記憶潛變量不那麼敏感。事件指令微調加入了可組合的事件控制,而強化學習對齊則在蒸餾後恢復了相機控制與視覺品質。憑藉混合精度的 DiT 執行、殘差重用、75% 剪枝後的 VAE 解碼以及非同步管線並行,DreamX-World 1.0 在八張 RTX 5090 GPU 上可達到高達 16 FPS。在我們五秒鐘的基本評估中,DreamX-World 1.0 獲得了 73.75 的相機控制分數與 84.76 的總體分數,在總體得分上優於 HY-WorldPlay 1.5 與 LingBot-World,後兩者分別獲得 80.79 與 80.45 分。
大型語言模型(LLM)編碼代理在軟體工程任務上已取得優異成果,但倉庫探索仍是主要瓶頸:定位相關程式碼消耗大量令牌預算,並將無關片段混入代理的上下文。在多數代理中,探索倉庫與解決任務由同一模型完成,導致求解器的歷史記錄中充斥著探索性讀取與搜索。我們提出 FastContext,這是一個專門的探索子代理,將倉庫探索與任務求解分離。FastContext 按需調用,發出並行工具呼叫,並返回精簡的檔案路徑與行範圍作為聚焦上下文。FastContext 由參數量從 4B 到 30B 的專門探索模型驅動。我們從強參考模型軌跡中引導這些模型,並使用基於任務的獎勵對其進行優化,以支援廣泛的首輪搜索、多輪證據收集及精確的引用生成。在 SWE-bench Multilingual、SWE-bench Pro 與 SWE-QA 上,將 FastContext 整合至 Mini-SWE-Agent 可將端到端解決率提升最多 5.5%,同時將編碼代理的令牌消耗降低最多 60%,且開銷極小。這些結果表明,倉庫探索可與任務求解分離,並由專門模型有效處理。程式碼與資料:https://github.com/microsoft/fastcontext
本技術報告介紹了 VibeThinker-3B,一個具有 3B 參數的緊湊密集模型,旨在探討在嚴格的小模型範疇內,可驗證推理能力能推進至何種極限。基於 Spectrum-to-Signal 後訓練範式,我們透過一套優化管線系統性地增強模型,該管線包括基於課程的監督微調、多域強化學習以及離線自我蒸餾。實驗評估顯示,VibeThinker-3B 在高度要求的可驗證任務上達到了前沿水準。具體而言,在 AIME26 上獲得 94.3 分(透過聲明級測試時擴展可提升至 97.1 分),在 LiveCodeBench v6 上達到 80.2 的 Pass@1,並展現出強大的分佈外泛化能力,在近期未見過的 LeetCode 競賽中達到 96.1% 的接受率。這使其有效躋身一線推理系統的性能區間,與規模大數個數量級的旗艦模型(如 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro)相當甚至超越。此外,IFEval 上 93.4 分的成績確認了這種極端的推理增強並未損害嚴格的指令可控性。延伸我們先前 1.5B 的工作,這些發現催生了參數壓縮-覆蓋假說(Parametric Compression-Coverage Hypothesis),該假說將可驗證推理視為可壓縮至緊湊推理核心的過程,而開放域知識與通用能力則需要對事實、概念及長尾情境進行廣泛的參數覆蓋。此觀點表明,緊湊模型不僅是便於部署的替代方案,更是在參數密集能力範疇中通往前沿性能的互補路徑。
從拍攝的影片中對城市場景進行逆向渲染,使眾多應用成為可能,包括內容創作與自動駕駛模擬。基於物理的渲染方法能夠遵循並控制光照物理特性,但存在重建與渲染偽影。生成模型雖能產生逼真的影片,但其一致性和可控性有限。我們提出BRDFusion,一個結合兩種互補模型進行逆向與正向渲染的統一框架。具體而言,BRDFusion透過物理建模還原明確且一致的場景屬性,並利用生成先驗緩解最佳化中的模糊性。在正向渲染過程中,物理模型能根據場景配置提供可控渲染,而生成模型則負責去噪和修正偽影。因此,我們的方法能產出高品質影片,同時允許精確控制,在真實與合成場景中均優於基準方法。此外,BRDFusion支援新視角重打光、夜間模擬以及動態物體插入/編輯。專案頁面:https://shigon255.github.io/brdfusion-page/
掩蔽擴散語言模型(MDLMs)已成為序列生成中的一種獨特典範。隨著MDLMs在能力與知識覆蓋範圍上日益多元,一個重要的問題是如何整合它們的知識。為此,我們首先探討MDLMs獨特的解碼動態。我們發現,成功的生成在與答案相關的位置上展現出穩定的信心動態,而不可靠的軌跡則常可透過注入來自其他模型的中間狀態來修正。根據此觀察,我們提出基於軌跡的迭代集成(TIE),這是一個知識融合框架,其中MDLMs反覆識別可靠的解碼軌跡並在模型間傳遞。TIE追蹤答案相關位置上的信心動態,以判斷哪個模型當下遵循更可靠的軌跡,並選擇性地將部分去噪序列跨模型轉移。由於處於較有前景軌跡上的模型常在去噪步驟之間變換,TIE允許不同模型在生成的不同階段貢獻互補的優勢。在多樣化推理任務上的強勁表現,以及我們的分析,均表明TIE為MDLM集成這一尚未充分探討的問題提供了實用方法。
視覺語言模型正成為處理複雜多模態任務的通用介面。然而,部署仍面臨三大鴻溝:視覺語言模型在處理密集視訊幀與長提示詞時通常產生高延遲與高成本;部署後代理人框架保持靜態;現有視訊問答基準無法測試代理人能否在工具使用工作空間內運用視覺證據。我們提出VisualClaw,一個以兩項原則為核心構建的自演化多模態代理人。首先,混合編碼透過串聯閘門過濾資訊量低的串流幀,並經由熱/冷 top-k 注入壓縮技能文本庫,從而降低部署成本。其次,技能演化讓代理人從失敗中學習:檢索記憶作為直接拼接上下文或引導證據輸入演化器,產生的技能庫更新有助於未來問題。在 2 種視覺語言模型與 4 個視訊問答基準測試中,VisualClaw 將每問題 API 成本平均降低 -98%(相較於全幀上傳)與 -25.9%(相較於離線均勻 8 幀基線),同時在多數設定中提升準確率,例如搭配 Gemini 3 Flash 在 EgoSchema 上平均提升 +3.85%,最高達 +15.80%。為填補上述鴻溝,我們整理出 VisualClawArena,一個經由嚴格五階段流程建構的 200 情境多模態代理人基準;模型須在工作空間內運用視訊證據、文件、動態更新與可執行檢查。在 VisualClawArena 上,搭配電腦使用代理人後端的相同框架,相較於無演化基線,Codex(GPT-5.5)的巨觀準確率提升 +2.9%,Claude Code(Sonnet 4.6)提升 +3.2%,成本則比均勻取樣基線降低 -9.5%。這些特性使 VisualClaw 天然適用於邊緣端應用:串聯閘門將 1 小時串流會話的 API 上傳次數從約 3,600 次降至僅 5-20 次,而自演化機制使其成為理想的個人化助理。
視覺世界模型(VWMs)能從單一上下文圖像合成具互動性、以動作為條件的展開預測。然而,此類模型對對抗擾動的穩健性仍屬未解問題。標準對抗攻擊無法評估此脆弱性,因攻擊者既缺乏真實未來影片,也無法預測後續使用者控制。我們提出 BadWorld,一種專為自迴歸視覺世界模型設計的無標籤對抗框架,系統性地克服上述兩項限制。首先,為繞過對未來監督訊號的需求,我們提出自監督速度攻擊,直接擾亂模型早期的去噪動態。其次,為確保攻擊能泛化至不可預測的使用者動作,我們制定軌跡自適應雙層最佳化,主動挖掘困難控制序列以鑄造與控制無關的擾動。在以連續與離散控制為特徵的代表性視覺世界模型上進行評估後,BadWorld 揭露了嚴重的結構脆弱性。視覺上難以分辨的對抗影像能可靠地觸發未來展開預測的災難性退化,導致去噪不完全、結構崩解及控制不一致。這些發現揭示了將視覺世界模型部署於安全關鍵系統中的關鍵風險,同時也凸顯出一種實用的隱私保護機制。
多任務學習(MTL)對於推薦系統中實現多樣化用戶回饋間的互補學習至關重要。儘管現代工業實務已從深度神經網路轉向以Transformer為核心的架構,以強化序列建模與擴展能力,但其仍將特徵編碼與多任務預測分離,並將Transformer視為任務無關的編碼器。這種設計從根本上限制了效能與可擴展性,原因在於:(1)在異質任務目標下形成資訊瓶頸;(2)引發梯度干擾,導致蹺蹺板現象;(3)迫使資料流轉換,使基於注意力機制、情境自適應的表徵學習轉變為靜態的前饋任務預測,並伴隨不相容的資訊讀寫動態。 我們提出OneRank,一個原生Transformer的多任務排序框架,該框架消除了編碼器與預測器的分離,並引入任務私有通道,用於前向表徵學習與反向優化,從而實現任務專門化學習,同時減少任務間干擾。在前向傳遞中,OneRank透過任務條件化資訊選擇、候選項感知情境化以及可控的跨任務互動,自底向上學習任務特定表徵。在反向傳遞中,跨任務梯度分離將任務私有參數更新與共享知識提取模組隔離,防止負遷移。我們進一步將靜態的任務特定多層感知機評分器替換為基於動態匹配的評分機制,以實現情境感知的個人化排序。透過將多任務推理內化於Transformer堆疊之中,OneRank建立了一個統一且可擴展的架構範式。在大規模工業資料集上的離線與線上實驗結果表明,OneRank在維持計算效率的同時,顯著優於當前最先進的基準方法。
我們提出Qwen-RobotWorld,一種面向具身智慧的語言條件化視頻世界模型。它以自然語言作為統一的動作介面,從當前觀測預測跨機器人操作、自動駕駛、室內導航及人機轉移等場景中具備物理基礎的未來視覺軌跡。這種統一的表述提供了三個有前景的應用方向:用於策略訓練增強的合成數據生成、用於策略評估的可擴展虛擬環境,以及用於下游機器人控制的語言引導規劃信號。該成果透過三個部分設計實現:a) 雙流MMDiT與MLLM動作編碼——一個60層雙流擴散Transformer,透過逐層聯合注意力將凍結的Qwen2.5-VL語義與視頻VAE潛變量耦合;b) 具身世界知識——包含860萬個影片文本語料庫(超過2億幀),涵蓋20多種具身型態和500多個動作類別的動作語言映射;c) 通用+專家漸進式課程——一種兩階段訓練策略,先在共享語言介面下學習通用視覺先驗,再注入具身專業化。大量結果顯示其具有強大的競爭力:在EWMBench和DreamGen Bench上整體排名第一,在WorldModelBench和PBench上超越所有開源模型。此外,在RoboTwin-IF基準上的零樣本分析進一步支持其穩健泛化與多視角一致性。
本文介紹了 SP^3,一種新穎的即插即用演算法,透過將去噪器替換為球形編碼器作為生成先驗,來加速最大後驗影像復原。SP^3 利用 SE 結構緊密的潛在空間作為自然影像流形的穩健投影,近似不可解的近端先驗步驟。透過半二次分割,將此投影與封閉式資料一致性步驟交替進行,可在推理過程中無需計算梯度,達到穩定收斂。此獨特公式實現了「隨時」復原能力,從第一次迭代即可產生清晰、合理的影像。在各種影像復原任務的評估中,SP^3 在感知品質上可與最先進的零樣本擴散與流方法相媲美,同時速度快 3 到 630 倍。
隨著大語言模型代理在長時間跨度的會話中被部署,上下文的積累會推升推理成本。現有方法採用文本剪枝或動態記憶驅逐來最小化令牌足跡;然而,其不受約束的序列突變會改變佈局,導致前綴不匹配與快取失效。這揭示了文本稀疏性與提示快取連續性之間的一個關鍵權衡。為此,我們提出TokenPilot,一個雙粒度上下文管理框架。在全球層面,感知攝取的壓縮作為框架工具,在攝取入口處穩定提示前綴並消除開放世界環境雜訊。在局部層面,感知生命週期的驅逐會監控上下文片段當前的殘餘效用,僅在任務相關性過期時才執行保守的批次輪次排程以卸載內容片段。在PinchBench與Claw-Eval上以隔離模式與連續模式進行的實驗表明,TokenPilot在隔離模式下分別降低了61%與56%的成本,在連續模式下分別降低了61%與87%的成本,同時相比於先前系統保持了具有競爭力的性能。TokenPilot已整合至LightMem2中,網址為https://github.com/zjunlp/LightMem2。
先進的智慧體正逐漸展現出作為自主工程師的潛力,這使得對能夠反映真實世界開發複雜性的評估基準的需求日益增長。此類開發環境通常同時涉及複雜的程式碼與大規模資料(即檔案系統)。然而,現有的基準大多僅單獨評估以程式碼為中心或以資料為中心的能力,與真實的開發場景存在明顯差距。本文透過引入 CODA-BENCH 來填補此缺口,該基準是首個在資料密集型環境中聯合評估程式碼與資料智能的基準。我們基於 Kaggle 生態系統(包含數百個資料集)建構了一個資料密集型的 Linux 沙箱,在其中智慧體必須主動探索複雜的檔案層級結構以識別相關資源,並為資料驅動的分析任務生成程式碼。CODA-BENCH 包含橫跨 31 個社群的 1,009 項任務,每個任務環境平均包含 980 個檔案,模擬了真實的資料規模與雜訊。對先進智慧體的評估結果顯示,即使是表現最佳的系統,在有效整合資料發現與程式碼執行方面仍面臨困難,成功率僅達 61.1%。這些結果凸顯了當前智慧體在處理資料密集型任務時的能力缺口,並為未來研究指出了有前景的方向。
長篇影片生成需要重複出現的主體在各種鏡頭、視角、動作及場景轉換中保持一致。現有的時間分解方法透過逐鏡頭生成影片來提升可擴展性,但它們主要專注於優化合理的下一個鏡頭接續,卻未驗證歷史記憶是否保留主體身分關鍵的證據。因此,隨著生成過程推進,重複出現的主體可能會被稀釋、覆蓋或遺忘。在本文中,我們提出Memento,這是一個主體重建引導框架,將主體保留視為明確的身分定位問題,其前提是:一個忠實保留主體的記憶庫應能僅憑記憶重建該主體。具體而言,Memento聯合訓練自回歸的下一個鏡頭生成與基於記憶的主體重建,利用歷史記憶和全局故事描述來恢復目標外觀。為了將長程主體證據與短程線索分離,Memento引入雙查詢記憶機制,其中一個查詢檢索與身分相關的記憶,另一個則選取短上下文關鍵幀以實現連貫的接續。此外,一個主體感知的電影級資料管道透過一致且無代名詞的主體描述提供精確的重建監督。實驗結果表明,Memento在長期主體一致性、跨鏡頭連貫性及視覺品質方面達到了最先進的效能。
將視覺-語言-動作(VLA)策略擴展至新任務時,通常需要任務專屬的遠程操作示範及逐任務微調,使得適應過程在資料收集與計算成本上皆耗費資源。本文證明,可透過檢索取代目標端的逐任務適應成本。我們提出的檢索增強策略僅需在目標具身(查詢)與成本較低的具身(池,例如人手影片)所配對的示範資料上訓練一次,之後便保持固定。部署新任務時,只需將池端示範資料加入檢索池中。該固定策略在每個控制步驟皆以檢索到的軌跡為條件,因此新任務可透過索引資料而非更新參數加以吸收。僅在面對全新未見過的具身時才需微調,而非為每個新任務進行。我們證明檢索能提升超越特定骨幹架構的策略(包括標準VLA策略),但其效果在基於影片生成的世界-動作模型(WAM)「Cosmos Policy」中尤為顯著。在此設定下,檢索提供粗略任務進程,而WAM的未來影像目標則提供額外的視覺一致性訊號,強化以檢索為條件的動作。在PushT任務中,我們研究檢索如何提供可重複使用的高層級運動先驗,以實現針對未見過目標角度的跨具身泛化;而在RoboTwin 2.0上,我們的方法在未見過任務中優於跨具身基準方法,並進一步在真實機器人上驗證該方法。
網頁代理程式透過長互動序列運作,然而現有基準僅評估最終成功與否,忽略了所有過程資訊,也幾乎無法提供改進方向。在本研究中,我們對網頁代理程式進行了過程層級的分析。我們提出了 WebStep,一個包含 1,800 個任務實例的基準測試,具備可控的難度與自動語義狀態追蹤。每個網站在圖形使用者介面(GUI)之外,還暴露了一個確定性的語義馬可夫決策過程(MDP):代理程式在介面上操作,而環境在背景中記錄高層次狀態與轉換,從而無需人工標註即可進行細粒度分析。基於語義軌跡,我們首先證明過程指標能揭示結果評估無法察覺的差異:三個成功率集中在 31% 至 33% 的代理程式,在探索範圍與執行準確度上表現各異。接著,按技能進行分解,說明了這些差異的本質,揭露了在同一網站內部隱藏的、技能層級相反的排名:例如,在 Housing 網站上,OpenAI CUA 在提交操作上優於 Qwen3.5 23.7%,但在篩選操作上卻落後 15.6%,這精確指出了即使在同一個領域中也存在具體可改進的技能。分岔分析進一步定位了導致任務失敗的關鍵錯誤,並顯示此錯誤是代理程式特有的,而非共通的。最後,這些差異隨著任務難度增加而擴大:在簡單任務中成功率相似,但當探索需求增加時,成功率則明顯分化。我們的過程層級分析為網頁代理程式的評估開闢了新途徑,提供了細粒度且可操作的洞察,指出每個代理程式該在何處及如何加以改進。
高效且可擴展的代理智能,需要模型同時具備低延遲響應與強大推理能力,同時在訓練、服務與部署上保持實用性。本報告中,我們提出 Ling-2.6 與 Ring-2.6 模型家族,旨在大規模應對此挑戰。Ling-2.6 專為即時生成回應與高每個輸出Token能力而優化,而 Ring-2.6 則針對更深層推理與更進階的代理工作流程量身打造。我們並非從頭訓練,而是透過架構遷移預訓練與大規模後訓練,對 Ling-2.0 基礎模型進行升級。此升級以模型架構、優化目標、服務系統與代理訓練環境的統一協同設計為指導,從而同時提升模型能力與部署效率。在架構層面,我們引入混合線性注意力設計,將 Lightning Attention 與 MLA 整合,提升長上下文訓練與解碼效率。為進一步增強Token效率,我們透過演化思維鏈、語言單元策略優化、雙向偏好對齊及最短路徑正確回應蒸餾,來優化每個輸出Token的能力。針對代理能力,我們提出 KPop,這是一個強化學習框架,旨在支援 Ring-2.6-1T 在大規模環境基礎資料上的穩定訓練。KPop 透過編碼、搜尋、工具使用與工作流程執行的異步排程,提升訓練效率,從而實現從複雜代理-環境互動中進行可擴展學習。Ling-2.6 與 Ring-2.6 共同為高效、可擴展且開放的代理系統提供了實用路徑。我們開源 2.6 模型家族的所有檢查點,以支持實用代理智慧的進一步研究與開發。
隨著大型語言模型的進步,訓練後的強化學習(RL)日益依賴多維度獎勵來培養全面的能力。這種轉變需要新的演算法,能夠同時優化多樣且可能彼此競爭的目標。為此,現有方法如群組獎勵解耦策略優化(GDPO)將整體分數分解為獨立的獎勵群組,然後在每個群組內分別計算強化學習損失。然而,此策略仍會遇到多重獎勵衝突:單次採樣結果在某些獎勵維度上可能獲得正向優勢,但在其他維度上卻為負向,導致聚合時相反訊號相互抵消,進而阻礙強化學習訓練效率。受動態採樣策略優化(DAPO)啟發—該方法透過過濾掉優勢值接近零的低效採樣結果來提升強化學習訓練效率—我們提出群組動態獎勵解耦策略優化(GD^2PO)。具體而言,GD^2PO 採用衝突感知過濾機制,遮蔽掉遭受嚴重獎勵維度不一致的採樣結果。透過防止衝突訊號相互抵消,此遮蔽策略能保留並增強有效強化學習優勢的幅度,從而顯著加速學習效率。此外,我們引入查詢層級重新加權,根據每個查詢的整體獎勵共識動態調整其更新強度。在包含工具呼叫與人類偏好對齊等各種多獎勵場景的實驗中,GD^2PO 持續且顯著優於現有基準。程式碼已公開於 https://github.com/Qwen-Applications/GD2PO。
我們介紹 Nemotron 3 Ultra,這是一個總參數量 5500 億、激活參數 55 億的混合專家(MoE)架構,結合了 Mamba 和注意力機制的語言模型。我們在 20 萬億文本 token 上預訓練了 Nemotron 3 Ultra,然後將上下文長度擴展到 100 萬 token,並通過監督式微調(SFT)、強化學習(RL)和多教師同軌策略蒸餾(MOPD)進行後訓練。Nemotron 3 Ultra 是我們目前最強大的模型,採用了多項關鍵技術——LatentMoE、多 token 預測(MTP)、NVFP4 預訓練、多環境 RLVR、MOPD 以及推理預算控制。與當前公開可用的最優大型語言模型相比,Nemotron 3 Ultra 的推理吞吐量提升約 6 倍,同時保持同等準確度。其領先的準確度、高推理吞吐量以及 100 萬 token 的上下文長度,使其非常適合長時間運行的自主代理任務。我們在 HuggingFace 上開源了基礎、後訓練和量化檢查點,以及訓練數據和配方。
多轮对话的LLM服务会累积对话历史,其键值(KV)缓存随每一轮对话和每位用户不断增长,很快超过模型权重本身,使得内存——而非算力——成为吞吐量的制约瓶颈。非均匀KV压缩技术为各注意力头分配异构预算,在保持准确率方面远优于均匀方案,然而在实践中仍难以落地:现代服务栈假设各注意力头的KV长度一致,因此异构性会导致释放的内存因页面碎片化而陷入困境,预填充阶段需耗费高达25%的时间回收散落页面,同时扭曲GPU工作负载,使解码延迟膨胀至1.7倍,或令每一步解码操作中15%-20%的时间消耗在重新规划上。我们观察到这种异构性无需在运行时发现:注意力头维度的保留量遵循两级结构规律——输入无关的头排序与每头比率严格受限的边界——仅需50条样本即可离线校准。基于这一洞察,我们提出Tangram服务框架,将先前系统动态处理的内容转为静态解耦:预算预留机制在调度时锁定每个注意力头压缩后的内存占用,消除页面回收;参差分页机制将预算相近的注意力头聚类为独立页表,将碎片转化为可回收内存;预计算负载均衡机制无需运行时规划即可预先计算均衡的GPU分区。基于vLLM实现的Tangram可作为现有非均匀压缩方法的即插即用基础组件,在保持同等准确率的同时,端到端吞吐量相较完整KV基线提升最高2.6倍。我们的实现已开源:https://github.com/aiha-lab/TANGRAM。
手機代理程式日益被期望能完成實際的行動工作流程,而非僅預測下一個螢幕動作。然而,目前多數行動代理程式文獻仍主要將代理程式評估為GUI控制器,即觀察螢幕、發出點擊與滑動指令,並根據目標應用狀態進行評分。實際的手機使用任務範圍更廣:它們需要決定何時使用應用GUI、裝置端指令或結構化工具,同時留下證據證明預期的副作用確實發生。我們引進PhoneHarness,一個混合動作基準測試與執行框架,用於研究在可驗證的行動工作流程中的手機使用代理程式。PhoneHarness透過GUI、CLI與主機端工具動作執行裝置端的代理程式循環,結合確定性動作路由、有限GUI委派與可稽核的執行軌跡。其基準測試PhoneHarness Bench評估代理程式是否能完成具可觀察副作用的任務,而非僅產生看似合理的最终答案。在已註釋的評估劃分中,PhoneHarness達到75.0%的通過率,比最強的非PhoneHarness設定高出12.9個百分點。因此,PhoneHarness與PhoneHarness Bench扮演著不同但相互依存的角色:框架使混合手機工作流程可執行,而基準測試則衡量代理程式能否可靠且安全地使用該框架。我們的研究結果顯示,可靠的手機自動化取決於動作表面路由與可驗證的執行,而非僅視覺上的GUI控制。
統一多模態模型(UMMs)已成為通用多模態智能的關鍵發展方向,將理解與生成整合至單一架構中。然而,現有UMMs面臨顯著的挑戰:(1)視覺理解與生成任務之間存在固有的學習衝突,導致兩項任務的建模效果次優;(2)理解與生成視覺空間的差異阻礙了可擴展性;(3)過度依賴任務特定資料,忽略了文字-影像理解與生成的雙向性。為因應這些挑戰,我們提出UniDDT,該模型利用雜訊ViT編碼器搭配LLM來統一視覺生成與理解任務的語義編碼,同時採用獨立擴散解碼器將擴散解碼與文字解碼分離。藉由此雜訊ViT編碼器,UniDDT能運用潛在空間作為統一的視覺表徵,實現理解與生成任務之間的無縫相容。如此一來,生成任務內的可擴展性與理解任務內的語義表達力即可取得平衡。此外,我們從相同的影像-文字對構建雙重資料結構,促進生成與理解資料間的相互依存關係,以善用其內在的雙向性。大量實驗證明,UniDDT能在增強語義一致性與可擴展性的前提下,有效統一多模態理解與生成。在視覺生成任務中,UniDDT達到GenEval評分0.87與DPG總分86.9;在多模態理解任務中,UniDDT於MME基準獲得1699.5分,並在SEEDbench取得76.5的總分。
我們提出了大型影片嵌入基準測試(MVEB),這是一個涵蓋23個任務的影片嵌入基準,任務包括分類、零樣本分類、聚類、配對分類、檢索以及以影片為中心的問答。我們評估了33個模型,發現沒有任何單一模型占據主導地位:基於多模態大型語言模型(MLLM)的嵌入在分類、聚類、配對分類和問答方面領先;多模態綁定在檢索和零樣本分類方面領先;而沒有對比學習適應的生成式MLLM在跨模態任務上表現崩潰。透過僅影片與音訊+影片的配對評估顯示,音訊的貢獻取決於資料集標註來源:當標籤來自兩種模態時,音訊有幫助;而當標籤僅來自視覺時,音訊則造成負面影響,此差距在不同模型家族中一致達到六個百分點。MVEB源自一個包含184個任務的MVEB+,其設計旨在維持任務多樣性的同時降低評估成本。它整合到MTEB生態系統中,以實現文字、圖像、音訊和影片的統一評估。我們在https://github.com/embeddings-benchmark/mteb發布MVEB及所有184個任務,並附上程式碼和排行榜。
當預訓練的視覺-語言-動作(VLA)策略透過線上強化學習進行微調時,每次推出的回合僅產生單一二元結果(成功或失敗),然而策略更新卻需要每個時間步的監督訊號。現有方法通常將這種稀疏結果簡化為單一標量獎勵或優勢訊號,此舉混淆了不同形式的时间步層級反饋,且一旦基本任務成功達成,所能提供的引導便十分有限。首先,單一標量訊號混淆了可行性與效率這兩個目標;一旦基本成功達成,二元標籤便無法提供梯度來區分高效完成與緩慢完成的執行。其次,真實世界中的推出混合了自主與干預片段;天真地將回合結果跨這些邊界進行分配會導致錯誤的信用分配。為解決這些問題,我們提出分層優勢加權行為複製(HABC),該方法針對這兩個目標在不同數據子集上訓練獨立的評論家頭,並透過狀態自適應平衡將其輸出結合。狀態自適應閘門 g_t 合併其單步優勢,當成功不確定時優先考慮可行性,僅在可行性高時轉向效率,並將結果轉換為策略損失上的每個時間步權重。干預感知的信用分配進一步將結果標籤限制於由當前策略執行的片段,防止監督訊號洩漏至干預邊界之外。在三項高接觸雙機械臂任務的真實機器人實驗中,HABC 將監督微調基線的 36%、44% 和 12% 成功率提升至 92%、88% 和 38%。
稀疏自動編碼器(SAE)廣泛用於解釋神經網路表徵,但其實用性取決於學習到的特徵是否能跨訓練過程再現。我們透過特徵穩定性來研究此問題:針對每個SAE特徵,我們估計其在獨立訓練的SAE中出現相似特徵的機率。這提供了可擴展的逐特徵訊號,用以區分穩定與不穩定的特徵。在涵蓋不同隨機種子、模型、層、字典大小及SAE變體的大規模研究中,我們發現顯著的功能不對稱性:穩定特徵承載了大部分與重建及預測相關的訊號,而不穩定特徵的邊際影響微弱,且在激活統計與自動解釋中皆以低頻表面形式觸發器為主。從幾何角度來看,不穩定特徵個別無法再現,但卻集中在可再現的低秩子空間中,這顯示種子依賴性往往反映的是共享激活空間內的基底歧義性,而非純粹雜訊。一個受控的合成模型明確展現此機制:低秩的真實特徵可在子空間層級被還原,但跨種子時作為個別SAE潛在變項仍無法辨識。最後,透過匯集跨種子的獨特特徵,我們在此設定下建構出更穩定的SAE,同時保留解釋變異量。綜上所述,這些結果顯示不穩定特徵不僅僅是失敗或帶雜訊的潛在變項:它們個別功能影響微弱,但反映了可再現的低維結構,而標準SAE會因種子不同而以不同方式解析此結構。
人工智能的进步,很大程度上是由那些假设更少的方法所推动的。随着计算能力和数据量的增加,归纳偏置较弱的方法通常优于假设更强的那些。这在视觉表征学习领域尤为典型——该方法已从监督学习主导,经历弱监督学习,发展到如今无需人工标注的自监督学习的广泛成功。然而,即便是现代的自监督学习方法,仍依赖于诸如数据增强、掩码或裁剪等强烈的归纳偏置。若此趋势持续,即使这些残余的偏置在大规模场景下也将成为瓶颈——我们的实验证实了这一点:归纳偏置的最优强度随数据增长而减弱。这促使我们寻找依赖更少假设的方法。为此,我们提出视觉中的时间差分(Temporal Difference in Vision, TDV),一种从视频中进行自监督学习的新范式,它避开了现有的归纳偏置,仅依赖于一个因果假设:过去导致未来。TDV通过联合训练图像编码器与运动编码器,使得当前帧的表征加上编码后的运动,等于下一帧的表征。尽管未利用任何强烈的归纳偏置,TDV在密集空间任务上仍能达到最先进方法的水平,为无需强假设的表征学习奠定了基础。
從新穎的相機視角重新渲染現有影片,要求輸出遵循指定的相機軌跡,同時在每一幀中保留原始場景的外觀與動態。現有方法依賴每幀的姿態嵌入、含有噪聲的點雲渲染或隱式學習的對應關係,但這些方法都無法在源像素與目標像素之間提供明確且時間連續的連結。我們提出 Track2View,其核心是讓影片擴散變換器以配對的 3D 點軌跡為條件:即場景點投影至源相機與目標相機視角所形成之稀疏軌跡。這些軌跡提供了明確的時空對應關係,本質上具有時間連續性,編碼了何種內容應出現於何處與何時。Track2View 的核心是一個雙視角軌跡調節器,透過無參數的幾何運算與學習得到的時間聚合,將視覺背景從源視角傳遞至目標視角,確保能夠泛化至任意相機軌跡,而不會記憶特定運動。我們進一步引入一條數據整理流程,透過在時間上串聯的多相機視角對上運行 3D 點追蹤器,提取出一對一的軌跡對應關係。在一個涵蓋靜態與動態場景、共 400 部影片的基準測試中,Track2View 在視覺品質、視角同步與相機準確度方面均達到最先進的成果,與領先基線相比,旋轉誤差降低了 30-65%,平移誤差降低了 61-72%。專案頁面位於此 https URL:https://qjizhi.github.io/track2view
高級推理通常需要鏈式思考提示,雖然這種方法準確,但會導致難以承受的延遲與大量的測試階段推論成本。標準的替代方案是微調較小模型,但往往犧牲可解釋性,同時引入顯著的資源與營運負擔。為了解決這些限制,我們引入了提示級蒸餾(Prompt-Level Distillation, PLD)。我們從教師模型中提取明確的推理模式,並將其組織成結構化的指令列表,作為學生模型系統提示的一部分。使用 Gemma-3 4B 進行評估,PLD 將 StereoSet 的巨觀 F1 分數從 57% 提升至 90.0%,將 Contract-NLI 從 67% 提升至 83%,同時將 LogiQA 的準確率提高至 70%。在 Mistral Small 3.1 上得到的類似結果證明了其跨架構的通用性,使這些精簡模型能夠在不增加顯著延遲負擔的情況下,達到前沿性能。這些明確的指令使決策過程透明化,允許對邏輯進行完整的人為驗證,使本方法非常適合法律、金融及內容審核等受監管行業,以及高流量應用場景與邊緣設備。
擴散變壓器已展現出卓越的生成能力,然而在其去噪軌跡中計算出的豐富感知表徵,一旦內容渲染完成便被丟棄。我們提出 MMDiff,這是一個將凍結的擴散變壓器轉變為多模態生成系統的框架,能夠利用輕量級解碼器頭,聯合生成圖像以及任意組合的密集感知模態。我們的核心發現是,感知信息在去噪軌跡中呈現時間分佈,且採用具有空間可變聚合權重的多時間步特徵融合至關重要,這能將語義分割結果較單時間步提取提升高達 28.7% 的平均交併比。我們進一步採用概念驅動的注意力提取以實現可解釋的空間引導,並證明凍結的擴散特徵在性能上可與 DINOv3 等最先進編碼器競爭,且具有互補性。通過僅在凍結的骨幹網絡上訓練輕量級解碼器頭,我們在語義分割、顯著物體檢測和深度估計方面取得了優異表現,並證明該框架能實現大規模的有效合成數據生成。
歡迎閱讀《AI指數報告》第九版。隨著人工智慧持續快速發展,圍繞其建構的系統能否跟上腳步已成為關鍵問題。治理框架、評估方法、教育體系及追蹤AI影響所需的數據基礎建設,正苦於難以匹配技術本身的前進速度。人工智慧能力與我們準備就緒程度之間的落差,貫穿今年報告的每個章節。本版新增內容包括:追蹤AI如何在推理、安全及真實世界任務執行方面接受更進取的測試,以及為何這些衡量標準越來越難以信賴。同時也提供生成式AI經濟價值的新估算,以及其對勞動市場影響的初步證據、AI主權的分析架構,還有與施密特科學合作開發的科學章節。報告首次收錄AI在科學領域與AI在醫學領域的獨立章節,反映AI在這兩個領域日益增長的影響力。
在編輯操作下生成一致的影片需要具備持續性:當編輯改變場景外觀或佈局時,後續生成的內容應在時間與視角上保持連貫。然而,現有的記憶設計在面對此類修改時難以維持長期一致性,因為儲存的上下文可能變得過時或無效。為解決此問題,我們提出 PermaVid,一個基於多模態上下文記憶的新穎框架,該記憶將空間上下文分離為語意外觀與幾何結構,並搭配編輯感知的記憶更新與檢索策略,使記憶演化與後續觀測保持一致。具體而言,我們開發了兩個互補的記憶庫:RGB 上下文記憶捕捉外觀感知的觀測並隱式編碼幾何資訊,以及深度上下文記憶保留僅含幾何結構的表示,使其與語義分離。在此設計基礎上,我們引入一個記憶引導的影片生成模型,該模型在混合模態記憶上下文提供的參考條件下執行多模態特徵融合。實驗證明,我們的方法在編輯後能維持強大的長期語義與結構一致性,顯著優於現有最先進方法。
稀疏奖励强化学习已成为提升大型语言模型推理能力的标准工具,但其成功高度依赖于基础模型中的覆盖范围。实践中,模型通常通过中间训练(mid-training)在精心策划的推理轨迹上进行初始化,以学习分解、验证或自我修正等有用的基本技能。尽管这种方法有效,但需要人工指定模型应学习的内容,且尚不清楚此类基本技能覆盖是否足以应对更复杂的问题——这些问题需要将这些技能整合为更广泛的解题策略。我们研究了一种更自动化的方法:基于强化学习的中间训练,利用大规模人工撰写的问答数据。我们的方法ExpRL不将参考答案视为待模仿的目标,而是将其用作奖励支架:参考答案对策略模型隐藏,仅用于构建针对特定问题的评分标准,以评判策略模型生成的推理轨迹。策略模型从原始问题提示中采样,同时一个大型语言模型评判者将采样的推理轨迹与参考答案进行比对,并分配结果级或过程级密集奖励。这使得ExpRL能够强化部分进展、有用的中间简化步骤以及高效的推理行为——这些往往被稀疏的最终答案奖励所忽略。在具有挑战性的数学推理任务中,ExpRL在强化学习初始化方面优于SFT、稀疏奖励GRPO和自蒸馏方法,并为后续的稀疏奖励强化学习提供了更优的初始化。此外,跨领域混合实验表明,ExpRL能够扩展到原本纯数学场景之外。
大型語言模型(LLM)正逐漸被採用為生成式推薦(GR)的骨幹,承諾能取用預訓練的世界知識。然而,如何可靠地將此知識應用於 GR 仍缺乏深入理解。一個關鍵障礙在於,基於 LLM 的 GR 通常以語義標識符(SID)表示項目,這干擾了 LLM 的自然語言推理介面,因為這些詞彙在 LLM 預訓練期間未曾見過。現有方法透過昂貴的多階段流程來處理此問題,這些流程奠基於 SID 並引導出顯式推理依據,但對於各階段何時及為何必要所提供的見解有限。在本研究中,我們系統性地拆解基於 LLM 的 GR 之顯式推理訓練流程,揭示出三項關鍵限制:弱化的世界知識口語化能力、SID 與自然語言詞彙嵌入空間之間的錯位,以及對推理依據品質的敏感性,這些均損害了顯式推理效能。為規避這些問題,我們提出 PauseRec,一種專為 GR 量身打造的輕量級隱式推理典範。PauseRec 極其實用,避免了昂貴的推理跡獲取與推理對齊訓練,從而帶來多重效益:(1)其效能比標準顯式思維鏈方法高出最多 6.22%;(2)訓練成本減少最多 65% GPU 時數;(3)推理速度提升最多 71.3%。這些結果使 PauseRec 成為顯式推理依據生成之輕量級替代方案,得以實現更有效且更具效率的基於 LLM 之 GR。
視覺-語言-動作模型(VLA)依賴大規模視覺-語言預訓練來實現語義級機器人控制,但通常缺乏對機器人動作如何改變場景的前瞻性洞察。世界-動作模型(WAM)透過根據預測的未來狀態來條件化策略,從而解決此限制,然而現有方法通常依賴於計算成本高昂的影片生成,且存在大量像素級冗餘。我們提出 LaWAM,一種潛在世界動作模型,該模型透過緊湊的潛在視覺子目標而非重建的未來影片,將預測動態資訊暴露給機器人策略。LaWAM 的核心是一個由潛在動作條件化的潛在世界模型(LaWM)。我們透過在預訓練視覺基礎模型的潛在空間中訓練一個潛在動作模型,並重新利用其前向解碼器來預測用於場景演化的未來觀測特徵,從而獲得 LaWM。接著,LaWAM 將動作生成條件化於這些預測的潛在視覺子目標,以實現具動態感知的機器人控制。LaWAM 在 LIBERO(成功率 98.6%)、RoboTwin(成功率 91.22%)以及真實世界操作任務中達到了最先進或具競爭力的成功率,同時保持了低延遲推理。LaWAM 每次動作區塊預測耗時 187 毫秒,且其實際時間延遲比像素空間 WAM 低達 24 倍。
人類透過日常互動自然地理解物體物理,但要準確預測如彈性材料和布料等複雜可變形動力學,仍是電腦視覺與機器人學的重大挑戰。我們提出EgoPhys框架,該框架利用可泛化先驗,從僅含RGB的第一人稱影片中建構可變形物理數位孿生。EgoPhys克服現有方法的限制,藉由將每個物體的逆物理求解結果蒸餾至一個緊湊碼本中,實現從第一人稱影片生成可控可變形數位孿生,無需針對每個彈簧進行測試時最佳化即可預測未見物體的密集彈簧勁度場。利用多樣化第一人稱互動的可泛化先驗進行訓練後,EgoPhys在重建、未來預測與零樣本泛化上均優於基線方法。為支援訓練與評估,我們整理了一個涵蓋多種可變形物體、場景與操作風格的第一人稱互動資料集。我們將EgoPhys部署於真實xArm6機器人上,證明從單一第一人稱人類操作影片初始化的數位孿生可作為內部世界表徵,輔助可變形物體的規劃,凸顯僅含RGB的第一人稱觀測作為通往真實到仿真流水線的可擴展路徑。
標準準確性基準測試旨在測試大型語言模型(LLMs)接近正確答案的程度,但並不適用於測試模型在遇到合理反駁論點時是否會堅持正確答案。我們提出了一套用於評估答案穩定性的受控協議:在模型正確回答多選題後,我們以連貫的論證挑戰該模型,主張一個錯誤選項,並測量模型是否會改變答案。此設計能:a) 將論證內容與明顯的社會壓力區分開來;b) 改變論證長度、自我歸因及跨模型來源。在七個前沿模型與57個MMLU學科中,翻轉率介於17.5%至97.3%之間,顯示出僅憑準確性指標無法捕捉到的穩定性巨大差異。我們發現,自我歸因會持續提高翻轉率(平均增加7.1個百分點,最高增加18.7個百分點)。此外,彙整跨模型產生的錯誤答案論證,並針對每個問題選出最有效的論證,能產生比依賴單一來源模型更強的對抗性挑戰。我們進一步建構了MaxFlip,這是一套經過策展的挑戰集,能將翻轉率比標準自生成挑戰提高最多23.6個百分點。我們開源此協議、挑戰記錄及MaxFlip,以支援在標準準確性基準測試之外同時進行穩定性評估。相關資料可在 https://github.com/nafisenik/WhoFlips 及 https://hf.co/datasets/nafisehNik/WhoFlips 取得。
一個內容審核系統可能在所有標準準確率指標上表現優異,但仍可能造成實際傷害——若其錯誤集中在那些連結原本互不相關社群的少數用戶身上。我們透過一個基於代理的模型來說明此現象:在一個社群結構網路中,設置N=240個學習型代理,各自發布無害、有益或危險內容,而監管者會移除或處罰任何被雜訊分類器標記的內容。整體有用性幾乎不隨雜訊變化而變動(單因子變異數分析,p=0.96):從總體指標來看,一切看似正常。然而,傷害卻集中在這些橋樑用戶身上——他們的有益貼文被錯誤壓制,危險貼文則被錯誤放行。將這兩種錯誤分別定價、獨立於執法成本的治理損失(L_gov),在假陽性偏重的雜訊下翻了一倍以上。總體準確率掩蓋了誰受到傷害,而最容易審計的廉價指標是用戶擁有多少連結(度數),這是定義橋樑用戶的中介中心性近乎完美的代理變數(r=0.96)。
人類能夠毫不費力地抓取物體,而多指機器人遠未達到這種通用程度。我們認為,機器人抓取數據最自然的來源是人類——他們每天會拿起數千個物體。為此,我們提出 HUG,一種流匹配模型,能根據立體相機拍攝的單張 RGB-D 影像,針對使用者指定的任何物體生成多樣化的人類抓取方式。我們首先利用智慧眼鏡收集了 1M-HUGs,這是一個以自我為中心的數據集,涵蓋 100 萬幀(27.8 小時)的抓取資料,涉及 41 棟建築物中的 6,707 個物體實例。接著,為了建模自然人類抓取的分佈,我們新穎的流匹配模型融合 RGB 與深度觀測,輸出由手腕平移、手腕旋轉及 MANO 手部姿態參數化的抓取方式。預測的抓取可重新對應至各種機器人手部,實現日常場景中的零樣本抓取。為了標準化評估,我們建立了一個全新的模擬基準 HUG-Bench,包含 90 個來自五種幾何類別、多種尺寸的未見過物體,並附有公制尺度的 3D 網格。我們在多種立體相機、機器人形態及家庭環境中,針對 HUG-Bench 的 30 個物體測試集進行實際世界評估。HUG 在我們具挑戰性的物體集合上,分別領先現有最先進的抓取基準 23% 與 34%。程式碼、數據、基準、模型檢查點及互動式示範已發布於我們的網站:https://grasping.io/
Polymarket 已成為知名的預測市場平台,也是 DeFi 中成長最快的應用之一。為了實現低延遲交易,它採用混合架構,在鏈下進行訂單配對,但在鏈上結算以完成最終執行。這種設計造成了一致性落差,我們稱之為「幽靈成交」(Ghost Fills):一個成功在鏈下配對的訂單,可能在後續的鏈上結算中失敗。為了解這個落差的安全隱含,我們透過建立 GHOSTHUNTER 來調查此類失敗結算,該工具從鏈上足跡重建這些交易,並歸因出具體的攻擊模式。在 1,952,440 筆被撤銷(reverted)的配對訂單交易中,我們發現攻擊者利用配對與結算之間的時間差,在已配對的訂單於鏈上最終確定前使之失效。我們進而從這些事件中識別出四種攻擊向量:隨機數提升(nonce bump)、餘額耗盡(balance drain)、授權撤銷(allowance revoke)與代理陷阱(proxy trap),並透過 35 種演變中的變體實現。這些向量使攻擊者能夠選擇性地撤銷 980,133 筆已成交訂單,從而實現無風險預測、套利機器人獵殺及流動性獎勵操縱,獲利至少 149 萬美元,這導致 17.8 億美元資金面臨風險,並使營運商支付了 217 萬 POL(約 21.2 萬美元)。在尖峰時段,超過 24.3% 的已成交訂單被撤銷,形同事實上的拒絕服務攻擊。我們還發現,源自有缺陷合約的程式碼仍出現在橫跨 10 條鏈的 167 個獨立合約中,這些合約持有至少 2,300 萬美元的用戶資金,將影響範圍擴展至 Polymarket 之外。我們已將證據揭露給受影響方,該問題已獲得部分緩解。
我們介紹 TuneJury,這是一個開放的、基於實例層級的成對獎勵模型,專為文字轉音樂設計,能根據文字提示與音訊片段預測音樂偏好分數。所釋出的檢查點是以公開的人類偏好標籤進行訓練,涵蓋競技場風格(A vs. B)投票、度量對齊偏好對、群眾外包成對比較,以及專家美學評分。兩個片段之間的預測分數差在我們保留的測試集中校準良好,可透過簡單的分數閾值支援資料過濾。TuneJury 能泛化至保留的測試對以及分佈外基準,且在後者上與先前的基線模型保持競爭力。對於訓練後才釋出的生成器,我們引入了錨定校準(anchor calibration),這是一種事後的、每個系統獨立的 Bradley-Terry 校準方法,能以顯著優於從頭重新訓練的資料效率恢復一致性。相同的凍結獎勵在三種下游應用中驅動一致的獎勵軸增益:推理時的最佳 N 選取、DITTO 風格的潛在最佳化,以及專家迭代後訓練。TuneJury 可在 https://github.com/yonghyunk1m/TuneJury 取得。
尽管机器文本检测器的发展取得了显著进展,但机器文本极易被操控以躲避检测,这导致有人提出该问题本质上是棘手的。在本文中,我们研究了此类规避策略的局限性。我们证明,虽然当前从提示工程到检测器引导优化等攻击手段能有效降低标准检测器的性能,但它们无法抹去机器文本底层固有的风格“指纹”。我们发现,利用风格特征空间的少样本检测器能够抵御这些规避尝试,即使是针对那些经过明确调校以躲避检测的模型所生成的样本,也能可靠地识别。这引发了一个思考:风格是否代表了一种针对机器检测攻击的通用防御手段?我们通过引入一种新型改写方法证明答案为“否”,该方法同时优化了不可检测性与对特定人类风格的遵循。我们表明,与先前方法不同,此种攻击能有效规避所有被考虑的检测器,包括那些利用写作风格的检测器。然而,我们发现这种规避并非绝对:随着可供分析的文档数量增加,人类与机器文本的分布再次变得可区分。总体而言,我们的研究结果表明,可靠的机器文本检测需要从单文档分析转向多文档分析。