每日精選AI研究論文及翻譯
尽管基于推理的大型语言模型(LLMs)在数学和编程领域表现出色,但它们在知识密集型医学问答中的能力仍未被充分探索。为此,我们引入了ReasonMed,这是最大的医学推理数据集,包含从各种LLMs生成的170万条初始推理路径中提炼出的37万条高质量示例。ReasonMed通过多智能体验证和精炼过程构建,其中我们设计了一个错误精炼器,通过识别和纠正由验证器标记的易错步骤来增强推理路径。利用ReasonMed,我们系统地研究了训练医学推理模型的最佳实践,发现将详细的思维链(CoT)推理与简洁的答案摘要相结合,能产生最有效的微调策略。基于这一策略,我们训练了ReasonMed-7B,它为10B以下模型设立了新的基准,比之前的最佳模型高出4.17%,甚至在PubMedQA上超过了LLaMA3.1-70B,提升了4.60%。
構建大規模數據集以應對GitHub問題解決任務,對於訓練和評估大型語言模型(LLMs)的軟件工程能力至關重要。然而,傳統創建此類基準的過程因其極具挑戰性和勞動密集性而聞名,尤其是在設置評估環境、評分測試結果及驗證任務實例的階段。本文中,我們提出了SWE-Factory,一個旨在解決這些挑戰的自動化流程。為應對這些問題,我們的流程整合了三個核心自動化組件。首先,我們引入了SWE-Builder,這是一個多代理系統,用於自動化評估環境的構建,它利用四個專門的代理在協作迭代循環中工作,並通過環境記憶池來提升效率。其次,我們提出了一種基於退出碼的標準化評分方法,消除了手動編寫自定義解析器的需求。最後,我們利用這些可靠的退出碼信號自動化了fail2pass驗證過程。在四種編程語言的671個問題上的實驗表明,我們的流程能有效構建有效的任務實例;例如,使用GPT-4.1-mini時,我們的SWE-Builder以每個實例0.045的成本構建了269個有效實例,而使用Gemini-2.5-flash時,它以最低的每個實例0.024成本達到了可比的性能。我們還展示了基於退出碼的評分相比人工檢查達到了100%的準確率,且我們的自動化fail2pass驗證達到了0.92的精確度和1.00的召回率。我們希望我們的自動化流程能加速收集大規模、高質量的GitHub問題解決數據集,用於訓練和評估。我們的代碼和數據集已發佈於https://github.com/DeepSoftwareAnalytics/swe-factory。
圖像復原旨在恢復受損圖像。然而,現有的基於擴散模型的復原方法,儘管在自然圖像復原方面取得了巨大成功,卻往往難以忠實重建受損圖像中的文字區域。這些方法經常生成看似合理但實際錯誤的類文字圖案,這一現象我們稱之為文字圖像幻覺。本文中,我們引入了文字感知圖像復原(TAIR),這是一種新穎的復原任務,要求同時恢復視覺內容與文字保真度。為應對這一任務,我們提出了SA-Text,這是一個包含10萬張高質量場景圖像的大規模基準數據集,這些圖像密集標註了多樣且複雜的文字實例。此外,我們提出了一種多任務擴散框架,名為TeReDiff,該框架將擴散模型的內部特徵整合到文字檢測模塊中,使兩者能夠從聯合訓練中受益。這使得能夠提取豐富的文字表示,這些表示在後續的去噪步驟中被用作提示。大量實驗表明,我們的方法在文字識別準確率上持續超越現有最先進的復原方法,取得了顯著的提升。詳見我們的項目頁面:https://cvlab-kaist.github.io/TAIR/。
我們推出VRBench,這是首個專為評估大型模型多步推理能力而設計的長篇敘事視頻基準,旨在解決現有評估中忽視時間推理與程序有效性的局限。該基準包含1,010部長視頻(平均時長1.6小時),以及9,468組人工標註的多步問答對和30,292個帶有時間戳的推理步驟。這些視頻通過多階段篩選流程精心挑選,包括專家評審,以確保情節連貫性。我們開發了一個人機協作框架,用於生成連貫的推理鏈,每條鏈均需多個基於時間的步驟,涵蓋七種類型(如事件歸因、隱含推斷)。VRBench設計了一個多階段評估管道,從結果和過程兩個層面對模型進行評估。除了針對最終結果的多項選擇題外,我們還提出了一種基於進展層次的大語言模型引導評分指標,從多個維度全面評估推理鏈的質量。通過對12種大語言模型和16種視覺語言模型在VRBench上的廣泛評估,我們進行了深入分析,並提供了推動多步推理領域發展的寶貴見解。
儘管視頻生成模型迅速進步,生成跨越多場景與角色的連貫敘事視頻仍具挑戰。現有方法常將預先生成的關鍵幀機械轉換為固定長度片段,導致敘事斷裂與節奏問題。此外,視頻生成模型固有的不穩定性意味著,即便單一低質量片段也可能嚴重損害整個輸出動畫的邏輯連貫性與視覺連續性。為克服這些障礙,我們引入了AniMaker,這是一個多代理框架,支持高效的多候選片段生成及敘事感知的片段選擇,從而僅從文本輸入創建全局一致且故事連貫的動畫。該框架圍繞專職代理構建,包括負責故事板生成的導演代理、負責視頻片段生成的攝影代理、負責評估的審核代理,以及負責剪輯與配音的後期製作代理。AniMaker方法的兩大核心技術組件是:攝影代理中的MCTS-Gen,一種受蒙特卡羅樹搜索(MCTS)啟發的高效策略,智能探索候選空間以生成高潛力片段,同時優化資源使用;以及審核代理中的AniEval,首個專為多鏡頭動畫評估設計的框架,通過考慮每個片段在其前後片段上下文中的表現,評估故事層面的一致性、動作完成度及動畫特有特徵。實驗表明,AniMaker在VBench及我們提出的AniEval框架等流行指標下展現出卓越質量,同時顯著提升了多候選生成的效率,推動AI生成的敘事動畫更接近生產標準。
我們推出Magistral,這是Mistral首個推理模型,以及我們自有的可擴展強化學習(RL)管道。我們不依賴於現有實現或從先前模型蒸餾出的RL軌跡,而是採用從零開始的方法,完全依賴於我們自己的模型和基礎設施。值得注意的是,我們展示了一個使我們能夠探索純RL訓練大型語言模型(LLMs)極限的技術棧,提出了一種簡單的方法來強制模型的推理語言,並證明僅基於文本數據的RL訓練能保持初始檢查點的大部分能力。我們發現,基於文本的RL訓練不僅保持甚至提升了多模態理解、指令遵循和函數調用能力。我們介紹了Magistral Medium,它是在Mistral Medium 3之上僅通過RL訓練專注於推理的模型,並開源了Magistral Small(Apache 2.0),該模型進一步包含了來自Magistral Medium的冷啟動數據。
離散音頻標記是一種緊湊的表徵形式,旨在保持感知質量、語音內容和說話者特徵的同時,實現高效的存儲和推理,並在多樣化的下游任務中展現競爭力。它們為連續特徵提供了一種實用的替代方案,使得語音和音頻能夠整合到現代大型語言模型(LLMs)中。隨著基於標記的音頻處理興趣的增長,各種標記化方法相繼湧現,多項調查也回顧了該領域的最新進展。然而,現有研究往往聚焦於特定領域或任務,缺乏跨多種基準的統一比較。本文系統性地回顧並基準測試了離散音頻標記器,涵蓋了語音、音樂和通用音頻三個領域。我們基於編碼器-解碼器架構、量化技術、訓練範式、流式處理能力及應用領域,提出了一種標記化方法的分類體系。我們在多個基準上評估了標記器在重建、下游性能及音頻語言建模方面的表現,並通過控制消融研究分析了權衡取捨。我們的研究結果揭示了關鍵限制、實際考量及開放性挑戰,為這一快速發展領域的未來研究提供了洞見與指導。欲了解更多信息,包括我們的主要結果和標記器數據庫,請訪問我們的網站:https://poonehmousavi.github.io/dates-website/。
我们提出了一种名为~Domain2Vec 的新方法,该方法能够将任何数据集分解为多个元域的线性组合,这一新概念旨在捕捉数据集的关键潜在特征。Domain2Vec 维护了一个元域词汇表,并利用分类器将任意给定数据集分解为对应于该词汇表分布的域向量。这些域向量使得在\textbf{分布对齐假设}(DA^{2})下,无需训练即可识别出语言模型(LM)预训练的最佳数据混合比例,该假设认为当训练集与验证集的数据分布更为一致时,验证损失会更低。此外,Domain2Vec 能够无缝融入先前的研究中,以建模域向量与LM性能之间的关系,极大地提升了先前方法的效率和可扩展性。大量实验表明,Domain2Vec 能够以最小的计算开销找到提升下游任务性能的数据混合比例。具体而言,Domain2Vec 在 Pile-CC 上仅需原 Pile 数据集混合训练所需计算量的 51.5%,即可达到相同的验证损失。在同等计算预算下,Domain2Vec 平均提升下游任务性能 2.83%。
近期,基于多模态大语言模型(MLLMs)的智能体在多个领域取得了显著进展。然而,在如《我的世界》这样的开放世界环境中,构建一个具备感知、规划、行动、落地与反思能力的通用智能体仍面临诸多挑战:领域特定数据不足、异构任务间的相互干扰,以及开放世界场景中的视觉多样性。本文针对这些挑战,提出了三项关键贡献。首先,我们设计了一种知识增强的数据生成管道,为智能体开发提供可扩展且高质量的训练数据。其次,为缓解异构任务间的干扰,我们引入了一种基于任务级路由的专家混合(MoE)架构。最后,我们开发了一种多模态推理增强的强化学习方法,以提升智能体在《我的世界》中应对视觉多样性的推理能力。基于这些创新,我们推出了Optimus-3,一款面向《我的世界》的通用智能体。大量实验结果表明,Optimus-3在《我的世界》环境中的广泛任务上,均超越了通用的多模态大语言模型及现有的顶尖智能体。项目页面:https://cybertronagent.github.io/Optimus-3.github.io/
生成美觀的海報比簡單的設計圖像更具挑戰性: 它不僅需要精確的文字渲染,還需要無縫整合 抽象的藝術內容、引人注目的佈局以及整體的風格和諧。 為此,我們提出了PosterCraft,這是一個統一的框架,摒棄了 先前的模組化流程和僵化的預定義佈局,使模型能夠 自由探索連貫且視覺上引人入勝的構圖。PosterCraft採用 精心設計的級聯工作流程來優化 高美感海報的生成:(i) 在我們新引入的Text-Render-2M數據集上進行大規模文字渲染優化; (ii) 在HQ-Poster100K上進行區域感知的監督微調; (iii) 通過最佳-n偏好優化進行美學文字強化學習; (iv) 聯合視覺-語言反饋精煉。每個階段都得到了一個完全自動化的數據構建流程的支持, 該流程根據其特定需求進行了定制,從而實現了無需複雜架構修改的穩健訓練。 在多項實驗中進行評估後,PosterCraft在渲染 準確性、佈局連貫性和整體視覺吸引力方面顯著優於開源基準,接近 SOTA商業系統的質量。我們的代碼、模型和數據集可以在項目頁面找到: https://ephemeral182.github.io/PosterCraft
我們如何能有效地利用語言模型的內在表徵來激發其強大的推理能力?針對這一問題,我們提出了Resa系列,這是一組擁有15億參數的推理模型,通過一種新穎且高效的稀疏自編碼器微調(SAE-Tuning)方法進行訓練。該方法首先訓練一個稀疏自編碼器(SAE)以從源模型中捕捉推理能力,隨後利用訓練好的SAE來指導標準的監督式微調過程,從而激發目標模型中的此類能力,整個過程僅使用經過驗證的問答數據,無需任何推理軌跡。值得注意的是,當將SAE-Tuning應用於某些基礎模型並在進一步的強化學習(RL)後訓練之前,它能夠保留其RL訓練對應模型推理性能的97%以上,同時將訓練成本降低超過2000倍至約1美元,並將訓練時間縮短超過450倍至約20分鐘。此外,當應用於輕度RL訓練的模型(例如,在2個GPU上訓練1小時內),它僅需約1美元的額外成本即可實現如AIME24上43.33%的Pass@1和AMC23上90%的Pass@1的推理性能。令人驚訝的是,通過SAE提取的推理能力可能既具有通用性又具有模塊化特性。通用性意味著從一個數據集中提取的能力仍能提升在更大且重疊語料庫上的性能。模塊化則意味著從Qwen或Qwen-Math提取的能力可以在測試時附加到R1-Distill模型上,無需任何重新訓練,即可獲得相當的性能提升。大量的消融實驗驗證了這些發現,所有相關資源均已完全開源。
大型語言模型(LLM)代理在解決現實世界數據科學問題方面展現出巨大潛力。LLM驅動的數據科學代理有望自動化整個機器學習流程,然而其實際效能仍受限。現有框架依賴於僵化、預定義的工作流程及缺乏靈活性的編碼策略;因此,它們僅能在相對簡單、經典的問題上表現出色,而無法捕捉人類實踐者在處理複雜創新任務時所具備的經驗智慧。本研究提出AutoMind,一種具備適應性與知識性的LLM代理框架,通過三大關鍵創新克服上述不足:(1)一個精心策劃的專家知識庫,使代理紮根於領域專家知識;(2)一種代理知識樹搜索算法,策略性地探索可能的解決方案;(3)一種自適應編碼策略,動態調整代碼生成以適應任務複雜度。在兩項自動化數據科學基準測試中的評估顯示,AutoMind相較於現有最先進的基線方法,提供了更優異的性能。進一步分析證實了其在效能、效率及解決方案質量上的優勢,凸顯AutoMind作為邁向全自動化數據科學的高效且穩健的一步。
我們提出Ming-Omni,這是一個統一的多模態模型,能夠處理圖像、文本、音頻和視頻,並在語音和圖像生成方面展現出強大的能力。Ming-Omni採用專用編碼器從不同模態中提取特徵,然後由Ling處理,這是一個配備了新提出的模態特定路由器的混合專家(MoE)架構。這種設計使得單一模型能夠在統一框架內高效處理和融合多模態輸入,從而促進多樣化任務的完成,而無需單獨的模型、任務特定的微調或結構重新設計。重要的是,Ming-Omni超越了傳統的多模態模型,支持音頻和圖像生成。這是通過集成先進的音頻解碼器以生成自然語音,以及Ming-Lite-Uni以生成高質量圖像來實現的,這也使得模型能夠進行上下文感知的聊天、執行文本到語音的轉換,並進行多功能的圖像編輯。我們的實驗結果展示了Ming-Omni為所有模態的統一感知和生成提供了一個強大的解決方案。值得注意的是,我們提出的Ming-Omni是我們所知的第一個在模態支持上與GPT-4o相匹配的開源模型,我們發布了所有代碼和模型權重,以鼓勵社區進一步的研究和開發。
長視頻理解(LVU)對當前的多模態大語言模型(MLLMs)提出了重大挑戰,這主要源於任務本身的複雜性以及上下文窗口的限制。普遍認為,解決LVU任務需要具備擴展上下文窗口、強大視覺感知能力和熟練領域知識的基礎MLLMs。在本研究中,我們通過引入VideoDeepResearch這一新穎的代理框架來挑戰這一普遍觀點,該框架專注於長視頻理解。我們的方法僅依賴於一個純文本的大型推理模型(LRM),並結合模塊化的多模態工具包,包括多模態檢索器和視覺感知器,這些工具在實際應用中均易於獲取。針對每個LVU任務,系統通過推理制定問題解決策略,同時選擇性地訪問並利用關鍵視頻內容。我們在流行的LVU基準測試上進行了廣泛實驗,包括MLVU、Video-MME和LVBench。結果顯示,VideoDeepResearch在現有MLLM基線基礎上取得了顯著提升,在MLVU(測試)、LVBench和LongVideoBench上分別超越了之前的最先進水平9.6%、6.6%和3.9%。這些發現凸顯了代理系統在克服LVU問題關鍵挑戰方面的潛力。
在商業與個人領域中,平面設計扮演著至關重要的角色,然而創作高品質、可編輯且美觀的圖形作品仍是一項耗時且需要專業技能的任務,尤其對初學者而言更是如此。現有的AI工具雖能自動化部分工作流程,但在精確整合用戶提供的素材、保持可編輯性以及達到專業視覺效果方面仍存在挑戰。商業系統如Canva Magic Design依賴於龐大的模板庫,這在實際應用中難以複製。本文介紹了CreatiPoster,這是一個框架,能夠根據可選的自然語言指令或素材生成可編輯的多層次設計作品。首先,一個協議模型——RGBA大型多模態模型——生成一份JSON規範,詳細描述每一層(文字或素材)的精確佈局、層次結構、內容與風格,並附上簡潔的背景提示。隨後,一個條件背景模型基於這些渲染的前景層合成一個連貫的背景。我們構建了一個包含自動化評測指標的平面設計生成基準,並展示了CreatiPoster在該基準上超越了領先的開源方法和專有商業系統。為促進進一步研究,我們發布了一個包含10萬個多層次設計的無版權限制的數據集。CreatiPoster支持多種應用場景,如畫布編輯、文字疊加、響應式縮放、多語言適應以及動態海報製作,推動了AI輔助平面設計的普及化。項目主頁:https://github.com/graphic-design-ai/creatiposter
大型语言模型(LLMs)在自动化有害内容检测任务中的应用日益广泛,协助内容审核员识别违规行为,并提升内容审查的整体效率与准确性。然而,现有有害内容检测资源主要集中于英语领域,中文数据集仍显稀缺且往往范围有限。本研究提出了一套全面、专业标注的中文内容危害检测基准,涵盖六大代表性类别,并完全基于真实世界数据构建。我们的标注过程进一步生成了一个知识规则库,为LLMs在中文有害内容检测中提供明确的专家知识支持。此外,我们提出了一种知识增强的基线方法,该方法整合了人工标注的知识规则与大型语言模型中的隐含知识,使得较小模型也能达到与最先进LLMs相媲美的性能。代码与数据可通过https://github.com/zjunlp/ChineseHarm-bench获取。
近期,大型語言模型(LLMs)及其多模態對應技術的進展,激發了開發網路代理——即能在網路環境中自主導航並完成任務的人工智慧系統——的廣泛興趣。儘管在自動化複雜網路互動方面展現出巨大潛力,現有方法仍面臨重大挑戰,這主要源於人類設計的介面與LLM能力之間的根本性不匹配。當前方法在處理網路輸入的固有複雜性時顯得力不從心,無論是處理龐大的DOM樹、依賴於附加資訊的螢幕截圖,還是完全繞過使用者介面進行API互動。本立場文件主張網路代理研究應進行範式轉移:與其迫使網路代理適應為人類設計的介面,不如開發一種專門針對代理能力優化的新型互動範式。為此,我們引入了「代理式網路介面」(Agentic Web Interface, AWI)的概念,這是一種專為代理導航網站而設計的介面。我們確立了AWI設計的六項指導原則,強調安全性、效率和標準化,以兼顧所有主要利益相關者的利益。這一重新框架旨在克服現有介面的根本限制,為更高效、可靠和透明的網路代理設計鋪平道路,這將是一項涉及更廣泛機器學習社群協作的共同努力。
近期,统一图像理解与生成的多模态基础模型取得了显著进展,为在单一框架内解决广泛的视觉-语言任务开辟了激动人心的途径。尽管已有进步,现有的统一模型通常需要大量的预训练,并且难以达到与专为每项任务设计的模型相媲美的性能水平。此外,许多此类模型存在图像生成速度慢的问题,限制了其在实时或资源受限环境中的实际部署。在本研究中,我们提出了一种新颖且高效的架构——基于层级时间步专家流的Transformer(LaTtE-Flow),该架构在单一多模态模型中统一了图像理解与生成。LaTtE-Flow依托于强大的预训练视觉-语言模型(VLMs),继承了其卓越的多模态理解能力,并通过一种新颖的层级时间步专家流架构扩展了高效的图像生成功能。LaTtE-Flow将流匹配过程分配到专门的Transformer层组中,每组负责不同的时间步子集。这一设计通过在每个采样时间步仅激活一小部分层,显著提高了采样效率。为进一步提升性能,我们提出了一种时间步条件残差注意力机制,以实现跨层的高效信息复用。实验表明,LaTtE-Flow在多模态理解任务上表现出色,同时在图像生成质量上达到竞争水平,且推理速度比近期统一多模态模型快约6倍。
随着微调(FT)在大规模应用中的日益不切实际,探测(probing)正逐渐成为自监督学习(SSL)的首选评估协议。然而,标准的线性探测(LP)未能充分反映通过掩码图像建模(MIM)训练的模型的潜力,这归因于图像块(patch)标记的分布式特性。这一现状促使了注意力探测(attentive probing)的需求,该方法利用注意力机制有选择性地聚合图像块级别的特征。尽管其应用日益广泛,注意力探测仍处于探索不足的状态,现有方法存在参数过多和计算效率低下的问题。 在本研究中,我们从准确性与效率权衡的视角重新审视了注意力探测。我们对现有方法进行了系统性研究,分析了其机制并对其性能进行了基准测试。我们引入了高效探测(EP),这是一种多查询交叉注意力机制,它消除了冗余的投影,减少了可训练参数的数量,并实现了相较于传统多头注意力机制高达10倍的加速。尽管其设计简洁,EP在七个基准测试中均超越了LP及先前的注意力探测方法,不仅对MIM之外的多种预训练范式表现出良好的泛化能力,还能生成可解释的注意力图,并在少样本和逐层设置中取得了显著的性能提升。代码已发布于https://github.com/billpsomas/efficient-probing。
可驗證獎勵的強化學習(RLVR)已成為提升大型語言模型(LLMs)的關鍵技術,其中驗證工程扮演著核心角色。然而,指令遵循中的強化學習最佳實踐仍未被充分探索。在本研究中,我們探討了指令遵循中強化學習的驗證挑戰,並提出了VerIF,一種結合基於規則的代碼驗證與基於大型推理模型(如QwQ-32B)的LLM驗證方法。為支持這一方法,我們構建了一個高質量的指令遵循數據集VerInstruct,包含約22,000個帶有相關驗證信號的實例。我們將VerIF應用於兩個模型的強化學習訓練,在多個代表性指令遵循基準上取得了顯著提升。訓練後的模型在同等規模模型中達到了最先進的性能,並能很好地泛化到未見的約束條件。我們進一步觀察到,它們的通用能力未受影響,這表明結合VerIF的強化學習可以融入現有的強化學習方案中,以提升模型的整體性能。我們已公開數據集、代碼和模型,以促進未來研究,詳見https://github.com/THU-KEG/VerIF。
Shojaee等人(2025年)報告指出,大型推理模型(LRMs)在超過特定複雜度閾值的規劃謎題上會出現「準確性崩潰」。我們證明,他們的發現主要反映了實驗設計的局限性,而非根本性的推理失敗。我們的分析揭示了三個關鍵問題:(1)河內塔實驗在報告的失敗點上系統性地超出了模型輸出標記的限制,模型在其輸出中明確承認了這些限制;(2)作者的自動化評估框架未能區分推理失敗與實際限制,導致對模型能力的誤判;(3)最令人擔憂的是,他們的河流穿越基準測試中包含了數學上不可能解決的實例(當N > 5時,由於船隻容量不足),然而模型卻因未能解決這些無解問題而被評為失敗。當我們通過請求生成函數而非詳盡的移動列表來控制這些實驗偽影時,初步實驗表明,在多個模型上,先前被報告為完全失敗的河內塔實例顯示出高準確性。這些發現強調了在評估AI推理能力時,謹慎設計實驗的重要性。
在電子商務與數位行銷領域,製作高保真度的人與產品展示影片對於有效的產品呈現至關重要。然而,現存的多數框架要么無法同時保留人與產品的身份特徵,要么缺乏對人與產品空間關係的理解,導致展示效果失真且互動不自然。為應對這些挑戰,我們提出了一種基於擴散變換器(Diffusion Transformer, DiT)的框架。該方法通過注入配對的人與產品參考信息,並利用額外的掩碼交叉注意力機制,同步保留人物身份及產品特定細節,如標誌與紋理。我們採用3D人體網格模板與產品邊界框來提供精確的動作指導,實現手勢與產品擺放位置的直觀對齊。此外,結構化文本編碼被用於融入類別層次的語義信息,增強了幀間微小旋轉變化時的3D一致性。通過在採用廣泛數據增強策略的混合數據集上訓練,我們的方法在保持人與產品身份完整性及生成逼真展示動作方面,均超越了現有最先進技術。項目頁面:https://submit2025-dream.github.io/DreamActor-H1/。
点云数据的尺度多样性为开发统一的三维视觉表示学习技术带来了显著挑战。目前,统一的3D模型较少,且现有的预训练方法无法对物体级和场景级点云均等有效。本文中,我们提出了UniPre3D,这是首个能够无缝应用于任何尺度点云及任何架构3D模型的统一预训练方法。我们的方法通过预测高斯基元作为预训练任务,并采用可微分高斯溅射进行图像渲染,实现了精确的像素级监督和端到端优化。为了进一步调控预训练任务的复杂性并引导模型关注几何结构,我们整合了预训练图像模型中的2D特征,以融入成熟的纹理知识。我们通过使用多种点云模型作为骨干,在广泛的物体级和场景级任务上进行了大量实验,验证了所提出方法的普适有效性。代码可在https://github.com/wangzy22/UniPre3D获取。
近期大型語言模型(LLMs)與人工智慧系統的進展,已引領複雜AI工作流程設計與優化的範式轉變。透過整合多個組件,複合式AI系統在執行精細任務上日益嫻熟。然而,隨著這些系統複雜度的提升,不僅在單一組件的優化上,其間互動的優化亦面臨新的挑戰。儘管監督式微調(SFT)與強化學習(RL)等傳統優化方法仍為基礎,自然語言回饋的興起為優化不可微分系統引入了前景光明的新途徑。本文系統性地回顧了複合式AI系統優化的最新進展,涵蓋數值與基於語言的技術。我們正式定義了複合式AI系統優化的概念,沿著幾個關鍵維度對現有方法進行分類,並強調這一快速發展領域中的開放研究挑戰與未來方向。所調查文獻的清單公開於https://github.com/MiuLab/AISysOpt-Survey。
大型語言模型已徹底改變了自然語言處理領域,然而監督式微調(SFT)仍耗費大量計算資源。本文正式證明,在理想化假設下,包括無限的計算資源和對微調數據集的訪問,通過SFT獲取的能力可被基礎Transformer模型利用推理時技術,特別是上下文學習(ICL),在不改變模型參數的情況下近似實現。我們將這些結果推廣到具有有限上下文長度和部分數據集訪問的實際場景中。對於輸出長度固定的文本生成任務,數據集大小為O(m/ε² log(m/δ)),或在有界上下文情況下,O(l log(V)/ε² log(1/δ)),足以在m個上下文中以誤差ε近似微調行為,其中V是詞彙量,δ是失敗概率。對於線性分類,數據集大小為O(d/ε),或在固定上下文情況下,O(1/ε² log(1/δ))即足夠,其中d是輸入維度。基於Transformer的圖靈完備性,這些結果為大型語言模型的資源高效部署提供了理論基礎,而檢索增強生成等實用技術則將理論與實際應用相連接。
隨著大型語言模型(LLMs)向更接近人類的溝通方式發展,人機互動變得日益普遍,提示(prompting)作為關鍵要素的重要性也隨之凸顯。然而,關於如何量化自然語言提示,學界尚未達成明確的共識。為此,我們通過對2022年至2025年間頂尖自然語言處理(NLP)與人工智慧(AI)會議及相關博客中超過150篇提示相關文獻進行元分析,嘗試解答這一問題。我們提出了一個以屬性與人為核心的框架,用於評估提示質量,該框架涵蓋了六個維度下的21項屬性。隨後,我們檢視了現有研究如何評估這些屬性對LLMs的影響,揭示了它們在不同模型與任務間支持的不均衡性及顯著的研究空白。進一步地,我們分析了高質量自然語言提示中各屬性間的相關性,從而推導出提示設計的建議。在推理任務中,我們實證探索了多屬性提示的增強效果,發現單一屬性的增強往往能帶來最大的影響。最後,我們發現,在基於屬性增強提示的指令微調下,能夠訓練出更優的推理模型。本研究為以屬性為中心的提示評估與優化奠定了基礎,彌合了人機溝通間的鴻溝,並開闢了提示研究的新方向。
人工智慧在電信領域的日益普及,激發了人們對大型語言模型(LLMs)處理特定領域、數學密集型任務能力的興趣。儘管近期的進展已提升了LLMs在一般數學推理上的表現,但其在信號處理、網絡優化及性能分析等專業領域的有效性仍大多未被探索。為填補此一空白,我們引入了TeleMath,這是首個專門設計用於評估LLMs在電信領域解決具有數值解數學問題能力的基準數據集。TeleMath包含500組問答對,涵蓋了電信領域的廣泛主題。本文概述了從由領域專家精心挑選的問題種子開始,所提出的問答對生成流程。對一系列開源LLMs的評估顯示,TeleMath上的最佳表現由近期專為數學或邏輯推理設計的模型達成。相比之下,通用模型,即便是那些擁有大量參數的模型,往往在這些挑戰面前顯得力不從心。我們已發布數據集及評估代碼,以簡化結果的再現性並支持未來的研究。
大型語言模型(LLM)的遺忘學習旨在消除或抑制模型內的不良知識,為控制有害或私人信息以防止濫用提供了希望。然而,最近的研究強調了其在現實場景中的有限效果,阻礙了實際應用。在本研究中,我們發現了許多下游失敗背後的一個普遍問題:現有遺忘學習方法的有效性嚴重依賴於訓練樣本的形式,並且經常無法推廣到相同知識的其他表達方式。我們正式將這一問題定義為形式依賴偏差,並系統地研究了其在各種下游任務中的具體表現模式。為了量化其普遍性並支持未來研究,我們引入了ORT,這是一個新穎的基準,旨在評估遺忘學習方法在知識表達變化下的魯棒性。結果顯示,形式依賴偏差在當前技術中既普遍又嚴重。 我們認為,LLM的遺忘學習應該是形式獨立的,以應對現實世界安全關鍵場景中遇到的無盡下游任務形式。為實現這一目標,我們引入了秩一概念重定向(ROCR),這是一種新穎的無訓練方法,作為一個有前景的解決方案。ROCR通過針對下游任務中的不變量,特別是激活的危險概念,來執行遺忘學習。它能夠在幾秒鐘內修改模型參數,將模型對特定遺忘目標概念的感知重定向到另一個無害的概念。大量實驗表明,與傳統方法相比,ROCR顯著提高了遺忘學習的有效性,同時生成高度自然的輸出。
近期在扩散模型中的引导方法,通过扰动模型构建隐式弱模型,并引导生成过程远离该模型,从而操控反向采样。在这些方法中,注意力扰动在无条件场景下展现了显著的实证性能,尤其是在无分类器引导不适用的情况下。然而,现有的注意力扰动方法缺乏确定扰动应施加于何处的原则性方法,特别是在扩散变换器(DiT)架构中,与质量相关的计算分散于各层之间。本文中,我们探究了注意力扰动的粒度,从层级细化至单个注意力头,发现特定头分别主导着如结构、风格及纹理质量等不同的视觉概念。基于这一发现,我们提出了“HeadHunter”,一个系统化框架,用于迭代选择与用户中心目标相一致的注意力头,实现对生成质量及视觉属性的精细控制。此外,我们引入了SoftPAG,它通过线性插值将每个选定头的注意力图向单位矩阵方向调整,提供了一个连续旋钮以调节扰动强度并抑制伪影。我们的方法不仅缓解了现有层级扰动导致的过度平滑问题,还通过组合选择特定头实现了对具体视觉风格的有针对性的操控。我们在包括Stable Diffusion 3和FLUX.1在内的现代大规模基于DiT的文本到图像模型上验证了该方法,展示了在整体质量提升和风格特定引导方面的卓越性能。本研究首次在扩散模型中进行了注意力头层面的扰动分析,揭示了注意力层内可解释的专门化现象,并为设计有效的扰动策略提供了实用指导。
机制解释性的一个核心目标在于识别大型语言模型(LLMs)中能够因果解释其输出的恰当分析单元。早期研究集中于单个神经元,然而,神经元常编码多个概念的证据促使研究转向分析激活空间中的方向。关键问题是如何以无监督的方式找到捕捉可解释特征的方向。现有方法依赖于使用稀疏自编码器(SAEs)进行字典学习,通常基于残差流激活从头学习方向。然而,SAEs在因果评估中常遇挑战,且缺乏内在可解释性,因其学习过程并未明确与模型的计算相绑定。本文通过采用半非负矩阵分解(SNMF)直接分解多层感知机(MLP)激活,克服了这些局限,使得学习到的特征既是共激活神经元的稀疏线性组合,又映射至其激活输入,从而直接具备可解释性。在Llama 3.1、Gemma 2及GPT-2上的实验表明,SNMF提取的特征在因果引导上优于SAEs及一个强监督基线(均值差异),同时与人类可解释概念相吻合。进一步分析揭示,特定神经元组合在语义相关特征间被重复利用,揭示了MLP激活空间中的层次结构。综上所述,这些结果确立了SNMF作为一种简单而有效的工具,用于识别可解释特征并剖析LLMs中的概念表示。
訓練大型語言模型通常依賴於在包含數萬個加速器的集群上進行優化,這些加速器通過高帶寬互聯進行通信。擴展這些集群成本高昂,且可能變得不可行,從而限制了可訓練模型的規模。近期的幾項研究提出了通信需求較少的訓練方法,避免了對高度互聯計算集群的需求。這些先進的低通信訓練方法仍保留了一個模型參數同步步驟,當在所有模型副本上執行時,在低帶寬網絡上可能代價高昂。 在本研究中,我們提出了一種新穎的優化方法——NoLoCo,該方法在訓練過程中不顯式同步所有模型參數,因此無需任何集體通信。NoLoCo通過一種新穎的Nesterov動量優化器變體,通過與隨機選擇的另一模型權重進行部分平均,隱式地同步模型權重。我們不僅為所提出的優化器提供了理論上的收斂分析,還展示了語言模型訓練的實證結果。 我們在從1.25億到68億參數範圍內的多種加速器數量和模型規模上對NoLoCo進行了基準測試。我們的方法相比於完全分片數據並行訓練,甚至比廣泛使用的低通信訓練方法DiLoCo,顯著減少了通信開銷。對於在互聯網上訓練的數百個加速器,同步步驟本身估計比DiLoCo中使用的全歸約快一個數量級。此外,我們沒有任何全局阻塞通信,從而減少了加速器的閒置時間。與DiLoCo相比,我們還觀察到在多種模型規模和加速器數量下,收斂速度最高可提升4%。
科學領域的快速演進為組織與檢索科學文獻帶來了挑戰。雖然專家策劃的分類法傳統上滿足了這一需求,但這一過程既耗時又昂貴。此外,近期的自動分類法構建方法要么(1)過度依賴特定語料庫,犧牲了通用性,要么(2)過分依賴大型語言模型(LLMs)在其預訓練數據集中所包含的通用知識,往往忽視了科學領域動態變化的特性。同時,這些方法未能考慮到科學文獻的多維特性,即單篇研究論文可能對多個維度(如方法論、新任務、評估指標、基準測試)有所貢獻。為填補這些空白,我們提出了TaxoAdapt框架,該框架能夠動態地將LLM生成的分類法適應於給定語料庫的多個維度。TaxoAdapt執行迭代的層次分類,根據語料庫的主題分佈擴展分類法的廣度與深度。我們通過展示其在多年來多樣化計算機科學會議上的頂尖性能,證明了其結構化並捕捉科學領域演變的能力。作為一種多維方法,TaxoAdapt生成的分類法在LLMs評判下,比最具競爭力的基線方法保留了26.51%更細粒度的信息,且連貫性提高了50.41%。
個人或實體所提出的主張往往具有細微差別,無法簡單地將其標記為完全“真實”或“虛假”——這在科學與政治主張中尤為常見。然而,一項主張(例如,“疫苗A優於疫苗B”)可被分解為其核心方面及子方面(如效力、安全性、分發情況),這些方面單獨來看更易於驗證。這種方法促成了一種更全面、結構化的回應,不僅為特定問題提供了全方位的視角,還讓讀者能夠優先關注主張中的特定角度(例如,對兒童的安全性)。因此,我們提出了ClaimSpect,這是一個基於檢索增強生成的框架,旨在自動構建處理主張時通常考慮的方面層次結構,並利用特定語料庫的視角對其進行豐富。該結構層次化地劃分輸入語料庫,以檢索相關片段,這些片段有助於發現新的子方面。此外,這些片段還能揭示對主張某一方面的不同觀點(如支持、中立或反對)及其各自的普遍性(例如,“有多少生物醫學論文認為疫苗A比B更易於運輸?”)。我們將ClaimSpect應用於我們構建的數據集中涵蓋的廣泛現實世界科學與政治主張,展示了其在解構複雜主張及反映語料庫內觀點方面的魯棒性和準確性。通過實際案例研究與人工評估,我們驗證了其相較於多種基線方法的有效性。
無分類器指導(CFG)已成為現代擴散模型中的關鍵組件,旨在提升生成質量及與輸入條件的對齊度。然而,CFG需依賴特定的訓練流程,且僅限於條件生成。為克服這些限制,我們提出了令牌擾動指導(TPG),這是一種新穎的方法,直接在擴散網絡的中間令牌表示上應用擾動矩陣。TPG採用保範數的置換操作,提供有效且穩定的指導信號,從而無需改變架構即可提升生成質量。因此,TPG無需訓練且對輸入條件保持中立,使其易於應用於條件生成與無條件生成兩類場景。我們進一步分析了TPG提供的指導項,並表明其對採樣的影響相比現有的無訓練指導技術更接近CFG。在SDXL和Stable Diffusion 2.1上的大量實驗顯示,TPG在無條件生成方面相較SDXL基線實現了近2倍的FID提升,同時在提示對齊度上與CFG相當。這些結果確立了TPG作為一種通用、條件無關的指導方法,將CFG類似的優勢帶給了更廣泛的擴散模型。代碼已公開於https://github.com/TaatiTeam/Token-Perturbation-Guidance。
优化长上下文大型语言模型(LLMs)的推理过程日益重要,这源于Transformer模型在计算上呈现二次方复杂度及内存上线性复杂度的特性。现有的近似方法,如键值(KV)缓存丢弃、稀疏注意力机制以及提示压缩,通常依赖于对令牌或KV对重要性的粗略预测。我们提出了一种新颖的近似LLM推理框架,该框架利用小型草稿模型来更精确地预测令牌和KV对的重要性。具体而言,我们引入了所提框架的两个实例:(i)SpecKV,它通过草稿输出来准确评估每个KV对的重要性,从而实现更有效的KV缓存丢弃;(ii)SpecPC,它利用草稿模型的注意力激活来识别并舍弃不重要的提示令牌。据我们所知,这是首次将草稿模型用于近似LLM推理加速,将其应用范围扩展至传统的无损推测解码之外。我们通过理论与实证分析为方法提供了动机,并展示了草稿模型与目标模型注意力模式之间的强相关性。在长上下文基准测试上的广泛实验表明,我们的方法在保持内存使用、延迟和吞吐量方面相同改进的同时,始终能够达到比现有基线更高的准确性。我们的代码可在https://github.com/furiosa-ai/draft-based-approx-llm获取。
基础模型通过实现跨多样任务和数据集的通用学习,彻底革新了自然语言处理和计算机视觉等领域。然而,构建类似的人类移动性模型仍面临挑战,主要源于移动数据的隐私敏感性以及由此导致的跨机构数据孤岛现象。为弥合这一鸿沟,我们提出了MoveGCL,一个可扩展且保护隐私的框架,通过生成式持续学习来训练移动性基础模型。在不共享原始数据的前提下,MoveGCL通过重播由冻结教师模型生成的合成轨迹,实现了去中心化且渐进式的模型进化,并通过定制的蒸馏策略强化知识保留,有效缓解了灾难性遗忘问题。针对移动模式的异质性,MoveGCL引入了具备移动感知专家路由机制的专家混合Transformer,并采用分层渐进适应策略以稳定持续更新。在六个真实世界城市数据集上的实验表明,MoveGCL实现了与联合训练相媲美的性能,并显著优于联邦学习基线,同时提供了强大的隐私保护。MoveGCL标志着向解锁移动性基础模型迈出了关键一步,为基础模型时代开放、可扩展且保护隐私的模型开发提供了实用蓝图。
構建一個物理真實且精確縮放的模擬三維世界,對於具身智能任務的訓練與評估至關重要。三維數據資產的多樣性、真實性、低成本可及性與經濟性,是實現具身人工智能泛化與可擴展性的關鍵。然而,當前大多數具身智能任務仍嚴重依賴於手工創建與註釋的傳統三維計算機圖形資產,這些資產存在生產成本高、真實性有限的問題,極大地阻礙了數據驅動方法的可擴展性。我們提出了EmbodiedGen,這是一個用於交互式三維世界生成的基礎平臺。它能夠以低成本大規模生成高質量、可控且具有照片級真實感的三維資產,這些資產具備精確的物理屬性和真實世界比例,並採用統一機器人描述格式(URDF),可直接導入各種物理仿真引擎進行細粒度物理控制,支持下游任務的訓練與評估。EmbodiedGen是一個易於使用、功能全面的工具包,由六個核心模塊組成:圖像到三維、文本到三維、紋理生成、關節物體生成、場景生成與佈局生成。EmbodiedGen利用生成式人工智能,生成由生成式三維資產組成的多樣化、交互式三維世界,以應對具身智能相關研究在泛化與評估需求上的挑戰。代碼可訪問https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html。
對語言模型能力的忠實評估,對於獲取能夠指導模型開發的可操作見解至關重要。然而,在這一領域進行嚴格的因果評估面臨著重大的方法論挑戰,包括複雜的混淆效應以及與廣泛重新訓練相關的禁止性計算成本。為應對這些挑戰,我們提出了一種因果表示學習框架,其中觀察到的基準性能被建模為少數潛在能力因子的線性轉換。關鍵在於,這些潛在因子在適當控制基礎模型作為共同混淆變量後,被識別為因果相關的。將此方法應用於涵蓋Open LLM Leaderboard上六個基準評估的超過1500個模型的綜合數據集,我們識別出了一個簡潔的三節點線性因果結構,該結構可靠地解釋了觀察到的性能變化。進一步解釋這一因果結構,提供了超越簡單數值排名的實質性科學見解:具體而言,我們揭示了一個清晰的因果方向,從一般問題解決能力開始,通過指令遵循熟練度推進,最終達到數學推理能力。我們的結果強調了在評估過程中仔細控制基礎模型變化的基本作用,這一步驟對於準確揭示潛在模型能力之間的根本因果關係至關重要。
圖表說明對於幫助讀者理解並記住圖表的關鍵訊息至關重要。許多模型已被開發用於生成這些說明,協助作者更輕鬆地撰寫出更高品質的說明。然而,作者幾乎總是需要修改通用的AI生成說明,以符合其寫作風格和領域風格,這凸顯了個人化的需求。儘管語言模型的個人化(LaMP)技術取得了進展,這些技術通常專注於純文本的設定,很少處理輸入和個人資料皆為多模態的情境。本文介紹了LaMP-Cap,這是一個用於多模態圖表個人資料的個性化圖表說明生成的數據集。對於每個目標圖表,LaMP-Cap不僅提供了所需的輸入,如圖表圖像,還提供了來自同一文件的多達三個其他圖表——每個圖表都包含其圖像、說明和提及圖表的段落——作為描述上下文的個人資料。使用四個大型語言模型(LLM)的實驗表明,利用個人資料信息一致地幫助生成更接近原作者撰寫的說明。消融研究顯示,個人資料中的圖像比提及圖表的段落更有幫助,這凸顯了使用多模態個人資料相較於純文本個人資料的優勢。
随着自动化攻击技术的迅猛发展,CAPTCHA(全自动区分计算机和人类的公开图灵测试)作为抵御恶意机器人的关键防线,其重要性日益凸显。然而,现有的CAPTCHA方案涵盖了多种模式——从静态扭曲文本和模糊图像,到交互式点击、滑动拼图及基于逻辑的问题——但学术界仍缺乏一个统一、大规模、多模态的基准来严格评估其安全鲁棒性。为填补这一空白,我们推出了MCA-Bench,这是一个全面且可复现的基准测试套件,它将异质CAPTCHA类型整合至单一评估协议中。通过共享的视觉-语言模型骨干网络,我们为每类CAPTCHA微调专门的破解代理,从而实现跨模态的一致性评估。大量实验表明,MCA-Bench有效映射了现代CAPTCHA设计在不同攻击场景下的脆弱性谱系,并首次定量分析了挑战复杂度、交互深度与模型可解性之间的相互关系。基于这些发现,我们提出了三项可操作的设计原则,并识别出关键开放挑战,为系统化强化CAPTCHA、公平基准测试及更广泛的社区合作奠定了基础。数据集与代码已在线公开。
從未校準的視頻流中實時重建動態三維場景,對於眾多實際應用至關重要。然而,現有方法難以同時應對三大挑戰:1)實時處理未校準的輸入數據,2)精確建模動態場景的演變,以及3)保持長期的穩定性和計算效率。為此,我們提出了StreamSplat,這是首個完全前饋的框架,能夠以在線方式將任意長度的未校準視頻流轉化為動態三維高斯潑濺(3DGS)表示,並能從時間局部觀測中恢復場景動態。我們提出了兩項關鍵技術創新:在3DGS位置預測的靜態編碼器中引入概率採樣機制,以及在動態解碼器中採用雙向變形場,從而實現了魯棒且高效的動態建模。在靜態與動態基準測試上的廣泛實驗表明,StreamSplat在重建質量和動態場景建模方面均持續超越先前工作,同時獨特地支持任意長度視頻流的在線重建。代碼和模型可通過https://github.com/nickwzk/StreamSplat獲取。