每日精选AI研究论文及翻译
尽管基于推理的大语言模型(LLMs)在数学和编程领域表现出色,但它们在知识密集型医疗问答中的能力仍待深入探索。为此,我们推出了ReasonMed,这是目前最大的医疗推理数据集,包含37万条高质量示例,这些示例是从由多种LLMs生成的170万条初始推理路径中提炼而来。ReasonMed通过多智能体验证与精炼流程构建,其中我们设计了一个错误修正器,用于识别并纠正由验证器标记的易错步骤,从而提升推理路径的质量。借助ReasonMed,我们系统地研究了训练医疗推理模型的最佳实践,发现将详细的思维链(CoT)推理与简洁的答案摘要相结合,能实现最有效的微调策略。基于此策略,我们训练了ReasonMed-7B模型,该模型为10B以下模型设立了新标杆,较之前最佳模型提升了4.17%,甚至在PubMedQA上超越了LLaMA3.1-70B,领先幅度达4.60%。
构建大规模数据集以应对GitHub问题解决任务,对于训练和评估大型语言模型(LLMs)的软件工程能力至关重要。然而,创建此类基准的传统过程因其在搭建评估环境、评分测试结果及验证任务实例等阶段的高难度与劳动密集性而闻名。本文中,我们提出了SWE-Factory,一个旨在解决这些挑战的自动化流水线。为此,我们的流水线整合了三大核心自动化组件。首先,我们引入了SWE-Builder,一个多代理系统,它自动化了评估环境的构建,该系统利用四个专业代理在协作迭代循环中工作,并借助环境内存池提升效率。其次,我们提出了一种基于退出代码的标准化评分方法,省去了手动编写自定义解析器的需求。最后,我们利用这些可靠的退出代码信号,自动化了fail2pass验证流程。在跨越四种编程语言的671个问题上的实验表明,我们的流水线能有效构建有效任务实例;例如,使用GPT-4.1-mini时,SWE-Builder以每个实例0.045的成本构建了269个有效实例,而使用Gemini-2.5-flash时,它以最低的每个实例0.024成本实现了相当的性能。我们还展示了基于退出代码的评分相较于人工检查达到了100%的准确率,且我们的自动化fail2pass验证达到了0.92的精确度和1.00的召回率。我们希望这一自动化流水线能加速大规模、高质量GitHub问题解决数据集的收集,服务于训练与评估。我们的代码和数据集已发布于https://github.com/DeepSoftwareAnalytics/swe-factory。
图像复原旨在修复退化的图像。然而,现有的基于扩散模型的复原方法,尽管在自然图像复原方面取得了巨大成功,却往往难以忠实地重建退化图像中的文本区域。这些方法经常生成看似合理但实际错误的类文本模式,这一现象我们称之为文本图像幻觉。本文中,我们提出了文本感知图像复原(TAIR),这是一项新颖的复原任务,要求同时恢复视觉内容和文本保真度。为应对这一任务,我们推出了SA-Text,一个包含10万张高质量场景图像的大规模基准数据集,这些图像密集标注了多样且复杂的文本实例。此外,我们提出了一种名为TeReDiff的多任务扩散框架,该框架将扩散模型的内部特征整合到文本检测模块中,使两者都能从联合训练中获益。这使得能够提取丰富的文本表示,这些表示在后续去噪步骤中被用作提示。大量实验证明,我们的方法在文本识别准确率上持续超越现有最先进的复原方法,取得了显著提升。访问我们的项目页面:https://cvlab-kaist.github.io/TAIR/
我们推出VRBench,这是首个专为评估大模型多步推理能力而设计的长篇叙事视频基准,旨在解决现有评估方法忽视时间推理和程序有效性的局限。该基准包含1,010段长视频(平均时长1.6小时),以及9,468个人工标注的多步问答对和30,292个带时间戳的推理步骤。这些视频通过多阶段筛选流程精心挑选,包括专家互评,以确保情节连贯性。我们开发了一个人机协作框架,用于生成连贯的推理链,每条链均需包含多个基于时间线索的步骤,涵盖七种类型(如事件归因、隐含推理)。VRBench设计了一个多阶段评估流程,从结果和过程两个层面评估模型性能。除针对最终结果的多项选择题外,我们还提出了一种基于进展水平的LLM引导评分指标,从多个维度全面评估推理链的质量。通过对12个LLM和16个VLM在VRBench上的广泛评估,我们进行了深入分析,并提供了推动多步推理领域发展的宝贵见解。
尽管视频生成模型发展迅速,但生成跨越多个场景和角色的连贯叙事视频仍具挑战性。现有方法通常将预生成的关键帧生硬地转换为固定长度的片段,导致叙事脱节和节奏问题。此外,视频生成模型固有的不稳定性意味着,即使单个低质量片段也可能显著降低整个输出动画的逻辑连贯性和视觉连续性。为克服这些障碍,我们推出了AniMaker,一个多智能体框架,支持高效的多候选片段生成和叙事感知片段选择,从而仅从文本输入创建全局一致且故事连贯的动画。该框架围绕专门设计的智能体构建,包括负责故事板生成的导演智能体、负责视频片段生成的摄影智能体、负责评估的评审智能体,以及负责剪辑和配音的后期制作智能体。AniMaker方法的核心在于两个关键技术组件:摄影智能体中的MCTS-Gen,一种受蒙特卡洛树搜索(MCTS)启发的策略,智能地导航候选空间以生成高潜力片段,同时优化资源使用;以及评审智能体中的AniEval,首个专为多镜头动画评估设计的框架,通过考虑每个片段与其前后片段的关系,评估故事层面的连贯性、动作完成度及动画特有特征等关键方面。实验表明,AniMaker在VBench和我们提出的AniEval框架等流行指标上均展现出卓越质量,同时显著提升了多候选生成的效率,推动AI生成的叙事动画更接近生产标准。
离散音频标记是一种紧凑的表示形式,旨在保持感知质量、语音内容和说话者特征的同时,实现高效的存储与推理,并在多样化的下游任务中展现竞争力。它们为连续特征提供了实用的替代方案,使得语音和音频能够融入现代大型语言模型(LLMs)。随着基于标记的音频处理兴趣的增长,多种标记化方法相继涌现,已有若干综述回顾了该领域的最新进展。然而,现有研究往往聚焦于特定领域或任务,缺乏跨多种基准的统一比较。本文系统性地回顾并基准测试了离散音频标记器,涵盖语音、音乐及通用音频三大领域。我们提出了一种基于编码器-解码器架构、量化技术、训练范式、流处理能力及应用领域的标记化方法分类体系。我们在重构、下游任务表现及声学语言建模等多个基准上评估了标记器,并通过控制变量实验分析了权衡取舍。我们的发现揭示了关键局限、实际考量及开放挑战,为这一快速演进领域的未来研究提供了洞见与指导。欲了解更多信息,包括主要成果及标记器数据库,请访问我们的网站:https://poonehmousavi.github.io/dates-website/。
我们提出了Domain2Vec这一创新方法,它能够将任何数据集分解为多个元域(meta-domains)的线性组合。元域是一个新概念,旨在捕捉数据集的关键底层特征。Domain2Vec维护了一个元域词汇表,并利用分类器将任意给定数据集分解为对应于该词汇表分布的域向量。这些域向量使得在\textbf{分布对齐假设}(DA^{2})下,无需训练即可识别出语言模型(LM)预训练的最佳数据混合比例。该假设认为,当训练集与验证集的数据分布更为一致时,验证损失会更低。此外,Domain2Vec能够无缝融入先前的研究中,建模域向量与LM性能之间的关系,极大地提升了现有方法的效率和可扩展性。大量实验表明,Domain2Vec以最小的计算开销帮助找到了提升下游任务性能的数据混合方案。具体而言,Domain2Vec在Pile-CC数据集上仅需原Pile数据集混合训练计算量的51.5%,即可达到相同的验证损失。在同等计算预算下,Domain2Vec平均提升下游任务性能2.83%。
我们推出Magistral,这是Mistral的首个推理模型,以及我们自研的可扩展强化学习(RL)管道。不同于依赖现有实现及从先前模型提炼的RL轨迹,我们采取从零开始的方法,完全依托于我们自己的模型与基础设施。尤为突出的是,我们展示了一套技术栈,使我们能够探索纯RL训练大型语言模型(LLMs)的极限,提出了一种简单的方法来强制模型使用特定的推理语言,并证明了仅基于文本数据的RL训练能够保留初始检查点的大部分能力。我们发现,基于文本的RL训练不仅维持甚至提升了多模态理解、指令跟随及函数调用能力。我们介绍了Magistral Medium,它是在Mistral Medium 3基础上仅通过RL训练专为推理而设计的,同时我们开源了Magistral Small(Apache 2.0许可),该版本进一步包含了来自Magistral Medium的冷启动数据。
近期,基于多模态大语言模型(MLLMs)的智能体在多个领域取得了显著进展。然而,在《我的世界》等开放世界环境中构建具备感知、规划、行动、定位和反思能力的通用智能体仍面临诸多挑战:领域特定数据不足、异构任务间的相互干扰,以及开放世界场景中的视觉多样性。本文通过三项关键贡献应对这些挑战:1)我们提出了一种知识增强的数据生成管道,为智能体开发提供可扩展且高质量的训练数据;2)为减轻异构任务间的干扰,我们引入了任务级路由的专家混合(MoE)架构;3)我们开发了一种多模态推理增强的强化学习方法,以提升智能体在《我的世界》中应对视觉多样性的推理能力。基于这些创新,我们推出了Optimus-3,一款面向《我的世界》的通用智能体。大量实验结果表明,Optimus-3在《我的世界》环境中的广泛任务上,均超越了通用多模态大语言模型及现有最先进的智能体。项目页面:https://cybertronagent.github.io/Optimus-3.github.io/
生成具有美感的海报比简单的设计图像更具挑战性: 它不仅需要精确的文本渲染,还要求将抽象的艺术内容、引人注目的布局与整体风格和谐地融为一体。为此,我们提出了PosterCraft,一个统一框架,摒弃了以往模块化的流程和僵化的预设布局,让模型能够自由探索连贯且视觉吸引力强的构图。PosterCraft采用精心设计的级联工作流,以优化高质量美感海报的生成:(i) 在我们新引入的Text-Render-2M数据集上进行大规模文本渲染优化;(ii) 在HQ-Poster100K上进行区域感知的监督微调;(iii) 通过最佳n项偏好优化实现美感文本强化学习;(iv) 结合视觉-语言反馈进行联合精炼。每个阶段都配备了一个完全自动化的数据构建流程,针对其特定需求定制,无需复杂的架构修改即可实现稳健训练。通过多项实验评估,PosterCraft在渲染准确性、布局连贯性和整体视觉吸引力方面显著超越了开源基线,接近了SOTA商业系统的水平。我们的代码、模型和数据集可在项目页面找到:https://ephemeral182.github.io/PosterCraft。
我们如何通过利用语言模型的底层表示,以最具成本效益的方式激发其强大的推理能力?我们通过Resa系列模型回答了这个问题,这是一组15亿参数的推理模型,采用了一种新颖且高效的稀疏自编码器调优(SAE-Tuning)方法进行训练。该方法首先训练一个稀疏自编码器(SAE)从源模型中捕捉推理能力,随后利用训练好的SAE指导标准的有监督微调过程,以在目标模型中激发这些能力,整个过程仅使用经过验证的问答数据,无需任何推理轨迹。值得注意的是,当应用于某些基础模型并在进一步强化学习(RL)后训练之前,SAE-Tuning保留了其RL训练对应模型超过97%的推理性能,同时将训练成本降低了超过2000倍至约1美元,训练时间缩短了超过450倍至约20分钟。此外,当应用于经过轻度RL训练的模型(例如,在2个GPU上训练1小时内),它仅需增加约1美元的成本,就能实现如AIME24上43.33%的Pass@1和AMC23上90%的Pass@1的推理性能。令人惊讶的是,通过SAE提取的推理能力可能既具有通用性又具有模块化特性。通用性意味着从一个数据集中提取的能力仍能在更大且重叠的语料库上提升性能。模块化则意味着从Qwen或Qwen-Math提取的能力可以在测试时直接附加到R1-Distill模型上,无需任何重新训练,就能带来可比的性能提升。广泛的消融实验验证了这些发现,所有相关资源均已完全开源。
大型语言模型(LLM)代理在解决现实世界数据科学问题方面展现出巨大潜力。LLM驱动的数据科学代理有望实现整个机器学习流程的自动化,然而其实际应用效果仍显局限。现有框架依赖于僵化的预定义工作流和缺乏灵活性的编码策略,因此仅在处理相对简单、经典的问题时表现优异,而无法捕捉人类从业者在复杂创新任务中积累的实践经验。本研究提出AutoMind,一种自适应、知识丰富的LLM代理框架,通过三大关键创新克服上述不足:(1)构建精选的专家知识库,使代理扎根于领域专家知识;(2)采用代理知识树搜索算法,策略性地探索可能解决方案;(3)实施自适应的编码策略,根据任务复杂度动态调整代码生成。在两个自动化数据科学基准测试上的评估表明,AutoMind相较于最先进的基线方法展现出更优性能。进一步分析证实了其在有效性、效率及解决方案质量上的优势,凸显AutoMind作为迈向全自动化数据科学的高效且稳健的一步。
长视频理解(LVU)因其任务固有的复杂性和上下文窗口限制,对当前的多模态大语言模型(MLLMs)构成了重大挑战。普遍认为,解决LVU任务需要具备扩展上下文窗口、强大视觉感知能力及精通领域知识的基础MLLMs。在本研究中,我们通过引入VideoDeepResearch这一新颖的代理框架,对长视频理解的传统观念提出挑战。我们的方法仅依赖于一个纯文本的大型推理模型(LRM),结合模块化的多模态工具包,包括多模态检索器和视觉感知器,这些在实际中均易于获取。针对每项LVU任务,系统通过推理制定问题解决策略,同时有选择地访问并利用关键视频内容。我们在MLVU、Video-MME及LVBench等主流LVU基准测试上进行了广泛实验。结果显示,VideoDeepResearch相较于现有MLLM基线取得了显著提升,在MLVU(测试)、LVBench和LongVideoBench上分别超越了之前的最优水平9.6%、6.6%和3.9%。这些发现凸显了代理系统在攻克LVU问题核心挑战方面的潜力。
在商业与个人领域,平面设计均扮演着至关重要的角色。然而,创作出高质量、可编辑且视觉美观的平面作品,对于初学者而言,仍是一项耗时且需专业技能的任务。现有AI工具虽能自动化部分工作流程,但在准确整合用户提供的素材、保持可编辑性以及实现专业视觉吸引力方面仍面临挑战。诸如Canva Magic Design等商业系统依赖庞大的模板库,这在实际应用中难以复制。本文中,我们提出了CreatiPoster框架,它能够根据可选的自然语言指令或素材生成可编辑的多层设计作品。首先,一个协议模型——RGBA大型多模态模型,生成一份JSON规范,详细描述每一层(文本或素材)的精确布局、层级、内容与样式,并附带简洁的背景提示。随后,一个条件背景模型基于这些渲染的前景层合成出协调的背景。我们构建了一个包含自动化评估指标的平面设计生成基准,并展示了CreatiPoster在超越领先的开源方法及专有商业系统方面的优势。为促进进一步研究,我们公开了一个包含10万份多层设计的无版权语料库。CreatiPoster支持多种应用场景,如画布编辑、文字叠加、响应式缩放、多语言适配及动态海报制作,推动了AI辅助平面设计的普及化进程。项目主页:https://github.com/graphic-design-ai/creatiposter。
大型语言模型(LLMs)在自动化有害内容检测任务中的应用日益广泛,协助内容审核员识别违规行为,并提升内容审查的整体效率与准确性。然而,现有有害内容检测资源主要集中于英语领域,中文数据集相对匮乏且往往范围有限。我们推出了一套全面、专业标注的中文内容危害检测基准,涵盖六大代表性类别,并完全基于真实世界数据构建。我们的标注过程还生成了一个知识规则库,为LLMs在中文有害内容检测中提供了明确的专家知识支持。此外,我们提出了一种知识增强的基线方法,该方法融合了人工标注的知识规则与大型语言模型中的隐含知识,使得较小模型也能达到与顶尖LLMs相媲美的性能。代码与数据可在https://github.com/zjunlp/ChineseHarm-bench获取。
我们提出了Ming-Omni,一个统一的多模态模型,能够处理图像、文本、音频和视频,同时在语音和图像生成方面展现出强大的能力。Ming-Omni采用专用编码器从不同模态中提取特征标记,随后由Ling处理,Ling是一种配备了新提出的模态特定路由器的混合专家(MoE)架构。这一设计使得单一模型能够在统一框架内高效处理和融合多模态输入,从而无需单独模型、任务特定微调或结构重设计即可支持多样化任务。重要的是,Ming-Omni超越了传统多模态模型,通过集成先进的音频解码器实现自然语音生成,以及Ming-Lite-Uni用于高质量图像生成,使模型能够进行上下文感知的对话、执行文本到语音转换,并开展多样化的图像编辑。我们的实验结果表明,Ming-Omni为跨所有模态的统一感知与生成提供了一个强有力的解决方案。值得注意的是,我们所提出的Ming-Omni是我们所知首个在模态支持上与GPT-4o相匹配的开源模型,我们公开了所有代码和模型权重,以鼓励社区进一步的研究与开发。
近期,大型语言模型(LLMs)及其多模态对应物的进展,极大地激发了开发网络代理——即能在网络环境中自主导航并完成任务的人工智能系统——的兴趣。尽管在自动化复杂网络交互方面展现出巨大潜力,当前方法因人类设计界面与LLM能力之间的根本性不匹配而面临重大挑战。现有方法在处理网络输入的内在复杂性时显得力不从心,无论是解析庞大的DOM树、依赖附加信息增强的截图,还是完全通过API交互绕过用户界面。本立场文件主张网络代理研究应进行范式转变:与其迫使网络代理适应为人类设计的界面,不如开发一种专门优化代理能力的新交互范式。为此,我们引入了“代理式网络界面”(Agentic Web Interface, AWI)的概念,这是一种专为代理导航网站而设计的界面。我们确立了AWI设计的六项指导原则,强调安全性、效率及标准化,以兼顾所有主要利益相关者的利益。这一重构旨在克服现有界面的根本限制,为更高效、可靠且透明的网络代理设计铺平道路,这将是整个机器学习社区共同参与的合作努力。
随着微调(FT)在大规模应用中的可行性日益降低,探测正逐渐成为自监督学习(SSL)的首选评估方法。然而,标准的线性探测(LP)由于图像块(patch)令牌的分布式特性,无法充分反映通过掩码图像建模(MIM)训练的模型潜力。这促使了注意力探测的需求,该方法利用注意力机制有选择性地聚合图像块级别的特征。尽管其应用日益广泛,注意力探测仍处于探索不足的状态,现有方法存在参数过多和计算效率低下的问题。 在本研究中,我们从准确性与效率权衡的角度重新审视了注意力探测。我们对现有方法进行了系统性研究,分析了其机制并对其性能进行了基准测试。我们引入了高效探测(EP),这是一种多查询交叉注意力机制,它消除了冗余的投影,减少了可训练参数的数量,并实现了相比传统多头注意力高达10倍的加速。尽管设计简洁,EP在七个基准测试中均超越了LP及先前的注意力探测方法,不仅对MIM之外的多种预训练范式表现出良好的泛化能力,还能生成可解释的注意力图,并在少样本和逐层设置中实现了显著的性能提升。代码已发布于https://github.com/billpsomas/efficient-probing。
带有可验证奖励的强化学习(RLVR)已成为提升大型语言模型(LLMs)的关键技术,其中验证工程扮演着核心角色。然而,在指令遵循任务中,强化学习的最佳实践仍待深入探索。本研究针对指令遵循中的强化学习验证挑战展开探讨,并提出了VerIF方法,该方法结合了基于规则的代码验证与基于大型推理模型(如QwQ-32B)的LLM验证。为支持这一方法,我们构建了一个高质量的指令遵循数据集VerInstruct,包含约22,000个实例及其对应的验证信号。我们应用VerIF对两个模型进行强化学习训练,在多个代表性指令遵循基准测试中取得了显著提升。训练后的模型在同等规模模型中达到了顶尖性能,并能很好地泛化到未见过的约束条件。进一步观察发现,它们的通用能力未受影响,这表明结合VerIF的强化学习可融入现有的强化学习方案中,以全面提升模型性能。我们已公开发布了数据集、代码及模型,以促进未来研究,详见https://github.com/THU-KEG/VerIF。
近期,统一图像理解与生成的多模态基础模型取得了显著进展,为在单一框架内解决广泛的视觉-语言任务开辟了令人兴奋的新途径。尽管已有进步,现有的统一模型通常需要大量预训练,并且难以达到专为每项任务设计的模型同等水平的性能。此外,许多此类模型存在图像生成速度慢的问题,限制了它们在实时或资源受限环境中的实际部署。在本研究中,我们提出了分层时间步专家流式Transformer(LaTtE-Flow),这是一种新颖且高效的架构,能够在单一多模态模型中统一图像理解与生成。LaTtE-Flow基于强大的预训练视觉-语言模型(VLMs),继承了其卓越的多模态理解能力,并通过一种新颖的分层时间步专家流式架构进行扩展,以实现高效的图像生成。LaTtE-Flow将流匹配过程分配到专门的Transformer层组中,每组负责不同的时间步子集。这一设计通过在每个采样时间步仅激活一小部分层,显著提高了采样效率。为了进一步提升性能,我们提出了一种时间步条件残差注意力机制,用于在层间高效地复用信息。实验表明,LaTtE-Flow在多模态理解任务上表现出色,同时在图像生成质量上保持竞争力,且推理速度比近期统一多模态模型快约6倍。
在电子商务与数字营销领域,制作高保真的人与产品展示视频对于有效呈现产品至关重要。然而,现有的大多数框架要么无法同时保留人与产品的身份特征,要么缺乏对人与产品空间关系的理解,导致呈现效果失真、互动不自然。为解决这些难题,我们提出了一种基于扩散变换器(DiT)的框架。我们的方法通过注入成对的人与产品参考信息,并利用额外的掩码交叉注意力机制,同步保留了人物身份及产品特有的细节,如标志与纹理。我们采用3D人体网格模板和产品边界框来提供精确的运动指导,使得手势与产品摆放能够直观对齐。此外,通过结构化文本编码融入类别级语义,增强了帧间小幅旋转变化时的3D一致性。在采用广泛数据增强策略的混合数据集上训练后,我们的方法在保持人与产品身份完整性及生成逼真展示动作方面,均超越了现有最先进技术。项目页面:https://submit2025-dream.github.io/DreamActor-H1/。
点云数据的尺度多样性为开发统一的3D视觉表示学习技术带来了重大挑战。目前,统一的3D模型较少,且现有的预训练方法无法同时有效处理物体级和场景级点云。本文提出了UniPre3D,这是首个能够无缝应用于任意尺度点云和任意架构3D模型的统一预训练方法。我们的方法以预测高斯基元作为预训练任务,并采用可微分的高斯溅射进行图像渲染,从而实现精确的像素级监督和端到端优化。为了进一步调控预训练任务的复杂性并引导模型关注几何结构,我们整合了预训练图像模型中的2D特征,以融入成熟的纹理知识。我们通过在各种物体级和场景级任务上的广泛实验,使用多种点云模型作为骨干网络,验证了所提出方法的普适有效性。代码可在https://github.com/wangzy22/UniPre3D获取。
大型语言模型已彻底革新了自然语言处理领域,然而监督微调(SFT)仍是一项计算密集型任务。本文正式证明,在理想化假设下,包括无限计算资源和访问微调数据集,通过推理时技术,特别是上下文学习(ICL),无需改变模型参数,即可由基础Transformer模型近似获得SFT所赋予的能力。我们将这些结果推广至实际场景,考虑有限上下文长度和部分数据集访问的情况。对于输出长度固定的文本生成任务,数据集规模为O(mV/ε² log m/δ)或在有界上下文情况下为O(l log V/ε² log 1/δ),足以在m个上下文中以误差ε近似微调行为,其中V为词汇量,δ为失败概率。对于线性分类,数据集规模为O(d/ε)或在固定上下文情况下为O(1/ε² log 1/δ)即足够,其中d为输入维度。基于Transformer的图灵完备性,这些结果为大型语言模型的资源高效部署提供了理论基础,而检索增强生成等实用技术则架起了理论与现实应用之间的桥梁。
人工智能在电信领域的日益普及,引发了人们对大型语言模型(LLMs)处理特定领域、数学密集型任务能力的浓厚兴趣。尽管近期的技术进步已提升了LLMs在通用数学推理方面的表现,但它们在信号处理、网络优化及性能分析等专业领域内的有效性仍鲜有探索。为填补这一空白,我们推出了TeleMath,这是首个专门设计用于评估LLMs在电信领域解决具有数值解的数学问题性能的基准数据集。TeleMath包含500个问答对,覆盖了电信领域的广泛主题。本文详述了从由领域专家精心挑选的问题种子出发,构建问答对的生成流程。通过对一系列开源LLMs的评估发现,在TeleMath上表现最佳的是那些专为数学或逻辑推理设计的最新模型。相比之下,即便是参数规模庞大的通用模型,面对这些挑战也常感力不从心。我们已公开发布该数据集及评估代码,以简化结果复现过程,支持未来研究。
近期,大型语言模型(LLMs)与人工智能系统的重大进展,引领了复杂AI工作流设计与优化的范式转变。通过整合多元组件,复合型AI系统在执行复杂任务方面日益娴熟。然而,随着这些系统复杂度的提升,不仅单个组件的优化面临新挑战,组件间的交互优化也成为了关键问题。尽管监督微调(SFT)和强化学习(RL)等传统优化方法仍占据基础地位,自然语言反馈的兴起为优化不可微系统开辟了前景广阔的新途径。本文系统回顾了复合AI系统优化领域的最新进展,涵盖了数值与基于语言的技术。我们正式定义了复合AI系统优化的概念,沿多个关键维度对现有方法进行了分类,并着重指出了这一快速发展领域中开放的研究挑战与未来方向。所调查论文列表公开于https://github.com/MiuLab/AISysOpt-Survey。
随着大型语言模型(LLMs)向更类人的方向发展,人机交互日益普遍,提示词(prompting)已成为关键要素。然而,对于如何量化自然语言提示词,学界尚未达成明确共识。为此,我们通过对2022至2025年间顶级NLP与AI会议论文及博客中超过150篇相关文献进行元分析,尝试解答这一问题。我们提出了一个以属性与人为中心的框架,用于评估提示词质量,该框架涵盖六大维度下的21项属性。随后,我们考察了现有研究如何评估这些属性对LLMs的影响,揭示了它们在模型与任务间支持的不均衡性及显著的研究空白。进一步,我们分析了高质量自然语言提示词中属性间的关联,得出了提示词设计的建议。在推理任务中,我们实证探索了多属性提示词增强的效果,发现单一属性增强往往影响最大。最后,我们发现基于属性增强提示词进行指令微调,能够训练出更优的推理模型。本研究为以属性为中心的提示词评估与优化奠定了基础,弥合了人机交互的鸿沟,并开辟了提示词研究的新方向。
大规模语言模型的训练通常通过在包含数万加速器的集群上采用优化方法进行,这些加速器通过高带宽互连进行通信。扩展此类集群成本高昂且可能变得不切实际,从而限制了可训练模型的规模。近期多项研究提出了通信需求较低的训练方法,避免了对高度互联计算集群的依赖。这些先进的低通信训练方法仍包含一个模型参数同步步骤,当在所有模型副本上执行时,在低带宽网络中可能代价高昂。 在本研究中,我们提出了一种新颖的优化方法——NoLoCo,该方法在训练过程中不显式同步所有模型参数,因此无需任何集体通信。NoLoCo通过一种Nesterov动量优化器的新变体,通过随机选择另一个模型权重进行部分平均,隐式同步模型权重。我们不仅为所提出的优化器提供了理论收敛分析,还展示了语言模型训练的实证结果。 我们在125M至6.8B参数范围内的多种加速器数量和模型规模上对NoLoCo进行了基准测试。与完全分片数据并行训练或广泛使用的低通信训练方法DiLoCo相比,我们的方法显著减少了通信开销。对于数百个加速器在互联网上的训练,同步步骤本身估计比DiLoCo中使用的全归约操作快一个数量级。此外,我们没有任何全局阻塞通信,从而减少了加速器的闲置时间。与DiLoCo相比,我们还观察到在广泛的模型规模和加速器数量下,收敛速度最多可提升4%。
无分类器引导(CFG)已成为现代扩散模型提升生成质量及与输入条件对齐的关键组件。然而,CFG需特定训练流程,且仅限于条件生成。为克服这些局限,我们提出令牌扰动引导(TPG),一种直接在扩散网络中间令牌表示上应用扰动矩阵的新方法。TPG采用保范重排操作,提供有效且稳定的引导信号,无需架构改动即可提升生成质量。因此,TPG无需训练,对输入条件保持中立,轻松适用于条件与非条件生成。我们进一步分析了TPG提供的引导项,发现其采样效果较现有免训练引导技术更接近CFG。在SDXL与Stable Diffusion 2.1上的大量实验表明,TPG在无条件生成上较SDXL基线FID提升近2倍,同时在提示对齐上紧追CFG。这些成果确立了TPG作为一种通用、条件无关的引导方法,将CFG般的优势扩展至更广泛的扩散模型类别。代码已发布于https://github.com/TaatiTeam/Token-Perturbation-Guidance。
Shojaee等人(2025年)报告称,大型推理模型(LRMs)在超过特定复杂度阈值的规划谜题上表现出“准确性崩溃”。我们证明,他们的发现主要反映了实验设计的局限性,而非根本性的推理失败。我们的分析揭示了三个关键问题:(1)河内塔实验在报告的失败点系统地超出了模型输出令牌的限制,模型在其输出中明确承认了这些约束;(2)作者的自动化评估框架未能区分推理失败与实际约束,导致对模型能力的错误分类;(3)最令人担忧的是,他们的渡河基准测试中包含了数学上不可能的情况,当N > 5时,由于船只容量不足,这些问题无法解决,然而模型却因未能解决这些无解问题而被评为失败。当我们通过请求生成函数而非详尽的移动列表来控制这些实验伪影时,跨多个模型的初步实验表明,在先前被报告为完全失败的河内塔实例上,模型表现出高准确性。这些发现强调了在评估AI推理能力时,精心设计实验的重要性。
大型语言模型(LLM)遗忘技术旨在消除或抑制模型中的不良知识,为控制有害或隐私信息以防止滥用提供了希望。然而,近期研究揭示其在现实场景中的效果有限,阻碍了实际应用。本研究中,我们识别出导致众多下游任务失败的一个普遍问题:现有遗忘方法的有效性高度依赖于训练样本的形式,且往往无法推广到同一知识的不同表达方式。我们正式将这一问题定义为形式依赖偏差,并系统性地探究了其在各类下游任务中的具体表现模式。为了量化其普遍性并支持未来研究,我们引入了ORT,一个新颖的基准测试,旨在评估遗忘方法面对知识表达变化时的鲁棒性。结果显示,形式依赖偏差在当前技术中既普遍又严重。 我们主张,LLM遗忘应具备形式独立性,以应对现实世界安全关键场景中遇到的无尽下游任务形式。为此,我们提出了秩一概念重定向(ROCR),一种无需训练的新方法,作为一条有前景的解决路径。ROCR通过针对下游任务中的不变量,特别是被激活的危险概念,执行遗忘操作。它能在几秒钟内修改模型参数,将模型对特定遗忘目标概念的感知重定向至另一个无害概念。大量实验证明,与传统方法相比,ROCR显著提升了遗忘效果,同时生成高度自然的输出。
基础模型通过实现跨多样任务和数据集的通用学习,彻底革新了自然语言处理和计算机视觉等领域。然而,构建类似的人类移动性基础模型仍面临挑战,主要源于移动数据的隐私敏感性及由此产生的机构间数据孤岛。为弥合这一差距,我们提出了MoveGCL,一个可扩展且保护隐私的框架,通过生成式持续学习训练移动性基础模型。MoveGCL无需共享原始数据,通过回放由冻结教师模型生成的合成轨迹,实现去中心化和渐进式的模型进化,并采用定制化的蒸馏策略强化知识保留,有效缓解灾难性遗忘。针对移动模式的异质性,MoveGCL引入了具备移动感知专家路由机制的混合专家Transformer,并采用分层渐进适应策略以稳定持续更新。在六个真实城市数据集上的实验表明,MoveGCL实现了与联合训练相当的性能,显著优于联邦学习基线,同时提供了强大的隐私保护。MoveGCL标志着迈向移动性基础模型的关键一步,为基础模型时代开放、可扩展且保护隐私的模型开发提供了实用蓝图。
科学领域的快速发展给科学文献的组织与检索带来了挑战。尽管专家精心构建的分类体系传统上满足了这一需求,但这一过程耗时且成本高昂。此外,现有的自动分类构建方法要么(1)过度依赖特定语料库,牺牲了普适性,要么(2)过分倚重大型语言模型(LLMs)预训练数据集中的通用知识,往往忽视了科学领域动态演变的特性。同时,这些方法未能充分考虑科学文献的多维性,即单篇研究论文可能涉及多个维度(如方法论、新任务、评估指标、基准测试)。为填补这些空白,我们提出了TaxoAdapt框架,该框架能够动态调整LLM生成的分类体系,使其适应给定语料库的多维度特征。TaxoAdapt通过迭代的层次分类,依据语料库的主题分布扩展分类的广度和深度。我们通过展示其在多年间多个计算机科学会议上的卓越表现,证明了其构建并捕捉科学领域演变的能力。作为一种多维方法,TaxoAdapt生成的分类体系在LLM评估下,比最具竞争力的基线方法在粒度保持上提升了26.51%,在连贯性上提升了50.41%。
个人或实体提出的主张往往具有细微差别,难以简单地归类为完全“真实”或“虚假”——这在科学和政治主张中尤为常见。然而,一个主张(例如,“疫苗A优于疫苗B”)可以被分解为其核心方面和子方面(例如,有效性、安全性、分发),这些方面单独验证起来更为容易。这种方法能够提供更为全面、结构化的回应,不仅为特定问题提供了全方位的视角,还允许读者优先关注主张中的特定角度(例如,对儿童的安全性)。因此,我们提出了ClaimSpect,这是一个基于检索增强生成的框架,旨在自动构建处理主张时通常考虑的方面层次结构,并通过特定语料库的视角对其进行丰富。该结构层次化地划分输入语料库以检索相关片段,这些片段有助于发现新的子方面。此外,这些片段还能揭示对主张某一方面的不同观点(例如,支持、中立或反对)及其各自的普遍性(例如,“有多少生物医学论文认为疫苗A比B更易于运输?”)。我们将ClaimSpect应用于我们构建的数据集中涵盖的多种现实世界科学和政治主张,展示了其在解构复杂主张和表示语料库内观点方面的鲁棒性和准确性。通过现实案例研究和人工评估,我们验证了其在多个基线方法之上的有效性。
优化长上下文大语言模型(LLMs)的推理过程日益重要,这源于Transformer模型在计算上的二次方复杂度和内存上的线性复杂度。现有的近似方法,如键值(KV)缓存丢弃、稀疏注意力机制以及提示压缩,通常依赖于对令牌或KV对重要性的粗略预测。我们提出了一种新颖的近似LLM推理框架,该框架利用小型草稿模型更精确地预测令牌和KV对的重要性。具体而言,我们引入了该框架的两个实例化方案:(i)SpecKV,它通过草稿输出来准确评估每个KV对的重要性,从而实现更有效的KV缓存丢弃;(ii)SpecPC,它利用草稿模型的注意力激活来识别并舍弃不重要的提示令牌。据我们所知,这是首次将草稿模型用于近似LLM推理加速,扩展了其传统无损推测解码之外的应用价值。我们通过理论与实证分析为方法提供依据,并展示了草稿模型与目标模型注意力模式之间的强相关性。在长上下文基准测试上的广泛实验表明,我们的方法在保持内存使用、延迟和吞吐量改进的同时,始终比现有基线达到更高的准确率。我们的代码已发布于https://github.com/furiosa-ai/draft-based-approx-llm。
图表说明对于帮助读者理解和记忆图表的关键信息至关重要。许多模型已被开发用于生成这些说明,帮助作者更轻松地撰写更高质量的说明。然而,作者几乎总是需要修改通用AI生成的说明,以匹配其写作风格和领域风格,这凸显了个性化的必要性。尽管语言模型的个性化(LaMP)取得了进展,但这些技术通常专注于纯文本设置,很少涉及输入和配置文件均为多模态的场景。本文介绍了LaMP-Cap,一个用于个性化图表说明生成的多模态图表配置文件数据集。对于每个目标图表,LaMP-Cap不仅提供了所需的输入,如图表图像,还提供了来自同一文档的至多三个其他图表——每个图表都包含其图像、说明和提及图表的段落——作为描述上下文的配置文件。使用四个大型语言模型的实验表明,利用配置文件信息一致地帮助生成更接近原作者撰写的说明。消融研究揭示,配置文件中的图像比提及图表的段落更有帮助,突出了使用多模态配置文件相较于纯文本配置文件的优势。
随着自动化攻击技术的迅猛发展,CAPTCHA(全自动区分计算机和人类的公开图灵测试)依然是抵御恶意机器人的关键防线。然而,现有的CAPTCHA方案涵盖了多种模式——从静态扭曲文本和模糊图像,到交互式点击、滑动拼图及基于逻辑的问题——但学术界仍缺乏一个统一、大规模、多模态的基准来严格评估其安全鲁棒性。为填补这一空白,我们推出了MCA-Bench,这是一个全面且可复现的基准测试套件,它将异构的CAPTCHA类型整合到单一评估协议中。借助共享的视觉-语言模型骨干,我们为每类CAPTCHA微调专门的破解代理,从而实现跨模态的一致性评估。大量实验表明,MCA-Bench有效映射了现代CAPTCHA设计在不同攻击场景下的脆弱性谱系,并首次定量分析了挑战复杂度、交互深度与模型可解性之间的相互关系。基于这些发现,我们提出了三项可操作的设计原则,并识别出关键开放挑战,为系统性的CAPTCHA加固、公平基准测试及更广泛的社区合作奠定了基础。数据集与代码已在线公开。
近期在扩散模型中的引导方法通过扰动模型构建隐式弱模型,并引导生成过程远离该模型。在这些方法中,注意力扰动在无条件场景下展现了强大的实证性能,尤其是在无分类器引导不适用的情况下。然而,现有的注意力扰动方法缺乏确定扰动应用位置的原则性方法,特别是在扩散变换器(DiT)架构中,质量相关的计算分布在多个层之间。本文研究了注意力扰动的粒度,从层级细化到单个注意力头,发现特定头部主导着不同的视觉概念,如结构、风格和纹理质量。基于这一洞察,我们提出了“HeadHunter”,一个系统框架,用于迭代选择与用户目标一致的注意力头,实现对生成质量和视觉属性的精细控制。此外,我们引入了SoftPAG,它通过线性插值将每个选定头的注意力图向单位矩阵靠拢,提供了连续调节扰动强度并抑制伪影的手段。我们的方法不仅缓解了现有层级扰动导致的过度平滑问题,还通过组合选择特定头部实现了对特定视觉风格的有针对性操控。我们在包括Stable Diffusion 3和FLUX.1在内的现代大规模DiT文本到图像模型上验证了我们的方法,展示了在整体质量提升和风格特定引导方面的卓越性能。我们的工作首次在扩散模型中进行了头级的注意力扰动分析,揭示了注意力层内的可解释性专业化,并为设计有效的扰动策略提供了实用指导。
机制可解释性的核心目标在于识别大型语言模型(LLMs)中能够因果解释其输出的分析单元。早期研究聚焦于单个神经元,但随着发现神经元常编码多个概念,研究重心转向了激活空间中的方向分析。关键问题在于如何以无监督方式找到捕捉可解释特征的方向。现有方法依赖于稀疏自编码器(SAEs)的字典学习,通常基于残差流激活从头学习方向。然而,SAEs在因果评估中表现欠佳,且缺乏内在可解释性,因其学习过程未明确与模型计算绑定。本文通过半非负矩阵分解(SNMF)直接分解多层感知机(MLP)激活,克服了这些局限,使得学习到的特征既是(a)共激活神经元的稀疏线性组合,又(b)映射到其激活输入,从而直接具备可解释性。在Llama 3.1、Gemma 2及GPT-2上的实验表明,SNMF提取的特征在因果操控上优于SAEs及一个强监督基线(均值差异),并与人类可解释概念相吻合。进一步分析揭示,特定神经元组合在语义相关特征间被重复利用,暴露了MLP激活空间中的层次结构。这些结果共同确立了SNMF作为一种简单有效的工具,用于识别可解释特征并剖析LLMs中的概念表示。
构建一个物理真实且比例精确的模拟3D世界,对于具身智能任务的训练与评估至关重要。3D数据资产的多样性、真实性、低成本获取及经济性,是实现具身AI泛化与可扩展性的关键。然而,当前大多数具身智能任务仍严重依赖手工创建与标注的传统3D计算机图形资产,这些资产存在生产成本高、真实感有限的问题,极大地制约了数据驱动方法的可扩展性。我们提出EmbodiedGen,一个用于交互式3D世界生成的基础平台。它能够以低成本大规模生成高质量、可控且逼真的3D资产,这些资产具备精确的物理属性和真实世界比例,采用统一机器人描述格式(URDF),可直接导入多种物理仿真引擎进行细粒度物理控制,支持训练与评估中的下游任务。EmbodiedGen是一个易于使用、功能齐全的工具包,由六大核心模块组成:图像转3D、文本转3D、纹理生成、关节物体生成、场景生成与布局生成。通过利用生成式AI,EmbodiedGen构建了由生成式3D资产组成的多样化、交互式3D世界,有效应对了具身智能相关研究在泛化与评估需求上的挑战。代码可在https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html 获取。
对语言模型能力进行忠实评估,对于获取可指导模型开发的实际洞见至关重要。然而,在这一领域开展严谨的因果评估面临着重大的方法论挑战,包括复杂的混杂效应以及与大规模重新训练相关的高昂计算成本。为应对这些挑战,我们提出了一种因果表示学习框架,其中将观察到的基准性能建模为少数潜在能力因子的线性变换。关键在于,在适当控制基础模型作为共同混杂因素后,这些潜在因子被识别为因果相关的。将此方法应用于涵盖Open LLM Leaderboard上六个基准评估的1500多个模型的综合数据集,我们发现了一个简洁的三节点线性因果结构,该结构可靠地解释了观察到的性能差异。进一步解读这一因果结构,提供了超越简单数值排名的实质性科学洞见:具体而言,我们揭示了一个明确的因果方向,从通用问题解决能力出发,经过指令遵循熟练度,最终达到数学推理能力。我们的结果强调了在评估过程中仔细控制基础模型变体的关键作用,这一步骤对于准确揭示潜在模型能力间的基础因果关系至关重要。
从未校准视频流中实时重建动态3D场景对于众多实际应用至关重要。然而,现有方法难以同时应对三大关键挑战:1)实时处理未校准输入,2)精确建模动态场景演变,3)保持长期稳定性和计算效率。为此,我们提出了StreamSplat,这是首个完全前馈的框架,能够在线方式将任意长度的未校准视频流转换为动态3D高斯泼溅(3DGS)表示,并能从时间局部观测中恢复场景动态。我们提出了两项关键技术革新:在静态编码器中用于3DGS位置预测的概率采样机制,以及在动态解码器中实现稳健高效动态建模的双向变形场。在静态和动态基准上的大量实验表明,StreamSplat在重建质量和动态场景建模方面均优于先前工作,同时独特地支持任意长度视频流的在线重建。代码和模型可在https://github.com/nickwzk/StreamSplat获取。