翻訳付きの日次キュレーションされたAI研究論文
現実世界の多くの瞬間は、ユーザーが問いかけるのを待ってくれない。セキュリティモニターで火災が発生する、ビデオ通話で一瞬の表情がよぎる、ライブ配信で視聴者が欲しい商品が一瞬映る。しかし、今日の大規模モデルのほとんどは設計上、依然としてターンベースである。つまり、呼びかけられた時だけ応答し、インタラクティブに見えるビデオ通話アプリでさえ、質問応答システムとして動作し、ポーリングやプロンプトによってのみ反応する。 我々は異なるパラダイムを主張する。それは、人のように世界に存在するモデルである。今起こっていることを継続的に監視し、話すか沈黙するかを自ら判断し、リアルタイムで対話し、難しい問題にはバックグラウンドモデルに委任する。対話モデルとそのドメイン横断的な採用を促進するため、我々は2つの完全にオープンソース化された貢献を行う。 第一に、我々はJoyAI-VL-Interactionをリリースする。これは8B規模のビジョンファーストVL対話モデルである。このモデルは内部的に応答判断を行い、毎秒、沈黙、応答、またはバックグラウンドモデルへの委任を選択する。また、視覚トリガーによる応答性と時間認識に優れている。さらに、転移可能なトレーニングレシピを提供する。このレシピからは、訓練していない能力が出現する。例えば、アプリ画面の切り替えを通じて買い物客を案内したり、スライド資料から即興で講義を行ったりする能力である。 第二に、我々はそのモデルを中心に構築された、完全にデプロイ可能なシステムをリリースする。このシステムは進行中のあらゆるビデオをモデルにストリーミングし、モデルを真に世界に存在させる。他のすべてのコンポーネントはプラグ可能であり、ASR/TTSモジュール、メモリ、可視化UI、任意のAPIやエージェントに接続可能なバックグラウンドブレインを含む。6つの実世界シナリオにおいて、人間の評価者はJoyAI-VL-InteractionをDoubaoやGeminiのアプリ内ビデオ通話アシスタントよりも大幅に好んだ。我々の知る限り、これはトレーニングレシピ、データ、完全なデプロイ可能システムと共にリリースされた、初のオープンなビジョン駆動型対話モデルである。
データは社会を形作る物語を紡ぎ出す。データジャーナリストの役割は、生の情報を専門家でない人々が信頼できる物語へと変換することである。高品質なニュース特集は、ニュースルームのチームが数週間をかけて、文脈の探索、統計の実行、視点の選定、ビジュアルのデザインを行う。近年のエージェントは各工程を個別に処理することに長けている。データサイエンスエージェントは分析のループを完結させ、デザインエージェントは美しいウェブサイトを合成する。しかし、エージェントがデータジャーナリストとしてエンドツーエンドで機能できるだろうか。本稿では、Data Journalist Agent(Data2Story)を紹介する。これは、専門化された役割を単一の仮想ニュースルームに統括するマルチエージェントフレームワークである。Data2Storyは2つの革新をもたらす。(i) 主張は証拠に基づく。インスペクターがすべての数値、視点、素材をデータ、コード、または外部参照に結びつける。(ii) 記事はマルチモーダルに生成される。Data2Storyは、プレーンテキストと静的なチャートにデフォルトするのではなく、読者が何を見たがるかを推論し、対話型の地図(地理)や音声(音楽)などのマルチモーダルツールを展開する。我々はData2Storyを18の記事で評価した。各記事は元々公開された専門家の記事と対になっており、4つの軸で評価を行った。(a)人間とエージェントによる視点のカバレッジ、(b)53名の参加者による5次元のルーブリック評価、(c)コンピュータ利用エージェントを審査員として用いる評価(読者がインタラクティブ記事をどうナビゲートするかの低コストな代理指標)、(d)検証可能性(コーディング検証器がデータに対して文を再実行し、参照に対して主張をチェックする)。Data2Storyは、競争力があり証拠を追跡可能なマルチメディアストーリーを生成し、特に透明性と監査可能性に優れている。人間の書く記事は、編集の視点、創造的デザイン、プレゼンテーションにおいて依然として優位性を持つ。我々はData2Storyをジャーナリストのための協働ツールとして位置づけ、より証拠に基づき、透明で、検証可能な報道を可能にする。コードとデモはhttps://data2story.github.ioで公開されている。
汎用ロボットポリシーは、ユーザの指示に従いながら、物体、カメラ、ロボットの動作が3次元物理世界でどのように相互作用するかを推論しなければならない。近年の視覚-言語-動作モデル(VLA)やビデオ世界-動作モデル(WAM)は、大規模基盤モデルから強力な意味的または時間的先験知識を継承しているが、依然として主に2D画像フレームまたは2D由来の潜在空間上で動作し、接触を伴う操作に必要な3次元幾何学を暗黙のままにしている。我々は、幾何学的動作モデル(GAM)を提案する。これは、事前学習済みの幾何学的基盤モデル(GFM)を、知覚、時間予測、動作デコードのための共有基盤として直接再利用する言語条件付き操作ポリシーである。GAMはGFMを中間層で分割する。浅い層は観測エンコーダとして機能し、分割点に挿入された因果的未来予測器が、言語、自己受容感覚、動作履歴に条件付けられた将来の潜在トークンを予測する。予測された将来トークンは、その後、残りのGFMブロックを通じて特徴伝搬とデコードが行われ、単一のバックボーンが将来の幾何学と動作の両方を生成できるようになる。この設計により、GFMは最小限のアーキテクチャ変更で言語条件付きの時間的世界モデリングを備え、その豊かな幾何学的先験知識を保持する。広範なシミュレーションおよび実ロボット操作ベンチマークにおいて、GAMは現在の基盤モデル規模のベースラインよりも正確で、頑健で、高速で、軽量である。
DreamX-World 1.0は、制御可能な長期時系列生成を目的とした汎用インタラクティブテキスト/画像から動画への世界モデルである。カメラナビゲーション、過去に観測した領域への再訪、フォトリアリスティック、ゲームスタイル、スタイライズド領域にわたるプロンプト可能なイベントをサポートする。当データエンジンは、カメラ精度の高いUnreal Engineレンダリング、アクション豊富なゲームプレイ記録、および復元されたカメラジオメトリを伴う実世界動画を組み合わせている。カメラ制御には、PRoPEの射影カメラジオメトリを保持しつつ、空間的に削減されたトークンにカメラ認識アテンションを適用する、軽量な射影位置エンコーディングの変種であるE-PRoPEを導入する。双方向動画生成器を、因果強制、DMDスタイル蒸留、および長期ロールアウト学習を用いて、数ステップの自己回帰世界モデルに変換する。自己生成された長期コンテキストでの学習により、モデルは自身の生成履歴にさらされ、自己回帰チャンク間で蓄積されるスタイルおよび色のドリフトが低減される。メモリ条件付きシーンパーシステンスは、カメラジオメトリベースの検索を通じて以前のビューを取得し、残差リサイクルにより条件付け経路を不完全なメモリ潜在変数に対してよりロバストにする。イベント命令チューニングにより合成可能なイベント制御が追加され、強化学習アラインメントにより蒸留後のカメラ制御と視覚品質が回復する。混合精度DiT実行、残差再利用、75%枝刈りされたVAEデコード、および非同期パイプラインパラレリズムにより、DreamX-World 1.0は8枚のRTX 5090 GPU上で最大16FPSを達成する。5秒ベーシック評価では、DreamX-World 1.0はカメラ制御スコア73.75、総合スコア84.76を達成し、それぞれ総合スコア80.79、80.45を達成したHY-WorldPlay 1.5およびLingBot-Worldを上回った。
大規模言語モデル(LLM)コーディングエージェントはソフトウェア工学タスクにおいて優れた成果を上げているが、リポジトリ探索は依然として大きなボトルネックである。関連コードの特定には多大なトークン予算が消費され、エージェントのコンテキストが無関係なスニペットで汚染される。ほとんどのエージェントでは、同一のモデルがリポジトリ探索とタスク解決の両方を行い、探索的な読み取りや検索が解決履歴に残る。本稿では、FastContextを提案する。これは、リポジトリ探索を解決から分離する専用の探索サブエージェントである。オンデマンドで呼び出されるFastContextは、並列ツール呼び出しを発行し、簡潔なファイルパスと行範囲をフォーカスされたコンテキストとして返す。FastContextは、40億から300億パラメータにわたる専用探索モデルにより駆動される。強力な参照モデル軌跡からブートストラップし、タスクに基づいた報酬により、広範な初回ターン探索、複数ターンの証拠収集、正確な引用生成を洗練する。SWE-bench Multilingual、SWE-bench Pro、SWE-QAにおいて、FastContextをMini-SWE-Agentに統合することで、エンドツーエンド解決率を最大5.5%向上させ、コーディングエージェントのトークン消費を最大60%削減し、オーバーヘッドはわずかである。これらの結果は、リポジトリ探索を解決から分離し、専用モデルで効果的に処理できることを示している。コードとデータ:https://github.com/microsoft/fastcontext
本技術報告では、検証可能な推論を厳密に小型モデルの枠組み内でどこまで押し進められるかを調査するために開発された、3Bパラメータのコンパクトな高密度モデルであるVibeThinker-3Bを紹介する。Spectrum-to-Signalポストトレーニングパラダイムを基盤として、カリキュラムベースの教師ありファインチューニング、多領域強化学習、オフライン自己蒸留を含む最適化されたパイプラインを通じて、モデルを体系的に強化する。実験評価により、VibeThinker-3Bは非常に厳しい検証可能タスクにおいて最先端レベルの性能を達成することが示された。具体的には、AIME26で94.3(クレームレベルのテスト時スケーリングにより97.1に向上)、LiveCodeBench v6で80.2のPass@1を記録し、最近の未見LeetCodeコンテストでは96.1%の受理率を示すなど、強力な分布外汎化能力を発揮する。これにより、VibeThinker-3Bは事実上、DeepSeek V3.2、GLM-5、Gemini 3 Proといった桁違いに大規模な旗艦モデルと同等かそれを上回る、第一級の推論システムの性能帯に位置づけられる。さらに、IFEvalでの93.4というスコアは、この極端な推論能力の強化が厳密な指示に対する制御可能性を損なわないことを確認している。以前の1.5Bモデルでの研究を発展させ、これらの知見は「パラメトリック圧縮-カバレッジ仮説」を動機づける。この仮説は、検証可能な推論はコンパクトな推論コアに圧縮可能である一方、オープンドメイン知識や汎用的な能力は事実、概念、長尾シナリオに対する広範なパラメータカバレッジを必要とするという視点を提示する。この見解は、コンパクトモデルが単に展開効率の良い代替品ではなく、パラメータ密度の高い能力領域において最先端性能を実現するための補完的な経路であることを示唆している。
キャプチャされた動画からの都市景観の逆レンダリングは、コンテンツ制作や自動運転シミュレーションを含む多くのアプリケーションを可能にします。物理ベースのレンダリング手法は照明の物理法則に従い制御可能ですが、再構成やレンダリングにおけるアーティファクトに悩まされます。一方、生成モデルは現実的な動画を生成しますが、一貫性や制御性には限界があります。本稿では、逆レンダリングと順方向レンダリングのための相補的な2つのモデルを統合するフレームワーク「BRDFusion」を提案します。具体的には、BRDFusionは物理モデリングにより明示的で一貫性のあるシーン特性を復元し、生成事前分布を用いて最適化の曖昧さを軽減します。順方向レンダリング時には、物理モデルがシーン構成に基づく制御可能なレンダリングを提供し、生成モデルがノイズ除去とアーティファクト修正を行います。これにより、本手法は高品質な動画を生成しつつ、精密な制御を可能とし、実シーンおよび合成シーンのベースライン手法を上回ります。さらに、BRDFusionは新視点におけるリライティング、夜間シミュレーション、動的オブジェクトの挿入・編集をサポートします。プロジェクトページ: https://shigon255.github.io/brdfusion-page/
マスク拡散言語モデル(MDLM)は、系列生成における独自のパラダイムとして登場した。MDLMの能力や知識のカバレッジが多様化するにつれ、それらの知識をどのように統合するかが重要な課題となる。この課題に取り組むため、我々はまずMDLM特有の復号ダイナミクスを調査する。その結果、成功した生成では回答関連位置において信頼度ダイナミクスが安定している一方、信頼性の低い軌道は他のモデルから有望な中間状態を注入することで多くの場合改善できることが分かった。この観察に基づき、我々はTIE(軌道に基づく反復的アンサンブル)を提案する。これは、MDLMが信頼性の高い復号軌道を反復的に特定し、モデル間で中継する知識融合フレームワークである。TIEは回答関連位置における信頼度ダイナミクスを追跡し、どのモデルがより信頼性の高い軌道を現在たどっているかを判断し、部分的にノイズ除去された系列を選択的にモデル間で転送する。より有望な軌道上のモデルはノイズ除去ステップごとに変化することが多いため、TIEは生成の異なる段階で異なるモデルが相補的な強みを発揮することを可能にする。多様な推論タスクにおける優れた性能と、我々の分析は、TIEが未開拓のMDLMアンサンブル問題に対する実用的なアプローチを提供することを示唆している。
ビジョン言語モデルは、複雑なマルチモーダルタスクのための汎用インターフェースとして機能している。しかし、その導入には依然として3つのギャップが存在する。すなわち、VLMは高密度なビデオフレームや長いプロンプトを処理する際に高いレイテンシとコストを伴うこと、エージェントの基盤が導入後も静的なままであること、そして標準的なビデオQAベンチマークでは、ツールを使用するワークスペース内でエージェントが視覚的証拠を活用できるかどうかをテストできないことである。本稿では、2つの原則に基づいて構築された自己進化型マルチモーダルエージェントであるVisualClawを提案する。第一に、ハイブリッド符号化により、カスケードゲートで情報量の少ないストリーミングフレームをフィルタリングし、ホット/コールドtop-k注入によってテキストスキルバンクを圧縮することで、導入コストを削減する。第二に、スキル進化により、エージェントは失敗から学習する。すなわち、検索された記憶が、直接結合されたコンテキストとして、あるいは誘導された証拠として進化器に条件付けされ、将来の質問に役立つスキルバンクの更新を生成する。2つのVLMを用いた4つのビデオQAベンチマークにおいて、VisualClawは、全フレームアップロードと比較して1質問あたりのAPIコストを平均98%削減し、オフラインの均一8フレームベースラインと比較して平均25.9%削減するとともに、ほとんどの設定で精度を向上させた(例:Gemini 3 Flashを用いたEgoSchemaでは平均+3.85%、最大+15.80%)。このギャップに対処するため、厳格な5段階パイプラインを通じて構築された200シナリオのマルチモーダルエージェントベンチマークであるVisualClawArenaを厳選した。モデルは、ワークスペース内でビデオ証拠、ドキュメント、動的更新、実行可能チェックを使用しなければならない。VisualClawArenaにおいて、同じフレームワークをコンピュータ使用エージェントバックエンドと組み合わせた場合、進化なしのベースラインと比較して、Codex(GPT-5.5)ではマクロ精度が+2.9%、Claude Code(Sonnet 4.6)では+3.2%向上し、均一サンプリングベースラインと比較してコストが9.5%削減された。これらの特性により、VisualClawはエッジアプリケーションに自然に適合する。カスケードにより、1時間のストリーミングセッションが約3,600回のAPIアップロードからわずか5~20回の呼び出しに削減され、自己進化によりパーソナライズされたアシスタントとして理想的なものとなる。
視覚世界モデル(VWMs)は、単一のコンテキスト画像からインタラクティブで行動条件付けられたロールアウトを合成する。しかし、これらのモデルが敵対的摂動に対してどの程度頑健であるかは未解決の問題である。標準的な敵対的攻撃は、攻撃者が将来のビデオの正解を持たず、その後のユーザー制御を予測できないため、この脆弱性を評価できない。我々は、自己回帰型VWMsを対象としたラベル不要の敵対的フレームワークであるBadWorldを導入し、これら両方の制約を系統的に克服する。第一に、将来の教師信号の必要性を回避するため、モデルの初期のノイズ除去ダイナミクスを直接乱す自己教師あり速度攻撃を提案する。第二に、予測不可能なユーザー行動に対して攻撃が汎化することを保証するため、困難な制御系列を積極的に探索して制御非依存の摂動を生成する軌道適応型二段階最適化を定式化する。連続制御および離散制御を持つ代表的なVWMs上で評価した結果、BadWorldは深刻な構造的脆弱性を露呈する。視覚的に識別不能な敵対的画像は、将来のロールアウトにおいて壊滅的な劣化を確実に引き起こし、不完全なノイズ除去、構造的崩壊、制御の不整合をもたらす。これらの発見は、安全性重視のシステムにおけるVWMsの展開に対する重大なリスクを明らかにすると同時に、プライバシー保護のための実用的なメカニズムを浮き彫りにする。
マルチタスク学習(MTL)は、多様なユーザフィードバック間での相補的な学習を実現するために、レコメンダシステムにおいて不可欠である。現代の産業実践では、系列モデリングとスケーリング能力を強化するために、DNNからTransformer中心のアーキテクチャへと移行しているものの、依然として特徴符号化とマルチタスク予測を分離しており、Transformerをタスク非依存のエンコーダとして扱っている。この設計は、(1) 異種のタスク目的の下で情報ボトルネックを生み出し、(2) 勾配干渉を誘発してシーソー現象を引き起こし、(3) 注意機構に基づく文脈適応型表現学習を、非互換な情報読み書きダイナミクスを持つ静的フィードフォワードタスク予測へと変換するデータフロー遷移を強制することにより、根本的に性能とスケーラビリティを制限している。 我々はOneRankを提案する。これはTransformerネイティブなマルチタスクランキングフレームワークであり、エンコーダと予測器の分離を排除し、順方向表現学習と逆方向最適化のためのタスクプライベートチャネルを導入することで、タスク特殊化学習を可能にしつつタスク間干渉を低減する。順方向パスでは、OneRankはタスク条件付き情報選択、候補認識文脈化、および制御されたタスク間相互作用を通じて、ボトムアップにタスク固有の表現を学習する。逆方向パスでは、タスク間の勾配分離により、タスクプライベートなパラメータ更新を共有知識抽出モジュールから隔離し、負の転移を防止する。さらに、静的なタスク固有MLPスコアラを動的マッチングベースのスコアリングに置き換え、文脈認識型のパーソナライズドランキングを実現する。Transformerスタック内にマルチタスク推論を内在化することにより、OneRankは統一されスケーラブルなアーキテクチャパラダイムを確立する。大規模産業データセットを用いたオフラインおよびオンライン実験により、OneRankが計算効率を維持しながら最先端のベースラインを大幅に上回る性能を示すことを確認した。
本稿では、具身知能向けの言語条件付きビデオ世界モデル「Qwen-RobotWorld」を紹介する。本モデルは、自然言語を統一的な行動インターフェースとし、ロボット操作、自動運転、屋内ナビゲーション、人間からロボットへの転移にわたり、現在の観測から物理的に根拠づけられた将来の視覚的軌跡を予測する。この統一的な定式化により、ポリシー学習拡張のための合成データ生成、ポリシー評価のためのスケーラブルな仮想環境、下流ロボット制御のための言語誘導型計画信号という3つの有望な応用方向が提供される。これは以下の3つの要素からなる設計によって実現される。a) ダブルストリームMMDiTとMLLM動作符号化:60層のダブルストリーム拡散トランスフォーマーが、凍結されたQwen2.5-VLのセマンティクスとビデオVAE潜在表現を層ごとのジョイントアテンションを通じて結合する。b) 具身世界知識(EWK):860万のビデオテキストコーパス(2億フレーム以上)で、20以上の身体性と500以上の行動カテゴリにわたる行動-言語マッピングを含む。c) 一般+専門家の段階的カリキュラム:まず一般的な視覚事前知識を学習し、その後共有言語インターフェースの下で具身特化を注入する2段階訓練戦略。広範な結果により強力な競争力を示し、EWMBenchおよびDreamGen Benchで総合1位、WorldModelBenchおよびPBenchで全オープンソースモデルを上回る。さらに、RoboTwin-IFベンチマークにおけるゼロショット分析により、ロバストな一般化と多視点一貫性が確認された。
本稿では,SP^3を紹介する。これは,デノイザを球面エンコーダ(SE)に置き換えて生成事前分布として利用することで,最大事後確率画像復元を高速化する新規なプラグアンドプレイアルゴリズムである。SP^3は,SEの密に構造化された潜在空間を自然画像多様体へのロバストな射影として活用することにより,扱いが困難な近接事前ステップを近似する。この射影を,半二次分割法を介して閉形式のデータ一貫性ステップと交互に実施することで,推論時の勾配計算を必要とせずに安定した収束が達成される。この独自の定式化により「任意時点」での復元が可能となり,最初の反復から鮮明で尤もらしい画像が生成される。多様な画像復元タスクにおける評価の結果,SP^3は最先端のゼロショット拡散法やフロー法と同等の知覚品質を達成しつつ,3~630倍高速であることが示された。
LLMエージェントが長期セッションで展開されるにつれて、コンテキストの蓄積により推論コストが増大する。既存の手法では、テキストのプルーニングや動的メモリ退避を用いてトークンフットプリントを最小化するが、制約のないシーケンス変異がレイアウトを変更し、プレフィックスの不一致やキャッシュ無効化を引き起こす。これにより、テキストの疎性とプロンプトキャッシュの連続性の間に重要なトレードオフが明らかになる。この課題に対処するため、我々は二重粒度コンテキスト管理フレームワークであるTokenPilotを提案する。グローバルレベルでは、取り込み意識型圧縮がフレームワークのハーネスとして機能し、プロンプトプレフィックスを安定化させ、取り込みゲートにおいてオープンワールド環境ノイズを除去する。ローカルレベルでは、ライフサイクル認識型退避がコンテキストセグメントの継続的な残存有用性を監視し、タスク関連性が失われた場合にのみコンテンツセグメントをオフロードする保守的なバッチターンスケジュールを適用する。孤立モードおよび連続モードの両方でのPinchBenchおよびClaw-Evalにおける実験により、TokenPilotは孤立モードで61%および56%、連続モードで61%および87%のコスト削減を達成しつつ、従来システムと同等の性能を維持することを示す。TokenPilotはLightMem2に統合されており、https://github.com/zjunlp/LightMem2 で入手可能である。
高级代理正在展现出作为自主工程师运作的潜力,这促使了对能够捕捉现实开发复杂性的评估基准的需求日益增长。此类环境通常同时涉及复杂代码和大规模数据(如文件系统)。然而,现有基准通常孤立地评估以代码为中心或以数据为中心的能力,与实际开发场景存在明显差距。本文通过引入CODA-BENCH来填补这一空白,这是首个在数据密集型环境中联合评估代码智能与数据智能的基准。我们基于Kaggle生态系统构建了一个数据密集型Linux沙箱(包含数百个数据集),代理必须主动探索复杂的文件层次结构以识别相关资源,并为数据驱动型分析任务生成代码。CODA-BENCH包含跨越31个社区的1,009个任务,每个任务环境平均包含980个文件,模拟了真实的数据规模与噪声。对先进代理的评估显示,即使性能最优的系统也难以有效整合数据发现与代码执行,成功率仅为61.1%。这些结果凸显了当前代理在数据密集型任务方面的能力存在显著差距,并为未来研究指明了有前景的方向。
長尺動画生成では、登場する被写体が様々なショット、視点、動き、シーン遷移にわたって一貫している必要がある。既存の時間的分解手法は、ショットごとに動画を生成することでスケーラビリティを向上させる。しかし、それらは主に次のショットの妥当な継続を最適化することに焦点を当てており、過去の記憶が同一性に重要な被写体の証拠を保持しているかを検証しない。その結果、生成が進むにつれて、繰り返し登場する被写体が薄められ、上書きされ、または忘れられる可能性がある。本論文では、被写体の保存を明示的な同一性基盤問題として扱う、被写体再構成誘導型フレームワークMementoを提案する。これは、被写体を忠実に保存するメモリバンクが、メモリのみからその被写体を再構成できるはずであるという前提に基づく。具体的には、Mementoは自己回帰的な次ショット生成とメモリベースの被写体再構成を同時に学習し、過去のメモリと全体のストーリーキャプションを用いて目標の外観を復元する。長期的な被写体の証拠と短期的な手がかりを分離するために、Mementoはデュアルクエリメモリ機構を導入する。一方のクエリは同一性に関連するメモリを取得し、もう一方は一貫した継続のために短期コンテキストのキーフレームを選択する。さらに、被写体認識型のシネマティックデータパイプラインが、一貫した代名詞のない被写体記述を通じて精密な再構成の教師信号を提供する。実験により、Mementoは長期的な被写体の一貫性、ショット間のコヒーレンス、視覚的品質において最先端の性能を達成することを示す。
視覚-言語-行動(VLA)ポリシーを新しいタスクに拡張するには、通常、タスク固有の遠隔操作デモンストレーションとタスクごとの微調整が必要であり、データ収集と計算の両面で適応コストが高くなる。本論文では、このターゲット側のタスクごとの適応コストを検索で代替できることを示す。我々の検索拡張型ポリシーは、ターゲットとなるエンボディメント(クエリ)とより安価なエンボディメント(プール、例:人間の手の動画)からのペアデモンストレーションを用いて一度だけ訓練され、その後凍結される。新しいタスクは、展開時にプール側のデモンストレーションを検索プールに追加することで追加される。凍結されたポリシーは、各制御ステップで検索された軌跡を条件として動作するため、新しいタスクはパラメータを更新するのではなく、データのインデックス化によって吸収される。微調整が必要となるのは、新しい未知のエンボディメントに対応する場合のみであり、新しいタスクごとではない。検索は、標準的なVLAポリシーを含む特定のバックボーンを超えてポリシーを改善するが、その効果は特にビデオ生成に基づく世界行動モデル(WAM)であるCosmos Policyにおいて顕著である。この設定では、検索が粗いタスクの進行を提供する一方、WAMの将来画像目的関数が追加の視覚的一貫性シグナルを提供し、検索条件付けられた行動を強化する。PushTでは、検索が再利用可能な高レベル動作事前分布を提供し、未知の目標角度へのクロスエンボディメント一般化を実現する方法を研究する。一方、RoboTwin 2.0では、未知のタスクにおいてクロスエンボディメントベースラインを上回る性能を示し、さらに実ロボット上での手法の実証も行う。
Webエージェントは長いインタラクション系列を通じて動作するが、既存のベンチマークは最終的な成功のみを評価し、プロセス情報をすべて破棄して改善への指針をほとんど提供しない。本研究では、Webエージェントのプロセスレベルの分析を行う。我々は、難易度が制御され、自動的な意味状態追跡を備えた1,800タスクインスタンスのベンチマークであるWebStepを導入する。各ウェブサイトは、GUIと並行して決定論的な意味的MDPを公開する。エージェントはインターフェース上で動作し、環境はバックグラウンドで高レベルの状態と遷移を記録し、手動によるアノテーションなしで詳細な分析を可能にする。意味的軌跡に基づき、まずプロセス指標が結果評価では見えない差異を明らかにすることを示す。成功率が31~33%の範囲に集中する3つのエージェントが、探索範囲と実行精度において乖離する。次に、スキルごとに分解することでこれらの差異の性質を特徴づけ、同一ウェブサイト内に隠された逆転したスキル別ランキングを明らかにする。例えば、Housingにおいて、OpenAI CUAはコミットアクションでQwen3.5を23.7%上回る一方、フィルタリングでは15.6%下回り、ドメイン内でも改善すべき具体的なスキルを特定する。分岐分析により、タスクを失敗に導く決定的なエラーをさらに特定し、このエラーがエージェント固有であり、共通ではないことを示す。最後に、これらの差異はタスクが難しくなるにつれて拡大する。簡単なタスクでは成功率は類似しているが、探索がより要求されるにつれて急激に乖離する。我々のプロセスレベルの分析は、Webエージェント評価に新たな道を開き、各エージェントをどこでどのように改善すべきかについて、詳細かつ実用的な洞察を提供する。
効率的でスケーラブルなエージェント型知能を実現するには、低レイテンシーの応答と強力な推論能力の両方を備え、かつ訓練、提供、展開が実用的なモデルが必要です。本報告書では、この課題に大規模に対処するために設計されたモデルファミリー、Ling-2.6とRing-2.6を紹介します。Ling-2.6は即時応答生成と出力トークンあたりの高い性能に最適化されており、一方Ring-2.6はより深い推論と高度なエージェントワークフローに特化しています。ゼロからの訓練ではなく、アーキテクチャ移行事前訓練と大規模事後訓練を通じて、Ling-2.0ベースモデルをアップグレードします。このアップグレードは、モデルアーキテクチャ、最適化目標、提供システム、エージェント訓練環境の統一的な共同設計に導かれ、モデル性能と展開効率の両方の改善を可能にします。アーキテクチャレベルでは、Lightning AttentionとMLAを統合したハイブリッド線形アテンション設計を導入し、長コンテキスト訓練とデコーディングの効率を向上させます。トークン効率をさらに高めるため、Evolutionary Chain-of-Thought、Linguistic Unit Policy Optimization、双方向選好アライメント、および最短正解応答蒸留を通じて、出力トークンあたりの性能を最適化します。エージェント能力については、Ring-2.6-1Tの大規模環境接地データでの安定した訓練を支援するように設計された強化学習フレームワークであるKPopを提案します。KPopは、コーディング、検索、ツール使用、ワークフロー実行にわたる非同期スケジューリングを通じて訓練効率を向上させ、複雑なエージェント環境相互作用からのスケーラブルな学習を可能にします。Ling-2.6とRing-2.6は、効率的でスケーラブルかつオープンなエージェントシステムへの実用的な道筋を提供します。実用的なエージェント型知能におけるさらなる研究開発を支援するため、2.6ファミリーのすべてのチェックポイントをオープンソースとして公開します。
LLMの進展に伴い、事後学習における強化学習(RL)は、総合的な能力を育成するために、多次元の報酬に依存することが増えている。この変化には、多様で潜在的に競合する目的を同時に最適化できる新しいアルゴリズムが必要である。この課題に対処するため、Group reward-Decoupled Policy Optimization(GDPO)などの既存手法では、全体スコアを独立した報酬グループに分解し、各グループ内でRL損失を個別に計算する。しかし、この戦略でも複数報酬間の競合が依然として発生する。すなわち、単一のロールアウトが特定の報酬次元では正のアドバンテージを生む一方、他の次元では負のアドバンテージを生じ、集約時に反対のシグナルが互いに打ち消し合い、RL学習効率をさらに阻害する。ゼロに近いアドバンテージを持つ非効果的なロールアウトをフィルタリングすることでRL学習効率を向上させるDynamic sAmpling Policy Optimization(DAPO)に着想を得て、我々はGroup-Dynamic reward-Decoupled Policy Optimization(GD^2PO)を提案する。具体的には、GD^2POは競合検知フィルタリング機構を採用し、報酬次元間で深刻な不一致が生じているロールアウトをマスキングする。競合するシグナルが互いに打ち消し合うのを防ぐことで、このマスキング戦略は効果的なRLアドバンテージの大きさを保存・増強し、学習効率を大幅に加速する。さらに、クエリレベルの再重み付けを導入し、各クエリの全体的な報酬コンセンサスに基づいて更新強度を動的に調整する。ツール呼び出しや人間の選好アライメントを含む様々な多次元報酬シナリオでの実験により、GD^2POが既存のベースラインを一貫して有意に上回ることを実証した。コードはhttps://github.com/Qwen-Applications/GD2POで公開されている。
我々は、Nemotron 3 Ultraを紹介する。これは、総パラメータ数5500億、アクティブパラメータ数550億の混合エキスパート型ハイブリッドMamba-Attention言語モデルである。我々は、Nemotron 3 Ultraを20兆テキストトークンで事前学習し、その後コンテキスト長を100万トークンに拡張し、教師ありファインチューニング(SFT)、強化学習(RL)、マルチ教師オンポリシー蒸留(MOPD)を用いてポストトレーニングを行った。Nemotron 3 Ultraは、これまでで最も高性能なモデルであり、LatentMoE、マルチトークン予測(MTP)、NVFP4事前学習、マルチ環境RLVR、MOPD、推論予算制御といった複数の主要技術を採用している。Nemotron 3 Ultraは、公開されている最先端のLLMと比較して最大約6倍の推論スループットを達成しつつ、同等の精度を実現している。最先端の精度、高い推論スループット、100万トークンのコンテキスト長により、Nemotron 3 Ultraは長時間実行される自律エージェントタスクに最適である。我々は、ベースモデル、ポストトレーニング済みモデル、量子化済みモデルのチェックポイント、およびトレーニングデータとレシピをHuggingFaceでオープンソースとして公開する。
マルチターンLLMサービングでは、対話履歴が蓄積され、各ターンおよび各ユーザーごとにKey-Value(KV)キャッシュが増大する。これにより、キャッシュはモデル重み自体を急速に上回り、メモリがスループットの律速要因となり、計算量はもはや制約とならない。アテンションヘッド間で不均一な予算を割り当てる非一様KV圧縮は、一様な方式よりもはるかに高い精度を維持するが、実用的ではない。現代のサービングスタックはヘッド間で同一のKV長を前提とするため、不均一性により解放されたメモリがページ断片化として閉じ込められ、プリフィル時間の最大25%を散在ページの回収に費やし、さらにGPUワークロードを歪めてデコード遅延を最大1.7倍に増大させたり、各デコードステップの15~20%を再計画に消費したりする。我々は、この不均一性が実行時に発見される必要はないことを観察する。ヘッドごとの保持特性は、入力に依存しないヘッド順位と、狭い範囲に制限されたヘッドごとの比率を持つという2段階の構造的規則性に従い、わずか50サンプルからオフラインで調整可能である。この洞察に基づき、我々はTangramを提案する。これは、従来システムが動的に処理していた問題を静的に解決するサービングフレームワークである。Budget Reservationは、スケジューリング時に各ヘッドの圧縮後のフットプリントを固定し、ページ回収を排除する。Ragged Pagingは、類似予算のヘッドを独立したページテーブルにクラスタリングし、断片化を回収可能なメモリに変換する。Ahead-of-Time Load Balancingは、実行時の計画を一切必要とせずに、バランスの取れたGPUパーティションを事前計算する。vLLM上に実装されたTangramは、既存の非一様圧縮手法のドロップイン基盤として機能し、フルKVベースラインと比較してエンドツーエンドのスループットを最大2.6倍向上させながら、それらの精度を維持する。実装はhttps://github.com/aiha-lab/TANGRAMで公開されている。
電話エージェントは、単に次の画面アクションを予測するだけでなく、実際のモバイルワークフローを完了することがますます期待されている。しかし、現在のモバイルエージェントに関する文献の多くは、依然としてエージェントを主にGUIコントローラとして評価しており、画面を観察し、タップやスワイプを実行し、ターゲットアプリの状態によってスコア付けされる。実際の電話使用タスクはより広範であり、アプリのGUI、デバイス側のコマンド、または構造化ツールをいつ使用するかを決定し、意図した副作用が実際に発生したという証拠を残すことが求められる。我々は、検証可能なモバイルワークフロー上で電話使用エージェントを研究するための混合アクションベンチマークおよび実行ハーネスであるPhoneHarnessを紹介する。PhoneHarnessは、GUI、CLI、およびホスト側ツールアクションにわたるデバイス側エージェントループを実行し、決定論的なアクションルーティングと制限付きGUI委任および監査可能な実行トレースを組み合わせる。そのベンチマークであるPhoneHarness Benchは、エージェントがもっともらしい最終回答を生成するかどうかだけでなく、観察可能な副作用を伴うタスクを完了するかどうかを評価する。注釈付き評価分割において、PhoneHarnessは75.0%の合格率を達成し、最も強力な非PhoneHarness設定を12.9パーセントポイント上回った。したがって、PhoneHarnessとPhoneHarness Benchは、明確かつ相互依存的役割を果たす。すなわち、ハーネスは混合電話ワークフローを実行可能にし、ベンチマークはエージェントがそのハーネスを信頼性高く安全に使用できるかを測定する。我々の発見は、信頼性の高い電話自動化が、視覚的なGUI制御だけでなく、アクションサーフェスルーティングと検証可能な実行に依存することを示唆している。
統一型マルチモーダルモデル(UMMs)は、理解と生成を単一のフレームワークに統合する汎用マルチモーダル知能の重要な方向性として浮上している。しかし、既存のUMMsは顕著な課題に直面している:(1)視覚的理解タスクと生成タスクの間の本質的な学習競合により、両タスクにおいて最適ではないモデリングを引き起こすこと、(2)理解と生成の視覚空間が異なることでスケーラビリティが阻害されること、(3)テキスト-画像の理解と生成の二重性を無視し、タスク固有のデータに過度に依存すること。これらの課題に対処するため、我々はUniDDTを提案する。これはノイズ付きViTエンコーダとLLMを活用して、視覚生成・理解タスクのための意味的エンコーディングを統合し、同時に別個の拡散デコーダを用いて拡散デコーディングをテキストデコーディングから分離するものである。このノイズ付きViTエンコーダにより、UniDDTは潜在空間を統一された視覚表現として利用することが可能となり、理解タスクと生成タスクの間のシームレスな互換性を実現する。これにより、生成タスク内のスケーラビリティと理解タスク内の意味表現力のバランスを取ることができる。また、同一の画像-テキストペアから二重データ構造を構築し、生成データと理解データの間の相互依存性を促進することで、それらの内在する二重性を活用する。大規模な実験により、UniDDTは強化された意味的一貫性とスケーラビリティを備えたマルチモーダル理解と生成の効果的な統合を達成することが示された。視覚生成タスクにおいて、我々のUniDDTはGenEvalスコア0.87、DPG総合スコア86.9を達成した。マルチモーダル理解タスクにおいては、MMEベンチマークで1699.5点、SEEDbenchで総合スコア76.5を達成している。
我々は、ビデオ埋め込みのための大規模ベンチマークであるMassive Video Embedding Benchmark (MVEB)を紹介する。MVEBは、分類、ゼロショット分類、クラスタリング、ペア分類、検索、ビデオ中心の質問応答にわたる23タスクから構成される。33のモデルを評価した結果、単一のモデルが全てを支配するわけではないことが判明した。MLLMベースの埋め込みは、分類、クラスタリング、ペア分類、QAにおいて優位を示し、マルチモーダルバインディングは検索とゼロショット分類でリードする。一方、対照的適応を伴わない生成的MLLMは、クロスモーダルタスクで性能が低下する。ビデオのみと音声+ビデオのペア評価から、音声の寄与はデータセットアノテーションの出所に依存することが明らかになった。すなわち、ラベルが両モダリティから生成された場合には音声が有効であるが、視覚のみから生成された場合には有害であり、この6ポイントの差はモデルファミリー間で一貫している。MVEBは、184タスクのプールであるMVEB+から派生し、タスクの多様性を維持しつつ評価コストを削減するよう設計されている。これはMTEBエコシステムに統合され、テキスト、画像、音声、ビデオにわたる統一評価を可能にする。我々はMVEBおよび全184タスクを、コードとリーダーボードと共にhttps://github.com/embeddings-benchmark/mtebで公開する。
事前学習済みVLA方策をオンライン強化学習で微調整する場合、各ロールアウトエピソードからは単一の二値結果(成功または失敗)しか得られないが、アクター更新には各遷移に対する教師信号が必要となる。既存手法では、この疎な結果を単一のスカラー報酬またはアドバンテージ信号に還元することが多く、これにより異なる種類の遷移レベルのフィードバックが混同され、基本的なタスク成功が達成可能になると限定的な指針しか与えられない。第一に、単一スカラー信号は生存性と効率性という二つの目的を混同する。基本的成功が達成されると、二値ラベルは効率的な完了と遅い完了を区別する勾配を提供しなくなる。第二に、実環境でのロールアウトは自律セグメントと介入セグメントが混在しており、これらの境界をまたいでエピソード結果を単純に割り当てると、誤ったクレジット割り当てが生じる。これらの問題に対処するため、本論文では階層的アドバンテージ重み付き行動クローニング(HABC)を提案する。これは、異なるデータサブセットに対してこれら二つの目的のための別々の批評家ヘッドを訓練し、その出力を状態適応型バランスで結合する。状態適応型ゲートg_tは、それらの一段階アドバンテージを統合し、成功が不確かな場合は生存性を優先し、生存性が高い場合にのみ効率性へと移行し、その結果をアクター損失に対する各遷移の重みに変換する。介入認識型クレジット割り当ては、結果ラベルを現在の方策によって実行されたセグメントにさらに制限することで、介入境界を越えた教師信号の漏洩を防ぐ。3つの接触を伴う両腕協調タスクにおける実ロボット実験では、HABCは教師あり微調整(SFT)ベースラインの36%、44%、12%から、それぞれ92%、88%、38%へと成功率を向上させた。
スパースオートエンコーダ(SAE)はニューラルネットワーク表現の解釈に広く用いられているが、その有用性は学習された特徴がトレーニング実行間で再現可能かどうかに依存する。我々はこの問題を特徴安定性を通じて研究する。すなわち、各SAE特徴について、独立に訓練されたSAEに類似した特徴が再現される確率を推定する。これにより、安定な特徴と不安定な特徴を分離する、スケーラブルな特徴ごとのシグナルが得られる。シード、モデル、層、辞書サイズ、SAEのバリエーションにわたる大規模研究において、顕著な機能的不均衡が確認された。安定な特徴は再構築および予測に関連するシグナルの大部分を担う一方、不安定な特徴は限界的影響が弱く、活性化統計と自動説明の両方において低頻度の表層トリガーが支配的である。幾何学的には、不安定な特徴は個々には非再現性であるが、再現可能な低ランク部分空間に集中しており、シード依存性は純粋なノイズよりも、活性化空間の共有領域内における基底の曖昧性を反映することが示唆される。制御された合成モデルによりこのメカニズムが明示的に示され、低ランクの真の特徴が部分空間レベルでは復元可能である一方、個々のSAE潜在変数としてはシード間で識別不可能であることが確認される。最後に、独自のクロスシード特徴をプールすることで、この設定において説明された分散を保持しつつ、より安定なSAEを構築する。これらの結果は総合的に、不安定な特徴が単なる失敗した潜在変数やノイズの多い潜在変数ではなく、個々の機能的影響は弱いものの、標準的なSAEがシード間で異なる形で解決する再現可能な低次元構造を反映していることを示している。
AIの進歩は、より少ない仮定に依存する手法によって主に推進されてきた。計算資源とデータ量が増加するにつれ、弱い帰納的バイアスを持つアプローチは、強い仮定を持つものよりも一般的に優れた性能を示す。この傾向は特に視覚表現学習の分野に顕著であり、教師あり学習が支配的だった時代から、弱教師あり学習、そして人間によるラベルを必要としない自己教師あり学習の現在の広範な成功へと移行してきた。しかし、現代の自己教師あり学習手法でさえ、拡張、マスキング、またはクロッピングといった強い帰納的バイアスに依然として依存している。この傾向が続くならば、これらの残されたバイアスすら大規模モデルにおいてボトルネックとなるはずであり、我々の実験はこれを確認している。すなわち、帰納的バイアスの最適な強度はデータが増加するにつれて減少する。このことは、より少ない仮定に依存するアプローチの探求を動機づける。この目的のために、我々はTemporal Difference in Vision(TDV)を導入する。これは動画からの自己教師あり学習のための新しいパラダイムであり、既存の帰納的バイアスを回避し、代わりに「過去が未来を引き起こす」という因果的仮定に依存する。TDVは、画像エンコーダと動作エンコーダを同時に訓練することで機能し、現在のフレームの表現に符号化された動作を加えることで次のフレームの表現と等しくなるようにする。強い帰納的バイアスを一切活用しないにもかかわらず、TDVは高密度な空間的タスクにおいて最先端の手法に匹敵し、強い仮定を必要としない表現学習の基盤を築く。
既存の動画を新たなカメラ視点から再レンダリングするには、各フレームにわたってシーンの外観とダイナミクスを保持しつつ、規定のカメラ軌道に沿った出力を生成する必要がある。既存手法は、フレーム単位のポーズ埋め込み、ノイズを含む点群レンダリング、あるいは暗黙的な学習対応に依存しており、ソース画素とターゲット画素との間に明示的かつ時間的に連続した対応関係を提供するものはない。本稿では、ペア化された3D点トラック、すなわちシーン点のソースおよびターゲットカメラ視点への投影からなる疎な軌跡に基づいて、ビデオ拡散トランスフォーマーを条件付けするTrack2Viewを提案する。これらのトラックは、構成上時間的に連続した明示的な時空間対応を提供し、どのようなコンテンツがいつどこに現れるべきかを符号化する。Track2Viewの中核は、パラメータフリーな幾何学的操作と学習された時間的集約を通じて、ソース視点からターゲット視点へ視覚的文脈を転送するデュアルビュートラック条件付け器であり、特定の動作を記憶することなく任意のカメラ軌道への一般化を保証する。さらに、時間的に連結されたマルチカメラ視点ペア上で3D点トラッカーを実行することにより、1対1のトラック対応を抽出するデータキュレーションパイプラインを導入する。静的および動的シーンを含む400動画のベンチマークにおいて、Track2Viewは視覚品質、視点同期、カメラ精度のすべてで最先端の成果を達成し、主要ベースラインと比較して回転誤差を30-65%、並進誤差を61-72%削減する。プロジェクトページはこちらのURLで公開されている:https://qjizhi.github.io/track2view
高度な推論には通常、Chain-of-Thoughtプロンプトが必要であり、これは正確であるものの、許容できないレイテンシとテスト時における多大な推論コストを伴う。標準的な代替手法である小規模モデルのファインチューニングは、解釈可能性を犠牲にすることが多く、同時に相当なリソースと運用のオーバーヘッドをもたらす。これらの制限に対処するため、我々はプロンプトレベルの蒸留(PLD)を導入する。教師モデルから明示的な推論パターンを抽出し、それらを生徒モデルのシステムプロンプト向けの表現豊かな指示の構造化リストに整理する。Gemma-3 4Bを用いた評価では、PLDはStereoSetにおけるMacro F1スコアを57%から90.0%に、Contract-NLIでは67%から83%に改善し、LogiQAの正解率を70%に向上させた。Mistral Small 3.1でも同様の結果が得られ、クロスアーキテクチャの一般化可能性を示しており、これらのコンパクトなモデルが無視できるレイテンシオーバーヘッドで最先端の性能に匹敵することを可能にしている。これらの表現豊かな指示は意思決定プロセスを透明にし、論理の完全な人間による検証を可能にするため、本手法は法律、金融、コンテンツモデレーションなどの規制対象産業や、大量処理のユースケース、エッジデバイスに理想的である。
拡散トランスフォーマーは顕著な生成能力を示しているが、そのノイズ除去軌跡に沿って計算される豊かな知覚表現は、コンテンツがレンダリングされると破棄される。本稿では、凍結された拡散トランスフォーマーを、軽量なデコーダヘッドを用いて画像と任意の組み合わせの密な知覚モダリティを同時に生成するマルチモーダル生成システムに変換するフレームワークMMDiffを提案する。我々の中心的な発見は、知覚情報がノイズ除去軌跡に沿って時間的に分散しており、空間的に変動する集約重みを用いた複数タイムステップの特徴融合が不可欠であり、単一タイムステップの抽出と比較してセマンティックセグメンテーションの結果を最大28.7% mIoU向上させるという点である。さらに、解釈可能な空間的ガイダンスのために概念駆動型注意抽出を採用し、凍結された拡散特徴がDINOv3などの最先端エンコーダと競合し、かつ相補的であることを示す。凍結されたバックボーン上で軽量なデコーダヘッドのみを訓練することにより、セマンティックセグメンテーション、顕著物体検出、深度推定において強力な性能を達成し、このフレームワークが大規模な合成データ生成を効果的に可能にすることを実証する。
AIインデックスレポート第9版へようこそ。人工知能(AI)の急速な進歩が続く中、その周辺に構築されるシステムがそれに追いつけるかどうかが課題となっています。AIの影響を追跡するために必要なガバナンス枠組み、評価手法、教育システム、データ基盤は、テクノロジーそのもののペースに追いつくのに苦慮しています。AIが実現できることと、それを管理するための準備態勢との間にあるこのギャップは、今年の報告書の全章にわたって浮き彫りにされています。新版では、AIが推論、安全性、現実世界のタスク実行において、より野心的に評価されるようになった経緯と、その測定結果への依存がますます困難になっている理由を追跡しています。また、生成AIの経済的価値に関する新たな推定値と、その労働市場への影響を示す新たなエビデンス、AI主権に関する分析枠組み、そしてシュミット・サイエンシズとの協力で開発された科学に関する章も収録されています。さらに、AIの科学分野と医学分野における影響の拡大を反映し、本報告書では初めて、AI in Science(科学におけるAI)とAI in Medicine(医学におけるAI)の独立した章を設けています。
編集操作下での一貫した動画生成には持続性が必要である。編集によってシーンの外観やレイアウトが変更された後も、後続の生成結果が時間的および視点的に一貫性を保つことが求められる。しかし、既存のメモリ設計では、保存されたコンテキストが古くなったり無効になったりするため、このような変更後の長期的な一貫性を維持することが困難である。この問題に対処するため、我々はPermaVidを提案する。これは、空間コンテキストを意味的外観と幾何学的構造に分離するマルチモーダルコンテキストメモリに基づく新しいフレームワークであり、編集認識型のメモリ更新および検索戦略を組み合わせることで、メモリの進化を後続の観測と整合させる。具体的には、2つの相補的なメモリバンクを開発する。視覚的特徴を捉えつつ幾何学的情報を暗黙的に符号化するRGBコンテキストメモリと、意味から分離された幾何学的構造のみを保持する深度コンテキストメモリである。この設計に基づき、混合モダリティのメモリコンテキストから抽出された参照条件下でマルチモーダル特徴融合を実行する、メモリ誘導型動画生成モデルを導入する。実験により、本手法は編集後も長期的な意味的・構造的一貫性を強力に維持し、最先端手法を大幅に上回ることを実証する。
スパース報酬強化学習は、LLMの推論能力を向上させる標準的な手法となっているが、その成功はベースモデルに存在するカバレッジに決定的に依存する。実際には、モデルはしばしば、分解、検証、自己修正などの有用なプリミティブスキルを教えるために厳選された推論トレースを用いた中間訓練によって、RLの準備が行われる。効果的ではあるものの、この戦略ではモデルが何を学習すべきかを人手で指定する必要があり、より困難な問題(これらのスキルを組み合わせてより広範な解法戦略にする必要がある問題)に対して、そのようなプリミティブカバレッジで十分かどうかは不明である。本研究では、より自動化されたアプローチ、すなわち人間が作成した大規模な質問応答データを用いたRLベースの中間訓練を検討する。我々の手法であるExpRLは、参照解を模倣すべき目標として扱うのではなく、報酬スキャフォールドとして利用する。すなわち、参照解は方策から隠蔽され、オン方策推論トレースを評価するための問題固有の採点ルーブリックを構築するためにのみ使用される。方策は元の問題プロンプトからサンプリングを行い、LLM判定器がサンプリングされた推論トレースを参照解と比較し、結果レベルまたはプロセスレベルの密な報酬を割り当てる。これにより、ExpRLは部分的な進捗、有用な中間的な削減、そして最終回答がスパースな報酬ではしばしば適切に重み付けできない生産的な推論行動を強化することができる。難しい数学的推論タスクにおいて、ExpRLはSFT、スパース報酬GRPO、自己蒸留よりも強力なRLプライミングを実現し、その後のスパース報酬RLのためのより優れた初期化を提供する。さらに、混合ドメインの追加実験は、ExpRLが元の数学のみの設定を超えて拡張可能であることを示唆している。
大規模言語モデル(LLM)は、生成レコメンデーション(GR)の基盤としてますます採用されており、事前学習された世界知識へのアクセスを提供することが期待されている。しかし、この知識をGRのために確実に呼び出す方法については、まだ十分に理解されていない。主要な障害の一つは、LLMベースのGRが通常、セマンティックID(SID)を用いてアイテムを表現する点にある。これらのトークンはLLMの事前学習時には見られないため、LLMの自然言語推論インターフェースを阻害する。既存の手法では、SIDを接地し明示的な根拠を引き出す高コストな多段階パイプラインでこれに対処しているが、各段階がいつ、なぜ必要であるかについての限定的な洞察しか提供していない。本研究では、LLMベースGRのための明示的推論訓練パイプラインを体系的に分解し、以下の3つの主要な制約を明らかにする:世界知識の言語化の弱体化、SIDと自然語言語トークンの埋め込み空間間のミスアライメント、および根拠品質への感度であり、これらすべてが明示的推論性能を損なう。これらの問題を回避するために、GRに特化した軽量な暗黙的推論パラダイムであるPauseRecを提案する。PauseRecは非常に実用的であり、高コストな推論トレースの取得や推論アライメント訓練を回避できるため、以下の多くの利点をもたらす:(1) 標準的な明示的CoT手法と比較して最大6.22%の性能向上、(2) GPU時間で最大65%の訓練コスト削減、(3) 最大71.3%の推論高速化。これらの結果は、PauseRecが明示的根拠生成に代わる軽量な選択肢として位置づけられ、より効果的かつ効率的なLLMベースGRを実現することを示している。
視覚言語行動モデル(VLA)は大規模な視覚言語事前学習を活用して意味的なロボット制御を実現するが、ロボットの動作がシーンをどのように変化させるかについて明示的な予見を欠くことが多い。World-Action Model(WAM)は、予測された未来に基づいてポリシーを条件付けすることでこの制限に対処するが、既存の手法は通常、画素レベルの冗長性が大きい計算コストの高いビデオ生成に依存している。我々はLaWAM(潜在世界行動モデル)を提案する。これは、再構成された将来のビデオではなく、コンパクトな潜在視覚サブゴールを通じて、予測ダイナミクスをロボットポリシーに曝露する。LaWAMの中核は、潜在動作条件付き潜在世界モデル(LaWM)である。LaWMは、事前学習された視覚基盤モデルの潜在空間において潜在動作モデルを訓練し、その前方デコーダを再利用して将来の観測特徴を予測しシーンの進化を捉えることで得られる。そしてLaWAMは、これらの予測された潜在視覚サブゴールに動作生成を条件付けすることで、ダイナミクスを考慮したロボット制御を実現する。LaWAMは、LIBERO(成功率98.6%)、RoboTwin(成功率91.22%)、および実世界の操作タスクにおいて、低レイテンシ推論を維持しながら、最先端あるいは競争力のある成功率を達成する。LaWAMはアクションチャンク予測あたり187ミリ秒で動作し、ピクセル空間のWAMと比較して最大24倍の壁時計レイテンシ低減を実現する。
人間は日常的な相互作用を通じて物体の物理的性質を自然に理解するが、弾性材料や布地などの複雑な変形力学を正確に予測することは、コンピュータビジョンやロボティクスにおいて依然として大きな課題である。本稿では、一般化可能な事前知識を用いて、自己中心視点のRGBビデオのみから変形可能な物理デジタルツインを構築するフレームワーク「EgoPhys」を提案する。EgoPhysは既存手法の限界を克服し、物体ごとの逆物理解法をコンパクトなコードブックに蒸留することで、自己中心視点ビデオからの制御可能な変形可能デジタルツイン生成を実現する。これにより、テスト時にバネごとの最適化を必要とせず、未観測の物体に対する密なバネ剛性場の予測が可能となる。多様な自己中心視点の相互作用から得られた一般化可能な事前知識で学習されたEgoPhysは、再構成、未来予測、ゼロショット汎化においてベースラインを上回る性能を示す。学習と評価を支援するため、多様な変形可能物体、シーン、操作スタイルを網羅した自己中心視点の相互作用データセットを収集した。また、実際のxArm6ロボットにEgoPhysを適用し、単一の自己中心視点による人間のプレイビデオから初期化されたデジタルツインが、内部世界表現として機能し、変形可能物体の計画を支援することを実証する。これにより、自己中心視点のRGB観測が、現実からシミュレーションへのパイプラインへのスケーラブルな経路となることが示される。
標準的な正確性ベンチマークは、大規模言語モデル(LLM)がどれだけ正確に正答に近づくかを検証するために設計されているが、その正答がもっともらしい反論によって挑戦された場合に、モデルが正答を維持できるかどうかをテストするのには適していない。我々は、回答の安定性を評価するための制御されたプロトコルを導入する。すなわち、モデルが多肢選択問題に正答した後、誤った選択肢に対する一貫性のある議論でモデルの回答に挑戦し、モデルが回答を変更するかどうかを測定する。この設定は、a) 議論内容を露骨な社会的圧力から切り離し、b) 議論の長さ、自己帰属、および異なるモデルに由来する情報源を変化させる。7つの最先端モデルと57のMMLU科目にわたって、フリップ率は17.5%から97.3%の範囲を示し、正確性指標のみでは捉えられない大きな安定性の差異が明らかになった。自己帰属は一貫してフリップ率を上昇させることがわかった(平均+7.1パーセントポイント、最大+18.7パーセントポイント)。また、誤答の議論をモデル間でプールし、質問ごとに最も効果的なものを選択することで、単一の情報源モデルに依存するよりも強力な敵対的チャレンジが得られる。さらに、最大フリップを誘発する厳選されたチャレンジセットであるMaxFlipを構築し、標準的な自己生成チャレンジと比較して最大+23.6パーセントポイントのフリップ増加を達成した。我々は、標準的な正確性ベンチマークと並行して安定性評価をサポートするために、プロトコル、チャレンジ記録、およびMaxFlipを公開する。資料はhttps://github.com/nafisenik/WhoFlipsおよびhttps://hf.co/datasets/nafisehNik/WhoFlipsで入手可能である。
コンテンツモデレーションシステムは、標準的な正確性指標において高いスコアを達成しながらも、その誤りが、そうでなければ分離されたコミュニティを結びつける少数のユーザーに集中する場合、実際に害を引き起こす可能性がある。我々は、コミュニティ構造を持つネットワーク上のN=240の学習エージェントがそれぞれ無害、生産的、または危険なコンテンツを投稿し、規制機関がノイズの多い分類器によってフラグ付けされたものを削除またはペナルティを課すエージェントベースモデルにおいてこれを示す。ノイズが変化しても全体的な有用性はほとんど変動せず(一元配置分散分析、p=0.96)、集計的な指標では何も問題がないように見える。損害は代わりにこれらのブリッジユーザーに集中し、彼らの有用な投稿は誤って抑制され、危険な投稿は誤って放置される。これら二つの誤りを執行コストとは別に価格付けするガバナンス損失(L_gov)は、偽陽性の多いノイズの下で2倍以上になる。集計的な正確性は誰が害を被っているかを隠蔽し、監査すべき安価な量はユーザーが持つ接続数(次数)であり、これはブリッジを定義する媒介性のほぼ完全な代理指標となる(r=0.96)。
人間は物体を難なく把握できるが、多指ロボットはこのような汎用性には遠く及ばない。我々は、ロボット把持データの最も自然な源泉は、毎日何千もの物体を拾い上げる人間にあると主張する。本稿では、ステレオカメラで撮影された単一のRGB-D画像から、ユーザーが指定した任意の物体に対する多様な人間の把持を生成するフローマッチングモデルであるHUGを提案する。スマートグラスを用いて、まず1M-HUGsを収集した。これは、41棟の建物にわたる6,707個の物体インスタンスを含む100万フレーム(27.8時間)からなる、人間の把持の自己中心視点データセットである。次に、自然な人間の把持の分布をモデル化するために、我々の新しいフローマッチングモデルはRGBと深度観測を融合し、手首の並進、手首の回転、MANO手姿勢によってパラメータ化された把持を出力する。予測された把持は様々なロボットハンドにリターゲット可能であり、日常シーンでのゼロショット把持を実現する。評価を標準化するために、我々は5つの幾何学的カテゴリと様々なサイズからなる90個の未見物体を含み、メートルスケールの3Dメッシュを備えた新しいシミュレーションベンチマークHUG-Benchを構築した。HUGを実世界で評価するため、複数のステレオカメラ、ロボット実施形態、家庭環境においてHUG-Benchの30物体テストセットを用いた。HUGは、我々の難易度の高い物体セットにおいて、最先端の把持ベースラインを+23%および+34%上回った。コード、データ、ベンチマーク、チェックポイント、インタラクティブデモはウェブサイトで公開している: https://grasping.io/
Polymarketは、著名な予測市場プラットフォームとして、またDeFiで最も急成長するアプリケーションの1つとして登場した。低レイテンシーな取引を実現するために、オフチェーンで注文をマッチングし、最終執行のためにオンチェーンで決済するハイブリッドアーキテクチャを採用している。この設計は、我々がGhost Fillsと呼ぶ一貫性のギャップを生み出す。オフチェーンで正常にマッチングされた注文が、後のオンチェーン決済で失敗する可能性がある。このギャップのセキュリティへの影響を理解するために、我々はGHOSTHUNTERを構築してそのような失敗した決済を調査する。GHOSTHUNTERはオンチェーントレースからそれらを再構築し、具体的な攻撃パターンに属性付ける。1,952,440件のリバートされたマッチ注文トランザクションにわたって、攻撃者がマッチングと決済の間の時間ギャップを悪用して、オンチェーンで確定される前に既にマッチングされた注文を無効化していることが判明した。さらに、これらのインシデントから、nonce bump、balance drain、allowance revoke、proxy trapという4つの攻撃ベクトルを特定した。これらは35の進化するバリアントを通じて実現されている。これらのベクトルにより、攻撃者は980,133件の約定済み注文を選択的にリバートでき、リスクフリーな予測、アービトラージボットのハンティング、流動性報酬の操作が可能となり、少なくとも149万ドルの利益を実現している。これにより、17.8億ドルがリスクにさらされ、オペレーターによって217万POL(約21万2千ドル)が支払われている。ピーク時には、全約定注文の24.3%以上がリバートされ、事実上のDoS攻撃を引き起こした。また、欠陥のあるコントラクトから派生したコードが、10のチェーンにわたる167の独立したコントラクトに依然として存在し、少なくとも2300万ドルのユーザー資金を保持しており、影響がPolymarketを超えて拡大していることも判明した。我々は影響を受ける関係者に証拠を開示し、この問題は部分的に緩和されている。
我々は、テキストから音楽を生成するためのオープンでインスタンスレベルのペアワイズ報酬モデルであるTuneJuryを紹介する。TuneJuryは、テキストプロンプトと音声クリップから音楽の嗜好スコアを予測する。公開されたチェックポイントは、アリーナ形式(A対B)の投票、メトリックアラインメントの嗜好ペア、クラウドソーシングによるペアワイズ比較、専門家による美的評価をカバーする公開の人間嗜好ラベルを用いて学習されている。2つのクリップ間の予測スコア差は、保持されたテスト分割において良好に較正されており、単純なスコア閾値を介したデータフィルタリングをサポートする。TuneJuryは、保持されたテストペアと分布外のベンチマークの両方に汎化し、後者では先行ベースラインと競争力のある性能を維持する。学習後にリリースされた生成器に対しては、アンカー較正を導入する。これは事後的な、システムごとのBradley-Terry較正であり、ゼロからの再学習よりもはるかに優れたデータ効率で一致を回復する。同一の凍結された報酬は、推論時のベスト・オブ・N選択、DITTOスタイルの潜在変数最適化、専門家反復による事後学習という3つの下流アプリケーションにおいて、一貫した報酬軸での改善を推進する。TuneJuryはhttps://github.com/yonghyunk1m/TuneJuryで入手可能である。
機械テキスト検出器の開発においてはかなりの進展が見られたものの、機械テキストが検出を逃れるために容易に操作されうることから、この問題は本質的に解決不可能であるとの見解が示されている。本研究では、こうした回避戦略の限界を探る。我々は、プロンプトエンジニアリングから検出器誘導型最適化に至る現在の攻撃が標準的な検出器の性能を効果的に低下させ得る一方で、機械テキストの根底にある文体上の「指紋」を消去することはできないことを実証する。文体特徴空間を利用する数ショット検出器は、これらの回避試行に対して頑健であり、検出を防止するために明示的に調整されたモデルからのサンプルであっても確実に検出することを示す。このことから、文体は機械検出攻撃に対する普遍的な防御策となるのかという疑問が生じる。我々は、検出不可能性と特定の人間の文体への忠実性を同時に最適化する新たな言い換え手法を導入することで、その答えが「否」であることを実証する。先行手法とは異なり、この攻撃は文体を利用するものを含むすべての対象検出器を効果的に回避することを示す。しかしながら、この回避は絶対的なものではないことがわかる。分析に利用可能な文書数が増加するにつれて、人間と機械の分布は再び区別可能となる。全体として、我々の知見は、信頼性の高い機械テキスト検出には単一文書分析から複数文書分析への移行が必要であることを示唆している。