HuggingFace Daily Papers

日刊論文

翻訳付きの日次キュレーションされたAI研究論文

日付を選択

22 papers found

AREX: 深層研究のための再帰的自己改善エージェントに向けて
AREX: Towards a Recursively Self-Improving Agent for Deep Research

Jul 23

ByShuqi Lu, Chaofan Li, Kun Luo, Zhang Zhang, Hui Wang, Hongwang Xiao, Zheng Liu, Lei Xiong, Jiahao Wang, Sen Wang, Xiyan Jiang, Wanli Li, Yuyang Hu, Hongjin Qian, Bingyu Yan, Ziyi Xia, Yingxia Shao, Kang Liu, Zhicheng Dou, Di He, Chaozhuo Li, Qiwei Ye, Zhongyuan Wang, Zheng Liu

116

深層リサーチでは、複数の制約を同時に満たす解をエージェントが見つける必要がある。そのような解の発見にはコストがかかる一方、候補解の検証は多くの場合、制約ごとの扱いやすいチェックに分解できる。この発見－検証の非対称性は、リサーチエージェントが単に検索時間を延ばす以上に、中間結果を検証し、部分的に検証済みの状態を利用してその後の改良を導くことで、現在の解を再帰的に改善すべきであることを示唆している。本稿では、再帰的自己改善（RSI）を行う深層リサーチエージェントのファミリーであるAREXを紹介する。AREXは、証拠を収集して暫定的な解答を構築する内部リサーチループと、解答を制約ごとに監査し、未解決の主張を特定し、対象を絞ったフォローアップリサーチを開始する外部自己改善ループを交互に実行する。長期間にわたるRSIを持続するため、AREXは自律的なコンテキスト更新ツールを学習する。このツールは、増大する相互作用履歴を、検証済みの証拠と未解決の制約を保持するコンパクトな改善状態に圧縮し、外部モデルに依存しない。我々はAREXを、検証済みの合成タスクと高品質な軌跡を用いて、エージェント的ミッドトレーニングと長期強化学習により訓練する。長期学習における最終報酬の疎らさを緩和するため、決定的な証拠が獲得されるか、誤った研究方向が修正される重要なステップを強調する。我々は高密度の4Bモデルと122B-A10Bの混合エキスパートモデルを実装した。BrowseComp、WideSearch、DeepSearchQA、Humanity's Last Exam（HLE）、その他の推論およびツール使用ベンチマークにおいて、AREXは同等規模のベースラインを大幅に上回り、より多くの活性化パラメータを使用するモデルと競合する性能を示す。

ReferTrack: 身体化視覚追跡のための参照追跡手法
ReferTrack: Referring Then Tracking for Embodied Visual Tracking

Jul 22

ByHanjing Ye, Tianle Zeng, Jiazhao Zhang, Shaoan Wang, Zibo Zhang, Weisi Situ, Yuchen Zhou, Yonggen Ling, Hong Zhang

身体化視覚追跡（EVT）は、移動ロボットが機体内蔵の視覚のみを用いて、自然言語で指定された特定の対象を継続的に追跡することを要求する。近年の視覚言語行動（VLA）ポリシーは、対象識別と軌道計画を統合するが、その思考連鎖（CoT）推論は、多くの場合、抽象的な空間潜在変数上で動作し、教師が困難であり、明示的な画像空間検出との対応が弱い。この問題に対処するため、我々はReferTrackを導入する。これは、単一の前方カメラを用いてEVTを接地する「参照してから追跡する」パラダイムである。本モデルは、まずインデックス化されたバウンディングボックス群から対象を選択し、次にこの画像接地された決定に基づいて追跡ウェイポイントをデコードする。時間経過に伴う対象動作手がかりを保持するため、ReferTrackは以前に選択されたバウンディングボックスのスライディングウィンドウキューを維持し、その幾何学的特徴を、時間視点バウンディングボックス指標（TVBI）トークンを介して視覚履歴に注入する。さらに、カスタムのRefer-QAデータセットによる共学習により対象識別を強化する。EVT-Benchにおいて、ReferTrackは単一対象、妨害存在、曖昧性追跡の各分割において、それぞれ89.4%、73.3%、74.1%の成功率で最先端の単一視点性能を達成し、識別重視タスクでは複数の複数カメラベースラインと同等以上である。最後に、脚ロボットおよび人型ロボットへの実世界展開により、堅牢なシミュレーション実環境転送能力を検証する。コードは https://github.com/MedlarTea/referTrack で入手可能である。

K12-KGraph: カリキュラム準拠の知識グラフ - 教育用LLMのベンチマークと訓練のための
K12-KGraph: A Curriculum-Aligned Knowledge Graph for Benchmarking and Training Educational LLMs

Jul 23

ByHao Liang, Qihan Lin, Zhaoyang Han, Xiaochen Ma, Zhen Hao Wong, Meiyi Qiang, Linzhuang Sun, Wentao Zhang

大規模言語モデルはK-12教育においてますます活用されているが、既存のベンチマークは主に試験問題の解答能力を評価するものであり、カリキュラム知識がどのように構造化され視覚的に提示されるかを理解する能力は評価していない。我々はこの能力を「カリキュラム認知」と呼ぶ。これには、前提条件の連鎖、概念の分類体系、実験と概念の関連、教育的な順序付け、視覚的基盤付けが含まれる。我々はK12-KGraphを導入する。これは、小学校、中学校、高校向けの数学、物理、化学、生物学の公式な人民教育出版社の教科書から抽出された、カリキュラムに沿った知識グラフである。このグラフは9種類のノードタイプと14種類のリレーションタイプを含み、カリキュラム構造と視覚的基盤付けを網羅している。このグラフから、我々はK12-Benchを導出する。これは23,640問の多肢選択式ベンチマークであり、Ground、Prereq、Neighbor、Evidence、Locateの5つのタスクファミリーを含む。さらに、7,335サンプルからなるグラフ誘導型の教師ありファインチューニングコーパスK12-Trainを構築する。このコーパスには2,267件のテキストのみのQAペアと5,068件のマルチモーダルVQAペアが含まれる。K12-Benchにおいて、Gemini-3-Flashは57%の完全一致率しか達成できず、Gemma-4-31B-ITは46%に留まり、PrereqとNeighborが最も難しいタスクである。我々の訓練実験は、ドメイン固有の教師信号がこのギャップを縮小できることを示している。2,300サンプルという同等の予算の下で、K12-Train-Textは、GaokaoBenchとEduEvalにおいて、8つの主流の指示チューニングコーパスの同等サイズのサブセットを一貫して上回る。視覚言語モデルに関しては、K12-Train-Fullは、比較したすべての訓練構成の中で、Gaokao-MM、MDK12-medium、K12Vistaにおいて最良の総合結果を達成している。これは、完全なDataFlowおよびWizardLMベースラインよりも少ないサンプル数であるにもかかわらずである。また、テキストのみ、マルチモーダルのみのバリアントをも上回っており、テキストと視覚の教師信号が相補的であることを示している。我々は、グラフ、ベンチマーク、訓練データ、および完全な構築パイプラインを公開する。

視覚的対照自己蒸留
Visual Contrastive Self-Distillation

Jul 23

ByYijun Liang, Yunjie Tian, Yijiang Li, Yuqi Jia, Furong Huang, Tianyi Zhou, Di Fu

オン方策自己蒸留（OPSD）は、オン方策蒸留（OPD）で必要とされる外部教師を排除できる点で有望であるが、それでも教師と生徒の間の非対称な情報が必要であり、自己教師が生徒よりも強力な学習信号を提供することを保証する。既存手法は、この非対称性を特権的な解答または視覚的根拠のいずれかによって作り出している。本研究では、その両方を排除し、純粋に入力条件付けによって駆動されるより単純な形式のOPSDが実現可能かどうかを問う。この目的のために、我々はVisual Contrastive Self-Distillation（VCSD）を提案する。これは画像コンテンツの除去をオン方策自己蒸留信号に変換するものである。生徒が生成した各応答プレフィックスにおいて、EMA教師は同一のプロンプトとプレフィックスに基づいて2つの次トークン分布を生成する。一方は元の画像を条件とし、他方はコンテンツを消去した制御画像を条件とする。それらのトークン単位の対数確率の差は、インスタンスレベルの視覚コンテンツによって尤度が特異的に増加する候補を強調する。我々はこの対比を用いて、教師の元画像分布をその妥当なサポート内で鮮明化し、結果として得られる完全分布目標を生徒に蒸留する。ViRL39Kデータセットを用いた実験において、VCSDはQwen3-VLおよびQwen3.5モデルにおいて、対応するOPSDを一貫して上回る。例えば、Qwen3-VLでは、7ベンチマーク集計値が2Bで62.27%から67.04%、4Bで71.30%から73.16%、8Bで72.51%から76.26%へと改善された。さらに、VCSDは外部教師、特権的な解答、視覚的根拠信号、推論トレース、あるいは追加の推論時計算コストを一切必要としない。

見せよ、語るな：LLMテキストではなく生成ピクセルにおける空間認知の評価
Show, Don't Tell: Evaluating Spatial Cognition in Generative Pixels Rather Than LLM Text

Jul 23

ByXu Wang, Kaixiang Yao, Miao Pan, Xiaohe Zhou, Xuanyu Liu, Wenqi Zhang, Xuhong Zhang

空間知能は、エージェントが静的な意味理解から物理世界との相互作用へと移行するために不可欠である。多くの空間タスクは連続的な視覚シーンに基づいており、位置、領域、経路は、正確な座標や離散的なテキスト記号を報告するよりも、指差し、マーキング、描画によってより自然に表現される。しかしながら、既存の空間推論ベンチマークは通常、座標、選択肢、またはテキストを必要とし、画像生成モデルにとって解答インターフェースの不一致を生み出している。そのため、画像生成モデルが空間的判断をピクセル空間に直接外在化できるにもかかわらず、テキスト出力の視覚言語モデル（VLM）と同じタスク意味論の下で評価することが困難となっている。我々は、ProVisE（Protocolized Visual Evaluation：プロトコル化視覚評価）を提案する。これは、ベンチマークに依存しないフレームワークであり、画像生成モデルからプロトコルに制約された視覚的解答を引き出し、元の評価指標と互換性のある構造化予測に解析する。ProVisEはまた、新しいベンチマークのためのタスク固有のプロトコルを構築・検証するAgentic Builderを含む。さらに、14の空間サブタスク、4つの能力レベル、多様な解答形式にわたる470サンプルからなる厳選された診断ベンチマークであるSpatialGen-Benchを導入する。我々は、代表的テキスト出力VLMと画像生成モデルを統一設定で評価し、6つの外部空間ベンチマークでAgenticプロトコル構築を検証する。結果は、空間的解答がピクセル空間に直接外在化できる場合には画像生成モデルが競争力を持つ一方、テキスト出力VLMは構成的空間推論において明確な優位性を維持することを示している。これらの知見は、ピクセル空間表現とテキストベース推論の相補的な強みを明らかにし、画像生成モデルにおける空間認知研究のための評価指標互換テストベッドを確立する。

NVIDIA-labs OOエージェント: ネイティブPythonオブジェクト指向エージェント
NVIDIA-labs OO Agents: Native Python Object-Oriented Agents

Jul 22

ByPaul Furgale, Severin Klingler, James Nolan, Matt Staats, Gaia Di Lorenzo, Elisa Martinez Abad, Christian Schüller, Razvan Dinu, Alessio Devoto, Pascal Berard, Gal Kaplun, Elad Sarafian, Riccardo Roveri, Leon Derczynski, Ricardo Silveira Cabral

従来のエージェント開発は、プロンプトテンプレート、ツールスキーマ、コールバックコード、ワークフローグラフに分割されていました。本稿では、信頼性の高いAIエージェントを構築するためのモデル非依存なPythonフレームワークであるNVIDIA Object-Oriented Agents（NOOA）を提案します。NOOAはよりシンプルなアプローチを採用します。すなわち、エージェントはPythonオブジェクトです。そのメソッドはモデルが実行可能なアクション、フィールドはその状態、ドキュメント文字列はプロンプト、型アノテーションは契約を表します。コード本体が「…」で構成されるメソッドは、LLM駆動のエージェントループによって実行時に完了します。一方、通常の本体を持つメソッドは標準的な決定論的Pythonのままです。これにより、開発者とエージェントが同一のインターフェースを共有するため、エージェントの振る舞いは他のソフトウェアと同様にテスト、トレース、リファクタリング、改善が可能になります。本稿は3つの貢献を行います。(1) エージェント・アズ・ア・Pythonオブジェクトのプログラミングモデルとその背後にある設計原則を示します。Pythonに既存の抽象化がある場合、それを直接採用します。エージェント固有の機能（コンテキスト、イベント、状態レンダリング、長期記憶、検証済みLLMループ）は、シンプルでPython的なAPIを通じて公開されるため、開発者とエージェントの両方が一つのなじみ深いプログラミングモデルを共有します。(2) 我々の知る限り、NOOAが単一のインターフェース上で初めて組み合わせた6つのモデル向けアイデアを特定します：型付き入出力、ライブオブジェクトに対する参照渡し、アクションとしてのコード、プログラム可能なループ工学、明示的なオブジェクト状態、コンテキストとイベントのためのモデル呼び出し可能ハーネスAPIです。これらのアイデアのいくつかは、すでにコミュニティが実験的または部分的な機能として収束しつつあることを確認しており、さらなる採用を促すために比較を示します。(3) 現在のモデルがこのインターフェースを効果的に利用することを、対象を絞った能力テスト、およびSWE-bench Verified、Terminal-Bench 2.0、ARC-AGI-3などのエージェント的・推論的ベンチマークにおいて実証します。

カメラ・ディスプレイ連携によるカラーパススルー
Color Pass-Through via Camera-Display Coupling

Jul 14

ByRuikang Li, Molin Li, Jiarui Wu, Zhe Wei, Pengpeng Liu, Tianfan Xue

実世界のシーンをスマートフォンのカメラで撮影し、その画面で見ると、表示される画像は色、明るさ、コントラストにおいて元のシーンと顕著に異なることが多い。この乖離は、現代のカメラとディスプレイの双方が大幅に進歩した後もなお存在する。主な原因の一つは、ほとんどのパイプラインが、高次元の撮影から表示までの過程を、個別に較正されたカメラ段階とディスプレイ段階の二つに分割し、その後、低次元の色変換で接続するため、情報のボトルネックと不可避な誤差の蓄積が生じることにある。このシステム全体の課題に取り組むため、我々はColor Pass-Throughを提案する。これは、撮影画像に直接作用するエンドツーエンド学習フレームワークである。我々の主な洞察は、カメラとディスプレイを個別に較正するのではなく、結合されたシステムとして扱うことにある。カメラとディスプレイを結合することで、次の二つの実用的な利点が得られる。(1) エンドツーエンドの最適化により、実世界のシーン全体をディスプレイに再現できる。(2) 撮影から表示までの全経路を一度に較正することで、個々の観察者に対して効率的な一貫較正が可能となる。我々は、デジタル観察者と人間観察者の両方を用いてColor Pass-Throughを検証した。代表的なベースライン手法と比較して、本手法は5段階のユーザースタディにおいて平均+2.0ポイントの向上、定量的指標において2倍以上の改善を達成し、元のシーンの知覚色の再現性が向上したことを示している。

テンセント WorkBuddy Bench: 汚染耐性のあるタスク構築を備えたマルチドメインコーディングエージェントベンチマーク
Tencent WorkBuddy Bench: A Multi-Domain Coding-Agent Benchmark with Contamination-Resistant Task Construction

Jul 23

ByTencent WorkBuddy Bench Team, Siqi Cai, Shaopeng Chen, Xiang Fei, Yong Mao, Zihan Xu, Zhiheng Lyu, Zhijian Shao, Yuchen Shi, Shuwen Zhang, Chaofan Qiu, Linjie Che, Xiaoxi Zhao, Feng Wu, Kai Zhang, Chaofan Zhu, Yubin Qi, Xiaoyun Liang, Peijie Dong, Yunhao Zhang, Yuanjie Zhu, Ling Jiang, Xianjun Zhang, Zhehang Chu, Anyuan Sang, Zhen Feng, Sen Nie, Shi Wu, Yuanzhen Xu, Xin Li, Ning Yang, Zhiqiang Dong, Hande Dong, Qiang Lin, Yi Liu, Yunsheng Wu, Ke Li, Xing Sun

本稿では、コードエージェント向けのマルチドメイン評価スイート「Tencent WorkBuddy Bench」を紹介する。本レポートでは、その構築手法、スコアリングプロトコル、およびクロスモデルリーダーボードについて詳述する。その中核となるのは、Code、Web、Office、Securityの4つの業務ドメインにわたる、分布情報を考慮したコードエージェントタスクを構築・実行するための統一評価フレームワークである。各タスクは、公開 Issue の文章をそのまま流用するのではなく、実際のコミット、プルリクエスト、またはビジネスシナリオからリバースエンジニアリングし、短く口語的なロールプレイ形式のリクエストとして書き直されている。これにより、タスクのプロンプトは、元となったIssueやプルリクエスト、コミットスレッドをウェブ検索しても復元できないようになっている。データセットはタスクディレクトリ、環境イメージ、評価ハーネス、テスト、参照ソリューションとともにオープンに公開されるため、汚染耐性は秘匿性ではなく、この構築方法とデータセットのバージョン管理に依存している。4つのサブセット（リポジトリレベルのエンジニアリング、フロントエンド開発、オフィス・ビジネスワークフロー、レッド/ブルーチームによるセキュリティ）は、それぞれ異なる検証スタイルを持ち、実務の補完的な側面を評価する。これらはすべて統一されたタスクディレクトリ形式でパッケージ化され、統一された再現可能なプロトコルの下で、2つのエージェントハーネス（CodeBuddy Code および Claude Code）上で実行される。完全なオープンリリースにより、ベンチマークはエンドツーエンドで再現可能であり、直接監査可能となる。なぜなら、サードパーティは各タスクを再実行し、その内容を検査できるからである。各サブセットで異なるスコアリング手段が用いられるため、スコアはサブセット間で比較不可能であり、スイート全体の平均値は報告されない。複数のモデルファミリーにわたるクロスモデルリーダーボードを報告する。

SANA-Video 2.0: 効率的な動画生成のための注意残差を備えたハイブリッド線形注意機構
SANA-Video 2.0: Hybrid Linear Attention with Attention Residuals for Efficient Video Generation

Jul 23

ByJunsong Chen, Jincheng Yu, Yitong Li, Shuchen Xue, Haozhe Liu, Jingyu Xin, Yuyang Zhao, Tian Ye, Zhangjie Wu, Zian Wang, Daquan Zhou, Ping Luo, Song Han, Enze Xie

本研究では、SANA-Video 2.0を紹介する。これは、統一アーキテクチャの下で5Bおよび14Bスケールで具現化されたハイブリッド動画拡散トランスフォーマーである。単一GPU上で最大720pの高品質動画を生成するよう設計されたSANA-Video 2.0は、完全ソフトマックス動画DiTの品質を維持しつつ、線形アテンションの長所である長いシーケンスへの好ましいスケーラビリティを保持する。全体に二次アテンションを避けるため、ハイブリッド線形-ソフトマックスアテンションでは、ゲート付き線形アテンションによるO(N)支配的な混合と、3:1の比率で周期的なゲート付きソフトマックスアンカーを組み合わせ、純粋な線形アテンションに欠けていたフルランクのトークン相互作用を回復する。これらの更新された表現を深さ方向に伝播させるために、ブロックアテンション残差（AttnRes）は、完了したブロック要約を後続の線形層にルーティングし、アンカー特徴の再利用を可能にし、深層の有効ランクを約12%向上させる。ゼロからのトレーニングにより、SANA-Video 2.0は、事前学習モデルを線形化するのではなく、完全なハイブリッドを直接学習し、低解像度でのプロキシ研究により、ソフトマックス割合25%が最適な品質と効率のトレードオフであることを確立する。40ステップのサンプリングで、SANA-Video 2.0は単一H100上で480p、13.2秒の処理でVBenchスコア84.30を達成し、はるかに大規模なソフトマックス動画DiTと遅延の低い部分で競争力を持つ。そのコンパイルされたDiTフォワードパスは、720p/60秒で同等の完全ソフトマックスベースラインより3.2倍高速であり、この差は動画の長さに応じて拡大する。さらに、フルスタックのSol-Engine最適化（カーネル融合、キャッシング、スパースアテンション）により、このハードウェアフレンドリーなバックボーンはさらに3.58倍高速化され、5Bパイプラインを720p/5秒で13.06秒に短縮し、1台のH100上でWan 2.2-A14Bよりも120倍高速になる。全体として、我々のハイブリッド設計は、コストを大幅に削減しながらソフトマックスレベルの表現力を回復し、スケーラブルで長時間・高解像度の動画生成を実現する。

LLMは変化するユーザーの意図に迷う
LLMs Get Lost in Evolving User Intent

Jul 22

ByJihoon Tack, Philippe Laban, Jennifer Neville

大規模言語モデル（LLM）の能力が向上するにつれ、それらは協調エージェントとしてますます広く利用され、反復的な対話を通じてユーザーから委任されたタスクを遂行するようになっている。しかしながら、真の相互作用は本質的に動的なものである。ユーザーが自身の意図をあらかじめ完全に指定することは稀であり、会話の進行に伴ってそれを開示し、修正し、再形成するのである。それにもかかわらず、LLMは依然として主に単一ターンで完全に指定された設定において評価または訓練されており、基本的な疑問が残る。すなわち、LLMは会話の過程で進化するユーザーの意図をどの程度追跡し、それに基づいて行動できるのかという点である。この問題を研究するために、本稿では静的な単一ターンタスクを動的なマルチターン会話へと変換する枠組みを導入する。この会話では、ユーザーの意図がターンごとに進化し――徐々に明らかにされ、修正され、時には会話の途中で方向転換される――、その一方で各タスクの本来の評価プロトコルを維持する。これにより、新たなアノテーションを行うことなく、既存のベンチマークを制御されたテストベッドとして再利用することが可能となる。複数のタスクにわたって、我々は一貫した現象を明らかにした。すなわち、静的な設定での高い性能は、進化する意図の設定には転移せず、モデルファミリー全体で大幅な性能低下が見られるのである。我々の知見は、根本的なギャップを指し示している。現在のLLMは、ユーザーの進化する意図を忠実に追跡し、それに基づいて行動することがまだできていない。この能力は静的評価では見えないが、将来の協調エージェントにとっては極めて重要である。

ビデオからの構造化ダイナミクスの自己教師あり学習
Self-Supervised Learning of Structured Dynamics from Videos

Jul 23

ByLukas Knobel, Andrew Zisserman, Yuki M. Asano

映像中の動きの理解は視覚学習における基本的な課題である。なぜならフレーム間の変化には、カメラの動きと物体の動きという二つのダイナミクス源が絡み合っているからである。この分解は表現学習において依然として十分に探求されておらず、その一因はこれらの要因が自然動画において密接に結合しており、個別に教師あり学習することが困難であることにある。しかし、意味のある物体ダイナミクスをカメラ起因の変動から分離したロバストな動き表現を学習するためには、この分解を回復することが重要である。本研究では、事前学習済み画像ビジョントランスフォーマーの凍結特徴量から、このような構造化された動き表現が回復可能かどうかを検証する。我々は構造化ダイナミクスモデル（SDM）を提案する。SDMは、時間的変化の支配的な源と残差ダイナミクスを、単一の絡み合った潜在変数や非構造的で空間的に密な遷移トークンを用いてビデオ変化を表現するのではなく、将来の特徴予測を通じて明示的に分離する。学習は、実動画に対する自己教師あり学習と、合成Kubricデータにおけるシーンダイナミクスの弱教師あり学習を組み合わせる。我々はSDMを、カメラモーション、オブジェクトモーション、およびそれらの組み合わせダイナミクスを含む合成・実動画にわたる新たな評価スイートProbeMotionで評価する。SDMは、グローバルCLSや平均プーリング特徴量を用いたバックボーンベースラインを上回り、いくつかのプローブにおいてはVGGTなどの強教師あり表現と遜色ない性能を示す。これらの結果は、事前学習済み画像モデルが構造化されたビデオダイナミクス表現に容易に転用可能であり、潜在的なビデオダイナミクスの学習と解析に有用な帰納的バイアスを提供することを示唆している。

世界状態レジスタを用いたストリーミング・マルチエージェント自己回帰拡散モデル
Streaming Multi-Agent Autoregressive Diffusion Model with World State Registers

Jul 23

BySicheng Mo, Yuheng Li, Ziyang Leng, Krishna Kumar Singh, Bolei Zhou

マルチエージェント対話型ワールドモデルは、一貫した観測を生成するだけでなく、エージェント間で持続し視点間で進化するワールド状態を維持すべきである。既存の自己回帰型ビデオ拡散パイプラインは、観測履歴を条件付けコンテキストとして前方に伝達するため、マルチエージェント・マルチビュー設定において共有状態の維持が困難である。我々はWorldWeaver (W^2)を提案する。これはストリーミング型マルチエージェントビデオ拡散モデルであり、ロールアウトにエージェント間ワールド状態レジスタを追加する。これらのレジスタは学習可能なトークンであり、共有ワールド情報を格納し、個々のエージェントの状態を追跡し、生成された各チャンク後に動的に更新される。我々はこれらのレジスタを、個々のエージェントの状態、俯瞰図を含むグローバル状態ビュー、およびシーンテキストにわたる教師信号で接地する。さらに、ワールド状態モデリングと視覚フレームモデリングに別々の重みを使用するMixture-of-Transformers設計によりアーキテクチャを改善する。2エージェントのMinecraftビデオ生成における広範な実験により、明示的なワールド状態モデリングが論理的一貫性と生成品質を向上させることが示される。

LLM強化学習のための予測ダイバージェンスマスク
Predictive Divergence Masks for LLM RL

Jul 12

ByXiangxin Zhou, Jiarui Yao, Penghui Qi, Bowen Ping, Jiaqi Tang, Haonan Wang, Tianyu Pang

大規模言語モデル（LLM）の強化学習では、通常、信頼領域マスクを用いてオフポリシー更新を安定化させる。主流のPPO手法では、サンプリングされたトークンの重要度比を2つの基準に用いる。すなわち、近接性基準（ポリシーが行動ポリシーから大きく乖離していないかを問う）と方向性基準（更新がポリシーをさらに遠ざけるかどうかを問う）である。最近の研究であるDPPOは、PPOの比率ベースのテストを行動ポリシーと訓練ポリシー間の確率ダイバージェンスに置き換えることで近接性基準を改善した。しかし、その方向性基準は依然としてPPOから引き継がれている。トークンがマスクされるのは、サンプリングされたトークンの重要度比が1から乖離する場合のみである。我々は、この比率ベースの方向性基準が単一サンプルの代理指標であり、近接性基準を定義するダイバージェンスの変化と符号が一致しない場合があることを観察した。そこで我々は、次回のポリシー勾配ステップが信頼領域で使用されるのと同じダイバージェンスを増加させるか減少させるかを問う、予測的ダイバージェンスマスクを提案する。LLM強化学習で使用される離散ソフトマックスポリシーに対し、この予測を閉形式で導出する。プロダクションのロールアウトエンジンは語彙の切り詰められた（トップK）ビューしか公開しないため、この予測のために2つの軽量なトップK推定器を開発する。詳細な分析により、ダイバージェンスベースの方向性はサンプリングされた比率よりもダイバージェンスの実際の変化とよく一致し、得られたマスクはモデル規模や精度設定を問わず強化学習の訓練を改善することが示される。

ロボストラル・ナビゲート
Robostral Navigate

Jul 22

ByArjun Majumdar, Avinash Sooriyarachchi, Benjamin Tibi, Chris Bamford, Elliot Chane-Sane, Guillaume Lample, Khyathi Raghavi Chandu, Ludovic Ho Fuh, Mathieu Poiree, Olivier Duchenne, Rosalie Millner, Srijan Mishra, Theo Cachet, Thomas Chabal

大規模なナビゲーションシステムを展開するには、センサーの前提条件を最小限に抑え、ロボットの形態を超えて汎化し、効率的に訓練できる手法が必要です。しかし、現在の最先端システムは深度センサーやマルチカメラリグ、事前構築された地図に依存しており、対応可能なハードウェアが制限され、導入コストが増大しています。本論文では、このスケーラビリティ目標に基づいて構築された8Bパラメータの視覚言語モデル「Robostral Navigate」を紹介します。本モデルは、ロボットプラットフォームで最も広く普及したセンサーである単眼RGB画像のストリームのみを入力として、現在のカメラ視野内の次の目標位置を指示することでウェイポイントを予測します。ロボット固有の座標ではなく、純粋に画像空間で動作することで、カメラ内部パラメータやシーンスケールの変化に対してポリシーが自然にロバストとなり、再較正なしで車輪型、脚型、空中ロボットにわたって展開可能です。現実世界でのデータ収集への依存を減らし、容易にスケールアップするために、35万のシミュレーションシーンで240万の軌跡を生成しました。さらに、エピソード全体を単一の訓練シーケンスにパッケージ化するプレフィックスキャッシング訓練手法を導入し、訓練トークンを22倍削減し、訓練時間を月単位から日単位に短縮しました。ツリー構造のアテンションマスクは過去の正解行動に基づく条件付けを防ぎ、視覚に基づいた行動予測を促進します。また、強化学習を用いて探索能力と回復能力をさらに向上させました。連続環境におけるRoom-to-RoomおよびRoom-Across-Room（R2R-CEおよびRxR-CE）ベンチマークにおいて、Robostral Navigateは新たな最先端を達成しました。R2R-CEでは成功率77.4%を達成し、最良の単眼方式を10.5ポイント上回り、単一RGBカメラのみを使用しながら、深度センサーやマルチカメラシステムを採用した最強の方式をも5.3ポイント凌駕しました。RxR-CEでは成功率75.1%に達し、すべての単眼ベースラインを上回りました。

プレフィックスリプレイを用いたマルチターンオン方策蒸留
Multi-Turn On-Policy Distillation with Prefix Replay

Jul 16

ByBaohao Liao, Hanze Dong, Christof Monz, Xinxing Xu, Li Dong, Furu Wei

本論文では、エージェントタスクにおけるオン方策蒸留（OPD）について研究する。ここで、LLMエージェントは環境と複数ターンにわたって相互作用し、生徒モデルはこれらのマルチターン相互作用履歴に基づいて教師モデルを模倣する。完全オンラインOPDはコストが高く、更新のたびに生徒が環境を通じて新たなロールアウトを実行し、訪問した履歴において教師にクエリを送る必要がある。我々は、Replayed-Prefix On-Policy Distillation（ReOPD）を提案する。これはオフ環境の代替手法であり、事前収集した教師の軌跡を再生プレフィックスとして再利用する。生徒は選択されたステップで行動し、教師は新たな環境相互作用を実行することなく、ステップごとの密な教師情報を提供する。我々は、マルチターンOPDが「プレフィックストラップ」を導入することを示す。すなわち、履歴をより生徒オン方策にすることで生徒への関連性は向上するが、教師のターゲットが信頼できない履歴に対して教師にクエリを送る可能性がある。これにより、生徒の占有分布と教師の信頼性の間で両側の分布シフトが生じる。ReOPDは、マルチターンOPDを信頼性考慮型のプレフィックス分布設計として捉え、これを初期のシフトが少ないプレフィックスを重視する単純なステップ減衰サンプリングスケジュールで実装することにより、この問題に対処する。Pythonを用いた数学的推論や検索環境において、複数の教師・生徒モデル規模にわたって、ReOPDはOPDレベルの精度を維持または向上させ、生徒のトレーニング中にツール呼び出しを一切行わず、ロールアウトあたりの速度がOPDよりも少なくとも4倍高速である。したがってReOPDは、高コストなエージェント-環境相互作用を再利用可能なオフラインリソースに変換し、ツール、タスク、環境を横断したスケーラブルな蒸留を可能にする。

エージェント経験からのサンプル効率的学習
Sample-Efficient Learning from Agent Experience

Jul 23

ByChenhui Gou, Haoqin Tu, Yunhao Fang, Jianfei Cai, Hamid Rezatofighi

実世界のエージェント学習は、時間のかかる実験の実施や人間からのフィードバックの取得といった、高コストな環境相互作用によって制約されることが多い。インコンテキスト学習は、エージェントが自身の相互作用履歴から学習するための非常にサンプル効率的な方法を提供するが、その経験がコンテキストから取り除かれると、その利得は消失する。別途、コンテキスト蒸留は、コンテキスト情報をモデル重みに内面化するためのメカニズムを提供する。しかしながら、環境サンプル効率を犠牲にすることなく、これをエージェントの相互作用履歴に適用することは、未だ十分に研究されていない。我々はこの問題を経験蒸留（Experience Distillation）と名付け、収集された経験以外に追加の環境相互作用を必要としない実装を開発した。749の厳選されたソフトウェアエンジニアリングタスクと6つのテキストアドベンチャーゲームでの実験により、本手法が両ドメインにおいてインコンテキスト学習による利得の少なくとも64.8\%を保持する一方、収集された経験に対する直接的な教師ありファインチューニングではわずか3.8\%しか回復しないことが示された。古典的な強化学習ベースラインと比較して、試行錯誤経験からのインコンテキスト学習の後に経験蒸留を適用する手法は、環境サンプル数が少なくとも9.6分の1でそれらと同等の性能を達成する。

効率的な高忠実度表現のためのリカレント正弦波INRs
Recurrent Sinusoidal INRs for Efficient High-Fidelity Representation

Jul 23

ByHyunmin Cho, Jaejun Yoo, Kyong Hwan Jin

本研究では、暗黙的ニューラル表現（INR）における調和スペクトル強化の反復的メカニズムとして、正弦波回帰を検討する。解析により、正弦波活性化関数が調波線スペクトルを誘起し、再帰的アンローリングが実効的なスペクトルサポートをどのように強化するかについて、スペクトル的な説明が得られる。この原理を実現するため、共有正弦波ブロックを用いて潜在表現を反復的に洗練する。提案手法のスペクトル特性を、フィードフォワード型INR、非正弦波の再帰的変種、および平衡型正弦波モデルに対して実証的に検証する。この解析に加え、画像および3次元表現タスクにおいて提案アーキテクチャを評価する。RGB画像ベンチマークでは、本手法はより少ないパラメータと最適化ステップでフィードフォワードベースラインよりも高い忠実度を達成し、さらに超解像、NeRF、SDFタスクへ好適に転移する。

TableVerse: 汎化可能な操作のための現実世界に基づくレイアウトを備えた大規模テーブルトップデータセット
TableVerse: A Large-scale Tabletop Dataset with Real-world Grounded Layouts for Generalizable Manipulation

Jul 23

ByBoyuan Wang, Yue Zhang, Xutao Xue, Xueyu Song, Yu Sun

汎用ロボット操作ポリシーの開発は、大規模かつ高忠実度のシーンデータの入手可能性に本質的に制約される。近年、自動合成手法がテキストからレイアウトへの幻覚的生成や簡略化された手続き的生成によってこのギャップを埋めようと試みているが、それらはしばしば物理的に非現実的であり、実際の人間環境に見られる複雑で密集した乱雑さを捉えることができない。本論文では、想像上のレイアウト生成から非構造化の実世界画像データに基づく決定論的再構築へとパラダイムを転換する、完全自動化されたReal2SimパイプラインであるTableVerseを紹介する。本フレームワークは、非スクリプトのインターネットメディアをシームレスに処理し、正確なメートル尺度、本物のトポロジー、検証済みの機械的安定性を備えた、シミュレーション対応の高忠実度テーブルトップ環境へと変換する。さらに、自動化されたタスク条件付き軌道生成フレームワークを統合し、高品質で衝突のないピックアンドプレースデモンストレーションを合成する。この完全なパイプラインを活用して、100,000のユニークで物理的に整合性のある環境と、それに対応するインタラクティブな操作軌道をペアリングした大規模コーパスであるTableVerse-100Kデータセットを構築する。多様なアセット構成、現実的な空間分布、高品質なデモンストレーションを捉えることにより、TableVerse-100Kは高度にスケーラブルで高忠実度のデータ基盤を確立し、将来の汎用ロボット操作タスクの研究を促進する上で大きな価値を提供する。

FinanceComplexQA: 産業用金融文書におけるエージェント的推論のベンチマーキング
FinanceComplexQA: Benchmarking Agentic Reasoning on Industrial-grade Financial Documents

Jul 21

ByXianfu Cheng, Shiwei Zhang, Jiyu Zhao, Jian Yang, Xinyuan Wang, Ming Zhou, Weixiao Zhou, Xiangyuan Guan, Xiang Li, Zhenhe Wu, Ziyi Ni, Zhoujun Li, Bingjing Xu

エージェンティック推論（Agentic Reasoning）は、大規模情報を統合し、信頼性と正確性の高いコンテンツを生成できる能力により、金融分析において変革をもたらす力となっている。しかし、複雑な実世界の問題を扱う際には、エージェント間で依然として顕著な性能差が生じる。本研究では、専門家の知識に基づき複雑なレイアウトの金融文書を合成するスキル「Finance-LaTeX SKILL」を設計する。このスキルを基盤としたエージェントワークフローを用いて、2,000件の専門的金融文書と、6,000件の高品質な質問応答ペアを生成する。エージェントの総合的な能力を評価するため、実世界のシナリオに極めて近い金融文書向けの包括的なオープンエンド生成ベンチマーク「FinanceComplexQA」を導入する。これは1,009件の金融文書を対象とする2,026件の深層調査タスクを含む。FinanceComplexQAは8つの主要な特徴を持つ：バイリンガル対応、6つの主要シナリオと7つのタスクを網羅、専門家レベルの文書推論問題、複雑なレイアウトに対する深層調査、比較的安定かつ永続的な参照回答、そして複数の評価指標によるAgent-as-a-Judge方式の精密な評価である。FinanceComplexQAを用いて、金融文書QAにおける主要なRAGシステムとエージェンティック推論ツールの包括的な評価を実施する。失敗事例の特定と分析を通じて、数値計算、マルチホップ推論、内容要約、業界分析におけるそれらの能力を詳細に検討する。

GraphVid: 対話的グラフ制御による動画生成
GraphVid: Interactive Graph-Controllable Video Generation

Jul 23

ByVedant Shah, Onkar Susladkar, Tushar Prakash, Kiet Nguyen, Tianjio Yu, Adheesh Juvekar, Muntasir Waheed, Ismini Lourentzou

制御可能な動画生成は、テキストプロンプトや主にピクセル移動を制約するモーション制御入力を用いて、複数のオブジェクト間の精密な相互作用を指定することの難しさから、依然として課題が残る。実際には、軌道ベースの制御では、ユーザーが複数のオブジェクトに対して正確な軌跡を描く必要があり、シーンの複雑さに比例してスケーラビリティが低下し、オクルージョンや重なり合いの下では曖昧になる。柔軟かつ精密なマルチサブジェクト制御を実現するために、我々はGraphVidを導入する。これは、構造化された相互作用グラフを通じてインタラクティブな制御を可能にする、グラフ条件付き画像から動画への生成モデルである。さらに、相互作用認識型動画生成モデルの学習を可能にするため、大規模な相互作用中心的動画データセットであるGraphVid-Benchを、構造化された関係アノテーションと共に構築する。GraphVidは、従来のモーション制御手法よりもはるかに少ない学習データと学習可能パラメータを使用しているにもかかわらず、高い制御性と動画品質を実現する。Motion-I2Vと比較して、GraphVidはFIDを最大39.9%、FVDを37.6%削減すると同時に、PSNR（9.87→15.98）とSSIM（0.38→0.61）を改善する。この結果は、構造化された意味的インターフェースが、制御可能な動画生成のための強力なパラダイムとなり得る可能性を強調するものである。

OpenForgeRL: 任意の環境でハーネスネイティブエージェントを訓練する
OpenForgeRL: Train Harness-native Agents in Any Environment

Jul 23

ByXiao Yu, Baolin Peng, Ruize Xu, Hao Zou, Qianhui Wu, Hao Cheng, Wenlin Yao, Nikhil Singh, Zhou Yu, Jianfeng Gao

現代のAIエージェントは、Claude Code、Codex、OpenClawといった精巧な推論ハーネスに依存して、マルチターン推論、ツール使用、外部システムへのアクセスを実現している。これらの複雑なハーネスは強力である一方、エージェントをオープンインフラストラクチャでエンドツーエンドに訓練することを困難にしており、標準の教師ありファインチューニング(SFT)・強化学習(RL)スタックでは、ステートフルかつマルチプロセスなハーネス推論をネイティブに表現できない。この課題に対処するため、本稿では多様な環境でハーネスベースのエージェントをエンドツーエンドに訓練するためのオープンソースフレームワーク「OpenForgeRL」を提案する。OpenForgeRLは、ハーネスのモデル呼び出しを中継しつつ、標準的なRLコードベース（例：veRL）向けの訓練データとして記録する軽量プロキシと、各ロールアウトを独立したリモートコンテナで実行するKubernetesオーケストレーターにより、あらゆるハーネス・環境での大規模訓練を可能にする。訓練と推論を分離することで、研究者は実際の運用環境とハーネスにおいてエージェントを直接、容易に訓練・研究・改善できる。本フレームワークは、ツール・クローベースエージェントからマルチモーダルGUIブラウザ・コンピュータ使用エージェントに至るまで、多様かつ複雑なハーネス・環境で検証された。数百から数千タスクのみを用いて、OpenForgeClawはClawEvalでpass@3 31.7、pass@3 55.9、QwenClawBenchで33.7を達成した。OpenForgeGUIはOSWorld-Verifiedで37.7、Online-Mind2Webで63.0、WebVoyagerで72.3を達成した。両者はほぼ全てのベンチマークで同規模のオープンベースラインを上回り、GUI設定では数倍規模のモデルに匹敵または凌駕する。ベンチマークを超え、ハーネスの選択（例：ZeroClaw、OpenClaw、Codex）とRLがエージェントの振る舞いをどう形作るかも分析した。一部のハーネスは他より学習が著しく困難であり、RLは自己検証、ツールカバレッジ、マルチステップ計画の完了といったエージェントの信頼性を向上させるが、エラー回復のような重要な能力は依然として脆弱であることを発見した。

影響マッチングによるデータセット蒸留
Dataset Distillation by Influence Matching

Jul 18

ByHaoru Tan, Wang Wang, Sitong Wu, Xiuzhe Wu, Yangtian Sun, Chirui Chang, Shaofeng Zhang, Xiaojuan Qi

我々は、データセット蒸留を結果中心の観点から再検討する。プロセス代理変数（各ステップの勾配や訓練軌跡）を整合させる代わりに、Influence Matching (Inf-Match) は訓練の最終結果を整合させる。すなわち、収束パラメータへの影響が完全なデータセットと一致するような、コンパクトな合成セットを学習する。具体的には、データ追加・削除によるパラメータ変化を定量化する、完全微分可能かつサンプルレベルの影響推定器を導入する。この推定器は、時間のかかる逆ヘッセ行列積や凸性仮定を必要とせず、最適化ダイナミクスを展開し一次テイラー近似を適用することで線形時間で動作する。そして、合成セットの影響と実データセットの影響との間の不一致を最小化することで合成セットを学習し、結果の整合を達成する。これは、ヒューリスティックなプロセス模倣ではなく、結果に基づいた整合である。Inf-Match は標準的な分類ベンチマークにおいて最高の精度を達成する。例えば、Tiny-ImageNet (IPC=10) では 31.5% を達成し、NCFM を +4.7% 上回る。分類を超えて、Inf-Match は Flickr30K における視覚言語蒸留にも適用可能であり、強力なプロセス整合ベースラインを凌駕する。例えば、200〜1000 の合成サンプルを用いた場合、本手法は画像・テキスト検索タスクにおいて優れた平均性能を達成し、NCFM より 2.5% 高い結果を示した。コードは https://github.com/hrtan/infmatch から公開予定である。