AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

自己進化型クリティックを介したスケーラブルな監督の実現
Enabling Scalable Oversight via Self-Evolving Critic

Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin•Jan 10, 2025•642

VideoRAG: ビデオコーパス上の検索増強生成
VideoRAG: Retrieval-Augmented Generation over Video Corpus

Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang•Jan 10, 2025•614

LlamaV-o1: LLMにおける段階的ビジュアル推論の見直し
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan•Jan 10, 2025•555

OmniManip: 物体中心の相互作用プリミティブを空間制約として用いた汎用ロボット操作に向けて
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Mingjie Pan, Jiyao Zhang, Tianshu Wu, Yinghao Zhao, Wenlong Gao, Hao Dong•Jan 7, 2025•493

OVO-Bench: あなたのビデオLLMsは実世界のオンラインビデオ理解からどれくらい離れているか？
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang•Jan 9, 2025•352

Migician: マルチモーダルな大規模言語モデルにおけるフリーフォームのマルチ画像グラウンディングの魔法を明らかにする
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun•Jan 10, 2025•272

マルチエージェントファインチューニング：多様な推論チェーンによる自己改善
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

Vighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch•Jan 10, 2025•182

ConceptMaster: ディフュージョン・トランスフォーマーモデル上のマルチコンセプトビデオカスタマイズにおけるテスト時チューニングの不要化
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

Yuzhou Huang, Ziyang Yuan, Quande Liu, Qiulin Wang, Xintao Wang, Ruimao Zhang, Pengfei Wan, Di Zhang, Kun Gai•Jan 8, 2025•142

AI研究論文デイリー

自己進化型クリティックを介したスケーラブルな監督の実現
Enabling Scalable Oversight via Self-Evolving Critic

VideoRAG: ビデオコーパス上の検索増強生成
VideoRAG: Retrieval-Augmented Generation over Video Corpus

LlamaV-o1: LLMにおける段階的ビジュアル推論の見直し
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

OmniManip: 物体中心の相互作用プリミティブを空間制約として用いた汎用ロボット操作に向けて
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

OVO-Bench: あなたのビデオLLMsは実世界のオンラインビデオ理解からどれくらい離れているか？
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Migician: マルチモーダルな大規模言語モデルにおけるフリーフォームのマルチ画像グラウンディングの魔法を明らかにする
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

マルチエージェントファインチューニング：多様な推論チェーンによる自己改善
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

ConceptMaster: ディフュージョン・トランスフォーマーモデル上のマルチコンセプトビデオカスタマイズにおけるテスト時チューニングの不要化
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

ReFocus：構造化画像理解のための思考連鎖としてのビジュアル編集
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

生成AIにウイルスを感染させる
Infecting Generative AI With Viruses

セルアニメーション向けの生成AI：調査
Generative AI for Cel-Animation: A Survey

金融LLM向けのドメイン適応型ポストトレーニングの解明
Demystifying Domain-adaptive Post-training for Financial LLMs

ビデオ生成におけるマルチサブジェクトのオープンセット個人化
Multi-subject Open-set Personalization in Video Generation

Support

AI研究論文デイリー

自己進化型クリティックを介したスケーラブルな監督の実現
Enabling Scalable Oversight via Self-Evolving Critic

VideoRAG: ビデオコーパス上の検索増強生成
VideoRAG: Retrieval-Augmented Generation over Video Corpus

LlamaV-o1: LLMにおける段階的ビジュアル推論の見直し
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

OmniManip: 物体中心の相互作用プリミティブを空間制約として用いた汎用ロボット操作に向けて
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

OVO-Bench: あなたのビデオLLMsは実世界のオンラインビデオ理解からどれくらい離れているか？
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Migician: マルチモーダルな大規模言語モデルにおけるフリーフォームのマルチ画像グラウンディングの魔法を明らかにする
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

マルチエージェントファインチューニング：多様な推論チェーンによる自己改善
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

ConceptMaster: ディフュージョン・トランスフォーマーモデル上のマルチコンセプトビデオカスタマイズにおけるテスト時チューニングの不要化
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

ReFocus：構造化画像理解のための思考連鎖としてのビジュアル編集
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

生成AIにウイルスを感染させる
Infecting Generative AI With Viruses

セルアニメーション向けの生成AI：調査
Generative AI for Cel-Animation: A Survey

金融LLM向けのドメイン適応型ポストトレーニングの解明
Demystifying Domain-adaptive Post-training for Financial LLMs

ビデオ生成におけるマルチサブジェクトのオープンセット個人化
Multi-subject Open-set Personalization in Video Generation