AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

REINFORCE++: 大規模言語モデルの調整のためのシンプルで効率的なアプローチ
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Jian Hu•Jan 4, 2025•822

物理AI向けのCosmos World Foundationモデルプラットフォーム
Cosmos World Foundation Model Platform for Physical AI

NVIDIA, Niket Agarwal, Arslan Ali, Maciej Bala, Yogesh Balaji, Erik Barker, Tiffany Cai, Prithvijit Chattopadhyay, Yongxin Chen, Yin Cui, Yifan Ding, Daniel Dworakowski, Jiaojiao Fan, Michele Fenzi, Francesco Ferroni, Sanja Fidler, Dieter Fox, Songwei Ge, Yunhao Ge, Jinwei Gu, Siddharth Gururani, Ethan He, Jiahui Huang, Jacob Huffman, Pooya Jannaty, Jingyi Jin, Seung Wook Kim, Gergely Klár, Grace Lam, Shiyi Lan, Laura Leal-Taixe, Anqi Li, Zhaoshuo Li, Chen-Hsuan Lin, Tsung-Yi Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Arsalan Mousavian, Seungjun Nah, Sriharsha Niverty, David Page, Despoina Paschalidou, Zeeshan Patel, Lindsey Pavao, Morteza Ramezanali, Fitsum Reda, Xiaowei Ren, Vasanth Rao Naik Sabavat, Ed Schmerling, Stella Shi, Bartosz Stefaniak, Shitao Tang, Lyne Tchapmi, Przemek Tredak, Wei-Cheng Tseng, Jibin Varghese, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Xinyue Wei, Jay Zhangjie Wu, Jiashu Xu, Wei Yang, Lin Yen-Chen, Xiaohui Zeng, Yu Zeng, Jing Zhang, Qinsheng Zhang, Yuxuan Zhang, Qingqing Zhao, Artur Zolkowski•Jan 7, 2025•632

LLaVA-Mini: 1 つの Vision トークンを使用した効率的な画像とビデオの大規模マルチモーダルモデル
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Shaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng•Jan 7, 2025•484

Sa2VA：SAM2とLLaVAを結びつけて、画像と動画の密なグラウンデッド理解を実現
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Haobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang•Jan 7, 2025•402

MotionBench：ビジョン言語モデルのための細かいビデオ動き理解のベンチマークおよび改善
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang•Jan 6, 2025•402

シェーダーとしての拡散：多目的ビデオ生成制御のための3D認識ビデオ拡散
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu•Jan 7, 2025•222

PPTAgent: テキストからスライドへの生成と評価を超えたプレゼンテーション
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

Hao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun•Jan 7, 2025•183

OpenOmni: 大規模言語モデルが、リアルタイムの自己認識感情音声合成を介して、言語を超えたゼロショットオムニモーダルアライメントを実現します。
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

Run Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang•Jan 8, 2025•163

イルカ：思考、実践、フィードバックを通じたクローズドループオープンエンドの自己研究
Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback

Jiakang Yuan, Xiangchao Yan, Botian Shi, Tao Chen, Wanli Ouyang, Bo Zhang, Lei Bai, Yu Qiao, Bowen Zhou•Jan 7, 2025•143

マジックミラー：ビデオ拡散におけるID保存ビデオ生成トランスフォーマー
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

Yuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia•Jan 7, 2025•142

言語モデルにおける改善されたRLHFのためのテキストのセグメンテーションと報酬の学習
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

Yueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou•Jan 6, 2025•92

MoDec-GS：コンパクトな動的3Dガウススプラッティングのためのグローバルからローカルなモーション分解と時間間隔調整
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

Sangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim•Jan 7, 2025•92

AI研究論文デイリー

REINFORCE++: 大規模言語モデルの調整のためのシンプルで効率的なアプローチ
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

物理AI向けのCosmos World Foundationモデルプラットフォーム
Cosmos World Foundation Model Platform for Physical AI

LLaVA-Mini: 1 つの Vision トークンを使用した効率的な画像とビデオの大規模マルチモーダルモデル
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Sa2VA：SAM2とLLaVAを結びつけて、画像と動画の密なグラウンデッド理解を実現
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

MotionBench：ビジョン言語モデルのための細かいビデオ動き理解のベンチマークおよび改善
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

シェーダーとしての拡散：多目的ビデオ生成制御のための3D認識ビデオ拡散
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

PPTAgent: テキストからスライドへの生成と評価を超えたプレゼンテーション
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

イルカ：思考、実践、フィードバックを通じたクローズドループオープンエンドの自己研究
Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback

マジックミラー：ビデオ拡散におけるID保存ビデオ生成トランスフォーマー
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

言語モデルにおける改善されたRLHFのためのテキストのセグメンテーションと報酬の学習
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

MoDec-GS：コンパクトな動的3Dガウススプラッティングのためのグローバルからローカルなモーション分解と時間間隔調整
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

トランスフォーマーにおける適応的ダイナミクスのためのグラフ意識同型アテンション
Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers

MagicFace: アクションユニット制御による高精細な顔表情編集
MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control

テキストによる画像間拡散モデルのための汎用的な起源識別
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models

Support

AI研究論文デイリー

REINFORCE++: 大規模言語モデルの調整のためのシンプルで効率的なアプローチ
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

物理AI向けのCosmos World Foundationモデルプラットフォーム
Cosmos World Foundation Model Platform for Physical AI

LLaVA-Mini: 1 つの Vision トークンを使用した効率的な画像とビデオの大規模マルチモーダルモデル
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Sa2VA：SAM2とLLaVAを結びつけて、画像と動画の密なグラウンデッド理解を実現
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

MotionBench：ビジョン言語モデルのための細かいビデオ動き理解のベンチマークおよび改善
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

シェーダーとしての拡散：多目的ビデオ生成制御のための3D認識ビデオ拡散
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

PPTAgent: テキストからスライドへの生成と評価を超えたプレゼンテーション
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

イルカ：思考、実践、フィードバックを通じたクローズドループオープンエンドの自己研究
Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback

マジックミラー：ビデオ拡散におけるID保存ビデオ生成トランスフォーマー
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

言語モデルにおける改善されたRLHFのためのテキストのセグメンテーションと報酬の学習
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

MoDec-GS：コンパクトな動的3Dガウススプラッティングのためのグローバルからローカルなモーション分解と時間間隔調整
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

トランスフォーマーにおける適応的ダイナミクスのためのグラフ意識同型アテンション
Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers

MagicFace: アクションユニット制御による高精細な顔表情編集
MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control

テキストによる画像間拡散モデルのための汎用的な起源識別
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models