AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

Qwen2.5 テクニカルレポート
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan Qiu•Dec 19, 2024•36511

アクティブ検索を介したプログレッシブマルチモーダル推論
Progressive Multimodal Reasoning via Active Retrieval

Guanting Dong, Chenghao Zhang, Mengjie Deng, Yutao Zhu, Zhicheng Dou, Ji-Rong Wen•Dec 19, 2024•742

メガペア：普遍的なマルチモーダル検索のための大規模データ統合
MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong•Dec 19, 2024•552

モデルの崩壊を防ぎながらテキストデータを合成する方法は？
How to Synthesize Text Data without Model Collapse?

Xuekai Zhu, Daixuan Cheng, Hengli Li, Kaiyan Zhang, Ermo Hua, Xingtai Lv, Ning Ding, Zhouhan Lin, Zilong Zheng, Bowen Zhou•Dec 19, 2024•534

LongBench v2: 現実的な長い文脈のマルチタスクに対するより深い理解と推論に向けて
LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks

Yushi Bai, Shangqing Tu, Jiajie Zhang, Hao Peng, Xiaozhi Wang, Xin Lv, Shulin Cao, Jiazheng Xu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li•Dec 19, 2024•385

単語からピクセルへの流れ：クロスモダリティ進化のためのフレームワーク
Flowing from Words to Pixels: A Framework for Cross-Modality Evolution

Qihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh•Dec 19, 2024•294

LeviTor: 3D軌跡指向型画像からビデオへの合成
LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

Hanlin Wang, Hao Ouyang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Qifeng Chen, Yujun Shen, Limin Wang•Dec 19, 2024•153

マスク認識デュアル拡散を介したアフォーダンス認識オブジェクト挿入
Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion

Jixuan He, Wanhua Li, Ye Liu, Junsik Kim, Donglai Wei, Hanspeter Pfister•Dec 19, 2024•152

AceMath: ポストトレーニングと報酬モデリングによるフロンティア数学推論の進化
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

Zihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping•Dec 19, 2024•132

DI-PCG: 高品質3Dアセット作成のための拡散ベースの効率的逆手続きコンテンツ生成
DI-PCG: Diffusion-based Efficient Inverse Procedural Content Generation for High-quality 3D Asset Creation

Wang Zhao, Yan-Pei Cao, Jiale Xu, Yuejiang Dong, Ying Shan•Dec 19, 2024•92

マルチモーダル知覚のためのビジュアルスペシャリストによる記述キャプションの向上
Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception

Yanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang•Dec 18, 2024•62

UIP2P: サイクル編集を介した教示ベースの画像編集のための教師なし学習
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari•Dec 19, 2024•53

AV-Link: クロスモーダルオーディオビデオ生成のための時間的に整列した拡散特徴
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov•Dec 19, 2024•52

TOMG-Bench：テキストベースのオープン分子生成におけるLLMの評価
TOMG-Bench: Evaluating LLMs on Text-based Open Molecule Generation

Jiatong Li, Junxian Li, Yunqing Liu, Dongzhan Zhou, Qing Li•Dec 19, 2024•42

PixelMan: ピクセル操作と生成を介した拡散モデルによる一貫したオブジェクト編集
PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation

Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohammadreza Samadi, Jiao He, Fengyu Sun, Di Niu•Dec 18, 2024•34

DateLogicQA：大規模言語モデルにおける時間的バイアスのベンチマーク化
DateLogicQA: Benchmarking Temporal Biases in Large Language Models

Gagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi•Dec 17, 2024•22

2Dに移動する：2D条件付き人間の動き生成
Move-in-2D: 2D-Conditioned Human Motion Generation

Hsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang, Zhan Xu•Dec 17, 2024•22