AI研究论文每日精选

每日精选AI研究论文及翻译

Qwen2.5 技术报告
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan Qiu•Dec 19, 2024•36411

通过主动检索实现渐进式多模态推理
Progressive Multimodal Reasoning via Active Retrieval

Guanting Dong, Chenghao Zhang, Mengjie Deng, Yutao Zhu, Zhicheng Dou, Ji-Rong Wen•Dec 19, 2024•742

MegaPairs：用于通用多模态检索的大规模数据综合
MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong•Dec 19, 2024•552

如何在不发生模型崩溃的情况下合成文本数据？
How to Synthesize Text Data without Model Collapse?

Xuekai Zhu, Daixuan Cheng, Hengli Li, Kaiyan Zhang, Ermo Hua, Xingtai Lv, Ning Ding, Zhouhan Lin, Zilong Zheng, Bowen Zhou•Dec 19, 2024•534

LongBench v2：朝着对现实长文本多任务进行更深入理解和推理的方向发展
LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks

Yushi Bai, Shangqing Tu, Jiajie Zhang, Hao Peng, Xiaozhi Wang, Xin Lv, Shulin Cao, Jiazheng Xu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li•Dec 19, 2024•385

从文字到像素的流动：跨模态演化的框架
Flowing from Words to Pixels: A Framework for Cross-Modality Evolution

Qihao Liu, Xi Yin, Alan Yuille, Andrew Brown, Mannat Singh•Dec 19, 2024•294

LeviTor：基于3D轨迹的图像到视频合成
LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

Hanlin Wang, Hao Ouyang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Qifeng Chen, Yujun Shen, Limin Wang•Dec 19, 2024•153

通过遮罩感知双扩散实现可供性感知的物体插入
Affordance-Aware Object Insertion via Mask-Aware Dual Diffusion

Jixuan He, Wanhua Li, Ye Liu, Junsik Kim, Donglai Wei, Hanspeter Pfister•Dec 19, 2024•152

AceMath：通过后训练和奖励建模推进前沿数学推理
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

Zihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping•Dec 19, 2024•132

DI-PCG：基于扩散的高效逆向程序内容生成用于高质量3D资产创作
DI-PCG: Diffusion-based Efficient Inverse Procedural Content Generation for High-quality 3D Asset Creation

Wang Zhao, Yan-Pei Cao, Jiale Xu, Yuejiang Dong, Ying Shan•Dec 19, 2024•92

利用视觉专家进行多模态感知的描述性标题增强
Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception

Yanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang•Dec 18, 2024•62

UIP2P：基于无监督指导的图像编辑，通过循环编辑保持一致性。
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari•Dec 19, 2024•53

AV-Link：用于跨模态音视频生成的时间对齐扩散特征
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Alper Canberk, Kwot Sin Lee, Vicente Ordonez, Sergey Tulyakov•Dec 19, 2024•52

TOMG-Bench：评估基于文本的开放式分子生成语言模型
TOMG-Bench: Evaluating LLMs on Text-based Open Molecule Generation

Jiatong Li, Junxian Li, Yunqing Liu, Dongzhan Zhou, Qing Li•Dec 19, 2024•42

PixelMan：通过像素操作和生成的扩散模型实现一致的对象编辑
PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation

Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohammadreza Samadi, Jiao He, Fengyu Sun, Di Niu•Dec 18, 2024•34

日期逻辑质量评估：在大型语言模型中对时间偏差进行基准测试
DateLogicQA: Benchmarking Temporal Biases in Large Language Models

Gagan Bhatia, MingZe Tang, Cristina Mahanta, Madiha Kazi•Dec 17, 2024•22

移动中的二维：基于二维条件的人体动作生成
Move-in-2D: 2D-Conditioned Human Motion Generation

Hsin-Ping Huang, Yang Zhou, Jui-Hsien Wang, Difan Liu, Feng Liu, Ming-Hsuan Yang, Zhan Xu•Dec 17, 2024•22