AI研究论文每日精选

每日精选AI研究论文及翻译

MergeVQ：基于解耦令牌合并与量化的视觉生成与表示统一框架
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Siyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei•Apr 1, 2025•877

《AnimeGamer：无限动漫人生模拟》——搭载下一代游戏状态预测系统
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

Junhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan•Apr 1, 2025•662

DreamActor-M1：基于混合引导的全方位、富有表现力且鲁棒的人体图像动画生成
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu•Apr 2, 2025•657

通过R1-Zero式训练提升视觉空间推理能力
Improved Visual-Spatial Reasoning via R1-Zero-Like Training

Zhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng•Apr 1, 2025•623

理解R1-Zero式训练：一个批判性视角
Understanding R1-Zero-Like Training: A Critical Perspective

Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin•Mar 26, 2025•463

VideoScene：一步生成3D场景的视频扩散模型蒸馏技术
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

Hanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan•Apr 2, 2025•402

ScholarCopilot：训练大型语言模型实现精准引用的学术写作
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Yubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen•Apr 1, 2025•402

迈向基于视觉语言模型规划的物理可信视频生成
Towards Physically Plausible Video Generation via VLM Planning

Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia•Mar 30, 2025•393

PaperBench：评估AI复制AI研究的能力
PaperBench: Evaluating AI's Ability to Replicate AI Research

Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan•Apr 2, 2025•362

从视频扩散模型中提取关节运动学信息
Articulated Kinematics Distillation from Video Diffusion Models

Xuan Li, Qianli Ma, Tsung-Yi Lin, Yongxin Chen, Chenfanfu Jiang, Ming-Yu Liu, Donglai Xiang•Apr 1, 2025•243

ILLUME+：通过双重视觉标记化与扩散优化实现统一多模态大模型的精进
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

Runhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu•Apr 2, 2025•234

通过AI反馈的直接偏好优化，提升您的人类图像生成模型
Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

Sanghyeon Na, Yonggyu Kim, Hyunjoon Lee•May 30, 2024•223

保障视觉-语言模型安全：降低基于扰动攻击中高斯噪声的脆弱性
Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

Jiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam•Apr 2, 2025•132

DASH：视觉语言模型系统性幻觉的检测与评估
DASH: Detection and Assessment of Systematic Hallucinations of VLMs

Maximilian Augustin, Yannic Neuhaus, Matthias Hein•Mar 30, 2025•122

MegaTTS 3：稀疏对齐增强的潜在扩散Transformer，用于零样本语音合成
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

Ziyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao•Feb 26, 2025•122

Quamba2：面向选择性状态空间模型的鲁棒可扩展训练后量化框架
Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models

Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu•Mar 28, 2025•102