AI研究论文每日精选

每日精选AI研究论文及翻译

Seaweed-7B：视频生成基础模型的高效低成本训练
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Team Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang•Apr 11, 2025•12110

GigaTok：将视觉分词器扩展至30亿参数，实现自回归图像生成
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu•Apr 11, 2025•472

MineWorld：一个基于《我的世界》的实时开源交互式世界模型
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Junliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian•Apr 11, 2025•393

VLM-R1：一款稳定且泛化能力强的R1风格大型视觉-语言模型
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao•Apr 10, 2025•302

SQL-R1：通过强化学习训练自然语言到SQL推理模型
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

Peixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo•Apr 11, 2025•262

PixelFlow：基于像素空间的流生成模型
PixelFlow: Pixel-Space Generative Models with Flow

Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo•Apr 10, 2025•196

ZipIR：基于潜在金字塔扩散变换器的高分辨率图像复原
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo•Apr 11, 2025•182

FlexIP：动态控制保存与个性以实现定制化图像生成
FlexIP: Dynamic Control of Preservation and Personality for Customized Image Generation

Linyan Huang, Haonan Lin, Yanning Zhou, Kaiwen Xiao•Apr 10, 2025•122

视觉编年史：运用多模态大语言模型解析海量图像集
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

Boyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser•Apr 11, 2025•112

博士级大语言模型是否真正掌握了基础加法？探究大语言模型中的规则学习与记忆机制
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan•Apr 7, 2025•116

现代BERT还是DeBERTaV3？探究架构与数据对Transformer编码器模型性能的影响
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

Wissam Antoun, Benoît Sagot, Djamé Seddah•Apr 11, 2025•103

CoRAG：协作式检索增强生成
CoRAG: Collaborative Retrieval-Augmented Generation

Aashiq Muhamed, Mona Diab, Virginia Smith•Apr 2, 2025•102

In-2-4D：从两张单视图图像到四维生成的中间帧生成
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation

Sauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri•Apr 11, 2025•92

无训练指导的文本到视频生成：通过多模态规划与结构化噪声初始化实现
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal•Apr 11, 2025•72

UKBOB：十亿级MRI标注掩码，助力通用化3D医学图像分割
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation

Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi•Apr 9, 2025•72

BlenderGym：图形编辑基础模型系统基准测试平台
BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing

Yunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas Guibas•Apr 2, 2025•62

潜在扩散自编码器：迈向医学影像中高效且有意义的无监督表征学习
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging

Gabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman•Apr 11, 2025•52

SpecReason：通过推测推理实现快速准确的推理时计算
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali•Apr 10, 2025•52

InteractVLM：基于2D基础模型的3D交互推理
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

Sai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas•Apr 7, 2025•52

稀疏自编码器助力遗忘优化：动态稀疏自编码器为大型语言模型提供精准遗忘的防护机制
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith•Apr 11, 2025•42