AI研究論文每日精選

每日精選AI研究論文及翻譯

Seaweed-7B：高效成本訓練的視頻生成基礎模型
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Team Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang•Apr 11, 2025•10610

GigaTok：將視覺標記器擴展至30億參數以實現自回歸圖像生成
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu•Apr 11, 2025•392

MineWorld：一個基於《我的世界》的即時開源互動世界模型
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Junliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian•Apr 11, 2025•373

SQL-R1：透過強化學習訓練自然語言到SQL推理模型
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

Peixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo•Apr 11, 2025•222

VLM-R1：一款穩定且具泛化能力的R1風格大型視覺語言模型
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao•Apr 10, 2025•202

ZipIR：用於高解析度影像修復的潛在金字塔擴散變換器
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo•Apr 11, 2025•142

PixelFlow：基於像素空間的流生成模型
PixelFlow: Pixel-Space Generative Models with Flow

Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo•Apr 10, 2025•146

視覺編年史：運用多模態大語言模型解析海量圖像集
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

Boyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser•Apr 11, 2025•82

FlexIP：定制化圖像生成中保存與個性化的動態控制
FlexIP: Dynamic Control of Preservation and Personality for Customized Image Generation

Linyan Huang, Haonan Lin, Yanning Zhou, Kaiwen Xiao•Apr 10, 2025•82

CoRAG：協作式檢索增強生成
CoRAG: Collaborative Retrieval-Augmented Generation

Aashiq Muhamed, Mona Diab, Virginia Smith•Apr 2, 2025•82

ModernBERT 還是 DeBERTaV3？探討架構與資料對 Transformer 編碼器模型效能的影響
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

Wissam Antoun, Benoît Sagot, Djamé Seddah•Apr 11, 2025•73

博士級大型語言模型是否真正掌握基礎加法？探討大型語言模型中的規則學習與記憶之別
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan•Apr 7, 2025•74

In-2-4D：從兩張單視圖圖像到四維生成的過渡動畫生成
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation

Sauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri•Apr 11, 2025•52

無需訓練的文本到視頻生成指導：通過多模態規劃與結構化噪聲初始化
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal•Apr 11, 2025•42

UKBOB：十億個MRI標註遮罩，用於可泛化的3D醫學影像分割
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation

Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi•Apr 9, 2025•42

BlenderGym：圖形編輯基礎模型系統的基準測試平台
BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing

Yunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas Guibas•Apr 2, 2025•42

潛在擴散自編碼器：邁向醫學影像中高效且有意義的無監督表徵學習
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging

Gabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman•Apr 11, 2025•32

SpecReason：通過推測性推理實現快速且準確的推斷時計算
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali•Apr 10, 2025•32

稀疏自編碼器（SAE）可提升遺忘效能：動態稀疏自編碼器為大語言模型中的精確遺忘提供保障
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith•Apr 11, 2025•22

InteractVLM：基於2D基礎模型的3D互動推理
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

Sai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas•Apr 7, 2025•12