AI研究论文每日精选

每日精选AI研究论文及翻译

字节潜变换器：补丁比记号更好地扩展规模
Byte Latent Transformer: Patches Scale Better Than Tokens

Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer•Dec 13, 2024•1028

RetroLLM：赋能大型语言模型以检索生成过程中的细粒度证据
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yongkang Wu, Zhonghua Li, Qi Ye, Zhicheng Dou•Dec 16, 2024•374

评估代理：用于视觉生成模型的高效且可提示的评估框架
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Fan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu•Dec 10, 2024•372

BrushEdit：一体化图像修复和编辑
BrushEdit: All-In-One Image Inpainting and Editing

Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu•Dec 13, 2024•353

较小的语言模型更适合作为指导演进器
Smaller Language Models Are Better Instruction Evolvers

Tingfeng Hui, Lulu Zhao, Guanting Dong, Yaqi Zhang, Hua Zhou, Sen Su•Dec 15, 2024•292

ColorFlow: 检索增强型图像序列着色
ColorFlow: Retrieval-Augmented Image Sequence Colorization

Junhao Zhuang, Xuan Ju, Zhaoyang Zhang, Yong Liu, Shiyi Zhang, Chun Yuan, Ying Shan•Dec 16, 2024•264

因果扩散变换器用于生成建模
Causal Diffusion Transformers for Generative Modeling

Chaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan•Dec 16, 2024•233

SPaR：自我对弈与树搜索细化，以提高大型语言模型中的指令遵循能力
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang•Dec 16, 2024•182

奇境：从单个图像导航3D场景
Wonderland: Navigating 3D Scenes from a Single Image

Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren•Dec 16, 2024•162

高斯属性：将物理属性集成到具有LMMs的3D高斯函数中
GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Xinli Xu, Wenhang Ge, Dicong Qiu, ZhiFei Chen, Dongyu Yan, Zhuoyun Liu, Haoyu Zhao, Hanfeng Zhao, Shunsi Zhang, Junwei Liang, Ying-Cong Chen•Dec 15, 2024•132

IDArb：任意数量的输入视图和光照的内在分解
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin•Dec 16, 2024•122

VividFace：一种基于扩散的高保真视频人脸交换混合框架
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li•Dec 15, 2024•122

SepLLM：通过将一个段落压缩为一个分隔符来加速大型语言模型
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang•Dec 16, 2024•115

StrandHead：使用头发几何先验将文本转换为分离的三维头部化身
StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors

Xiaokun Sun, Zeyu Cai, Zhenyu Zhang, Ying Tai, Jian Yang•Dec 16, 2024•112

大型语言模型（LLMs）中的开源优势
The Open Source Advantage in Large Language Models (LLMs)

Jiya Manchanda, Laura Boettcher, Matheus Westphalen, Jasser Jasser•Dec 16, 2024•102

Emma-X：一种具有基于链式思维和前瞻空间推理的具身多模态行为模型
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

Qi Sun, Pengfei Hong, Tej Deep Pala, Vernon Toh, U-Xuan Tan, Deepanway Ghosal, Soujanya Poria•Dec 16, 2024•92

精彩的矩阵：结合以打造更高效和有效的基础模型架构
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

Jingze Shi, Bingheng Wu•Dec 16, 2024•82

DynamicScaler：全景场景视频生成的无缝可扩展性。
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang•Dec 15, 2024•72

SplineGS：用于实时动态3D高斯模型的鲁棒运动自适应样条线从单目视频
SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video

Jongmin Park, Minh-Quan Viet Bui, Juan Luis Gonzalez Bello, Jaeho Moon, Jihyong Oh, Munchurl Kim•Dec 13, 2024•73

MOVIS：增强室内场景多物体新视图合成
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

Ruijie Lu, Yixin Chen, Junfeng Ni, Baoxiong Jia, Yu Liu, Diwen Wan, Gang Zeng, Siyuan Huang•Dec 16, 2024•62

MaxInfoRL：通过最大化信息增益来增强强化学习中的探索
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Bhavya Sukhija, Stelian Coros, Andreas Krause, Pieter Abbeel, Carmelo Sferrazza•Dec 16, 2024•52