AI研究論文每日精選

每日精選AI研究論文及翻譯

位元潛隱轉換器：分塊比記號更有效率
Byte Latent Transformer: Patches Scale Better Than Tokens

Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer•Dec 13, 2024•1028

RetroLLM：賦能大型語言模型以檢索生成過程中的細粒度證據
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yongkang Wu, Zhonghua Li, Qi Ye, Zhicheng Dou•Dec 16, 2024•374

評估代理：視覺生成模型的高效且可提示評估框架
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Fan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu•Dec 10, 2024•372

BrushEdit：一體化圖像修補和編輯
BrushEdit: All-In-One Image Inpainting and Editing

Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu•Dec 13, 2024•353

較小的語言模型更適合進化指導者。
Smaller Language Models Are Better Instruction Evolvers

Tingfeng Hui, Lulu Zhao, Guanting Dong, Yaqi Zhang, Hua Zhou, Sen Su•Dec 15, 2024•292

ColorFlow：檢索增強影像序列著色
ColorFlow: Retrieval-Augmented Image Sequence Colorization

Junhao Zhuang, Xuan Ju, Zhaoyang Zhang, Yong Liu, Shiyi Zhang, Chun Yuan, Ying Shan•Dec 16, 2024•264

因果擴散轉換器用於生成建模
Causal Diffusion Transformers for Generative Modeling

Chaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan•Dec 16, 2024•233

SPaR：自我對弈搭配樹搜索精煉以提升大型語言模型中的指令遵循
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang•Dec 16, 2024•182

仙境：從單張圖像導航3D場景
Wonderland: Navigating 3D Scenes from a Single Image

Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren•Dec 16, 2024•162

高斯性質：將物理特性整合到具有LMMs的3D高斯函數
GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Xinli Xu, Wenhang Ge, Dicong Qiu, ZhiFei Chen, Dongyu Yan, Zhuoyun Liu, Haoyu Zhao, Hanfeng Zhao, Shunsi Zhang, Junwei Liang, Ying-Cong Chen•Dec 15, 2024•132

IDArb：針對任意數量的輸入視圖和光線的內在分解。
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin•Dec 16, 2024•122

VividFace：一個基於擴散的混合框架，用於高保真度視頻人臉交換
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li•Dec 15, 2024•122

SepLLM：通過將一個片段壓縮為一個分隔符來加速大型語言模型
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang•Dec 16, 2024•115

StrandHead：使用頭髮幾何先驗將文本轉換為解耦合的3D頭像
StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors

Xiaokun Sun, Zeyu Cai, Zhenyu Zhang, Ying Tai, Jian Yang•Dec 16, 2024•112

大型語言模型（LLMs）中的開源優勢
The Open Source Advantage in Large Language Models (LLMs)

Jiya Manchanda, Laura Boettcher, Matheus Westphalen, Jasser Jasser•Dec 16, 2024•102

Emma-X：一個具體的多模態行動模型，具有基於連貫思維和前瞻空間推理的基礎链。
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

Qi Sun, Pengfei Hong, Tej Deep Pala, Vernon Toh, U-Xuan Tan, Deepanway Ghosal, Soujanya Poria•Dec 16, 2024•92

精彩的矩陣：結合以打造更高效和有效的基礎模型架構
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

Jingze Shi, Bingheng Wu•Dec 16, 2024•82

DynamicScaler：全景場景的無縫且可擴展視頻生成
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang•Dec 15, 2024•72

SplineGS：適用於單眼視頻的實時動態3D高斯模型的穩健運動自適應樣条
SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video

Jongmin Park, Minh-Quan Viet Bui, Juan Luis Gonzalez Bello, Jaeho Moon, Jihyong Oh, Munchurl Kim•Dec 13, 2024•73

MOVIS：增強室內場景多物體新視角合成
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

Ruijie Lu, Yixin Chen, Junfeng Ni, Baoxiong Jia, Yu Liu, Diwen Wan, Gang Zeng, Siyuan Huang•Dec 16, 2024•62

MaxInfoRL：通過最大化信息增益來增強強化學習中的探索
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Bhavya Sukhija, Stelian Coros, Andreas Krause, Pieter Abbeel, Carmelo Sferrazza•Dec 16, 2024•52