AI研究論文每日精選

每日精選AI研究論文及翻譯

微分變壓器
Differential Transformer

Tianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun, Yi Zhu, Gao Huang, Furu Wei•Oct 7, 2024•17935

LLaMA-Berry：針對類似O1級奧林匹亞水準的數學推理進行成對優化
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning

Di Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou•Oct 3, 2024•554

LLM知道的比它們展示的更多：關於LLM幻覺的內在表示
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

Hadas Orgad, Michael Toker, Zorik Gekhman, Roi Reichart, Idan Szpektor, Hadas Kotek, Yonatan Belinkov•Oct 3, 2024•495

視訊導引：透過教師指導改善視訊擴散模型的方法
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide

Dohun Lee, Bryan S Kim, Geon Yeong Park, Jong Chul Ye•Oct 6, 2024•303

傅立葉分析網絡：Fourier Analysis Networks
FAN: Fourier Analysis Networks

Yihong Dong, Ge Li, Yongding Tao, Xue Jiang, Kechi Zhang, Jia Li, Jing Su, Jun Zhang, Jingjing Xu•Oct 3, 2024•276

GSM-Symbolic：理解大型語言模型中數學推理的局限性
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar•Oct 7, 2024•226

ScienceAgentBench：朝向對於以數據驅動科學發現的語言代理進行嚴格評估
ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

Ziru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun•Oct 7, 2024•212

如人類般在數位世界中導航：GUI 代理程式的通用視覺基礎
Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents

Boyu Gou, Ruohan Wang, Boyuan Zheng, Yanan Xie, Cheng Chang, Yiheng Shu, Huan Sun, Yu Su•Oct 7, 2024•192

統一文本、音樂和動作生成：UniMuMo
UniMuMo: Unified Text, Music and Motion Generation

Han Yang, Kun Su, Yutong Zhang, Jiaben Chen, Kaizhi Qian, Gaowen Liu, Chuang Gan•Oct 6, 2024•192

MonST3R：在運動存在的情況下估計幾何的簡單方法
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion

Junyi Zhang, Charles Herrmann, Junhwa Hur, Varun Jampani, Trevor Darrell, Forrester Cole, Deqing Sun, Ming-Hsuan Yang•Oct 4, 2024•193

Presto！加速音樂生成的步驟和層級
Presto! Distilling Steps and Layers for Accelerating Music Generation

Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan•Oct 7, 2024•184

臨床實體識別基準。
Named Clinical Entity Recognition Benchmark

Wadood M Abdul, Marco AF Pimentel, Muhammad Umar Salman, Tathagata Raha, Clément Christophe, Praveen K Kanithi, Nasir Hayat, Ronnie Rajan, Shadab Khan•Oct 7, 2024•173

總結：用於大型視覺語言模型的令牌級偵探獎勵模型
TLDR: Token-Level Detective Reward Model for Large Vision Language Models

Deqing Fu, Tong Xiao, Rui Wang, Wang Zhu, Pengchuan Zhang, Guan Pang, Robin Jia, Lawrence Chen•Oct 7, 2024•172

MathHay：一個用於長篇數學推理在LLM中的自動化基準。
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs

Lei Wang, Shan Dong, Yuhui Xu, Hanze Dong, Yalu Wang, Amrita Saha, Ee-Peng Lim, Caiming Xiong, Doyen Sahoo•Oct 7, 2024•133

TurtleBench：透過真實世界的是/否問題評估頂尖語言模型
TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles

Qingchen Yu, Shichao Song, Ke Fang, Yunfeng Shi, Zifan Zheng, Hanyu Wang, Simin Niu, Zhiyu Li•Oct 7, 2024•102

OmniBooth：透過多模態指導學習影像合成的潛在控制
OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction

Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen•Oct 7, 2024•92

在大规模模型合并中有哪些重要因素？
What Matters for Model Merging at Scale?

Prateek Yadav, Tu Vu, Jonathan Lai, Alexandra Chronopoulou, Manaal Faruqui, Mohit Bansal, Tsendsuren Munkhdalai•Oct 4, 2024•82

選擇：圖像分類數據整理策略的大規模基準測試
SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification

Benjamin Feuer, Jiawei Xu, Niv Cohen, Patrick Yubeaton, Govind Mittal, Chinmay Hegde•Oct 7, 2024•72

從文字指令中合成自主角色-場景互動
Autonomous Character-Scene Interaction Synthesis from Text Instruction

Nan Jiang, Zimo He, Zi Wang, Hongjie Li, Yixin Chen, Siyuan Huang, Yixin Zhu•Oct 4, 2024•72

SePPO：半策略偏好優化以達到擴散對齊。
SePPO: Semi-Policy Preference Optimization for Diffusion Alignment

Daoan Zhang, Guangchen Lan, Dong-Jun Han, Wenlin Yao, Xiaoman Pan, Hongming Zhang, Mingxiao Li, Pengcheng Chen, Yu Dong, Christopher Brinton, Jiebo Luo•Oct 7, 2024•52

重新定義視頻傳播中的時間建模：向量化時間步驟方法
Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach

Yaofang Liu, Yumeng Ren, Xiaodong Cun, Aitor Artola, Yang Liu, Tieyong Zeng, Raymond H. Chan, Jean-michel Morel•Oct 4, 2024•52

將語言基礎建立在多角度指涉性溝通中
Grounding Language in Multi-Perspective Referential Communication

Zineng Tang, Lingjun Mao, Alane Suhr•Oct 4, 2024•42

SwiftKV：具有快速預填充優化推論和保留知識的模型轉換
SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation

Aurick Qiao, Zhewei Yao, Samyam Rajbhandari, Yuxiong He•Oct 4, 2024•22