AI研究论文每日精选

每日精选AI研究论文及翻译

葡萄：通过偏好对齐泛化机器人策略
GRAPE: Generalizing Robot Policy via Preference Alignment

Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao•Nov 28, 2024•482

无需视频模型的视频深度
Video Depth without Video Models

Bingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler•Nov 28, 2024•397

超越示例：基于MCTS的上层自动推理范式在上下文学习中
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

Jinyang Wu, Mingkuan Feng, Shuai Zhang, Feihu Che, Zengqi Wen, Jianhua Tao•Nov 27, 2024•3814

Yi-Lightning 技术报告
Yi-Lightning Technical Report

01. AI, Alan Wake, Albert Wang, Bei Chen, C. X. Lv, Chao Li, Chengen Huang, Chenglin Cai, Chujie Zheng, Daniel Cooper, Ethan Dai, Fan Zhou, Feng Hu, Heng Ji, Howard Qiu, Jiangcheng Zhu, Jun Tian, Katherine Su, Lihuan Zhang, Liying Li, Ming Song, Mou Li, Peng Liu, Qichen Hu, Shawn Wang, Shijun Zhou, Shiyong Li, Tianhang Zhu, Wen Xie, Xiang He, Xiaobo Chen, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Yanpeng Li, Yongke Zhao, Yongzhen Luo, Yuchi Xu, Yuxuan Sha, Zhaodong Yan, Zhiyuan Liu, Zirui Zhang•Dec 2, 2024•292

关于多模态大型语言模型领域特定后训练
On Domain-Specific Post-Training for Multimodal Large Language Models

Daixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang•Nov 29, 2024•293

增强视频扩散采样的时空跳跃引导
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

Junha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo•Nov 27, 2024•243

反向思维使LLM更强大的推理者。
Reverse Thinking Makes LLMs Stronger Reasoners

Justin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister•Nov 29, 2024•232

时间步嵌入告诉我们：是时候为视频扩散模型缓存数据了。
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan•Nov 28, 2024•192

FAM扩散：稳定扩散下的高分辨率图像生成中的频率和注意力调制
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Haosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez•Nov 27, 2024•182

谜题：基于蒸馏的用于推理优化的LLM的NAS
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Akhiad Bercovich, Tomer Ronen, Talor Abramovich, Nir Ailon, Nave Assaf, Mohammad Dabbah, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Netanel Haber, Ehud Karpas, Itay Levy, Shahar Mor, Zach Moshe, Najeeb Nabwani, Omri Puny, Ran Rubin, Itamar Schen, Ido Shahaf, Oren Tropp, Omer Ullman Argov, Ran Zilberstein, Ran El-Yaniv•Nov 28, 2024•172

为低比特率高质量语音编码扩展Transformer
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Julian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu•Nov 29, 2024•123

细粒度视频运动控制的轨迹注意力
Trajectory Attention for Fine-grained Video Motion Control

Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan•Nov 28, 2024•122

一次性查看每一帧：使用多轴梯度检查点的Video-Ma^2mba实现高效的长视频理解
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

Hosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro•Nov 29, 2024•112

DisCoRD：通过修正流实现从离散标记到连续运动的解码
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu•Nov 29, 2024•102

MATATA：一种用于表格应用的弱监督数学工具辅助推理
MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications

Vishnou Vinayagame, Gregory Senay, Luis Martí•Nov 28, 2024•82

AC3D：分析和改进视频传播中的3D摄像机控制变压器
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Sherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov•Nov 27, 2024•82

AlphaTablets：一种用于从单目视频中进行3D平面重建的通用平面表示方式
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos

Yuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu•Nov 29, 2024•62

DeMo: 解耦动量优化
DeMo: Decoupled Momentum Optimization

Bowen Peng, Jeffrey Quesnelle, Diederik P. Kingma•Nov 29, 2024•62

LLM教师-学生框架用于无需手动标注数据的文本分类：IPTC新闻主题分类案例研究
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Taja Kuzman, Nikola Ljubešić•Nov 29, 2024•62

SpotLight：通过扩散实现阴影引导的物体重照。
SpotLight: Shadow-Guided Object Relighting via Diffusion

Frédéric Fortier-Chouinard, Zitian Zhang, Louis-Etienne Messier, Mathieu Garon, Anand Bhattad, Jean-François Lalonde•Nov 27, 2024•31

训练噪声标记修剪
Training Noise Token Pruning

Mingxing Rao, Bohan Jiang, Daniel Moyer•Nov 27, 2024•12