AI研究論文每日精選

每日精選AI研究論文及翻譯

MaskLLM：適用於大型語言模型的可學習半結構稀疏性
MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

Gongfan Fang, Hongxu Yin, Saurav Muralidharan, Greg Heinrich, Jeff Pool, Jan Kautz, Pavlo Molchanov, Xinchao Wang•Sep 26, 2024•483

EMOVA：賦予語言模型看、聽和說話的生動情感力量
EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu•Sep 26, 2024•4113

LLaVA-3D：一個簡單而有效的方法，賦予語言模型更強大的3D感知能力
LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu•Sep 26, 2024•352

Lotus：基於擴散的視覺基礎模型，用於高質量密集預測
Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction

Jing He, Haodong Li, Wei Yin, Yixun Liang, Leheng Li, Kaiqiang Zhou, Hongbo Liu, Bingbing Liu, Ying-Cong Chen•Sep 26, 2024•342

無需調整指示的指示跟隨
Instruction Following without Instruction Tuning

John Hewitt, Nelson F. Liu, Percy Liang, Christopher D. Manning•Sep 21, 2024•314

在早期層中發現寶石：加速長文本LLM，並實現1000倍輸入標記減少。
Discovering the Gems in Early Layers: Accelerating Long-Context LLMs with 1000x Input Token Reduction

Zhenmei Shi, Yifei Ming, Xuan-Phi Nguyen, Yingyu Liang, Shafiq Joty•Sep 25, 2024•265

像素空間下的潛在擴散模型事後訓練
Pixel-Space Post-Training of Latent Diffusion Models

Christina Zhang, Simran Motwani, Matthew Yu, Ji Hou, Felix Juefei-Xu, Sam Tsai, Peter Vajda, Zijian He, Jialiang Wang•Sep 26, 2024•222

在LLM時代進行對話分析的必要性：任務、技術和趨勢的調查
The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends

Xinghua Zhang, Haiyang Yu, Yongbin Li, Minzheng Wang, Longze Chen, Fei Huang•Sep 21, 2024•132

Disco4D：從單張圖像生成和動畫化解耦的4D人類模型
Disco4D: Disentangled 4D Human Generation and Animation from a Single Image

Hui En Pang, Shuai Liu, Zhongang Cai, Lei Yang, Tianwei Zhang, Ziwei Liu•Sep 25, 2024•112

通過使用 Token 池化，在最小化性能影響的情況下減少多向量檢索的足跡
Reducing the Footprint of Multi-Vector Retrieval with Minimal Performance Impact via Token Pooling

Benjamin Clavié, Antoine Chaffin, Griffin Adams•Sep 23, 2024•112

機器人觀察機器人學：使用單眼4D重建模仿關節物體操作
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction

Justin Kerr, Chung Min Kim, Mingxuan Wu, Brent Yi, Qianqian Wang, Ken Goldberg, Angjoo Kanazawa•Sep 26, 2024•92

利用GraphRAG增強結構化數據檢索：足球數據案例研究
Enhancing Structured-Data Retrieval with GraphRAG: Soccer Data Case Study

Zahra Sepasdar, Sushant Gautam, Cise Midoglu, Michael A. Riegler, Pål Halvorsen•Sep 26, 2024•92