AI研究論文每日精選

每日精選AI研究論文及翻譯

ROICtrl：提升視覺生成的實例控制
ROICtrl: Boosting Instance Control for Visual Generation

Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou•Nov 27, 2024•712

交錯式場景圖用於交錯式文本和圖像生成的評估
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna•Nov 26, 2024•192

透過頻率分解保持身份的文本到視頻生成
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan•Nov 26, 2024•133

MARVEL-40M+: 多層次視覺闡釋，用於高保真度文本轉3D內容創作
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal•Nov 26, 2024•214

CAT4D：使用多視角視頻擴散模型在4D中創建任何事物
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski•Nov 27, 2024•575

大型語言模型驅動的 GUI 代理：一項調查
Large Language Model-Brained GUI Agents: A Survey

Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang•Nov 27, 2024•323

3D凸面片：使用3D光滑凸面渲染辐射场
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Jan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck•Nov 22, 2024•175

擴散自我蒸餾用於零樣本定制圖像生成
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein•Nov 27, 2024•166

DiffusionDrive：端截式擴散模型用於端對端自主駕駛
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang•Nov 22, 2024•152

Make-It-Animatable: 一個有效的框架，用於製作動畫就緒的3D角色
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Zhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang•Nov 27, 2024•144

協作解碼使視覺自回歸建模更有效率。
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang•Nov 26, 2024•122

DreamCache：通過特徵緩存實現無微調輕量化個性化圖像生成
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli•Nov 26, 2024•123

UniPose：一個統一的多模態框架，用於人體姿勢理解、生成和編輯。
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen•Nov 25, 2024•114

ChatRex：馴服多模式LLM以進行聯合感知與理解
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang•Nov 27, 2024•103

使用多模控制的視訊引導下的佛利聲音生成
Video-Guided Foley Sound Generation with Multimodal Controls

Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon•Nov 26, 2024•102

Omegance：擴散式合成中不同粒度的單一參數
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy•Nov 26, 2024•72

草擬模型知道何時停止：自我驗證長度策略用於推理解碼
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu•Nov 27, 2024•62

VideoLLM 知道何時發聲：透過影片-文字二重互動格式增強時效性影片理解
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao•Nov 27, 2024•52

修改即消失：個人生物識別防禦對抗惡意生成編輯
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Hanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu•Nov 25, 2024•23