AI研究论文每日精选

每日精选AI研究论文及翻译

阿波罗：大型多模型模型中视频理解的探索
Apollo: An Exploration of Video Understanding in Large Multimodal Models

Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia•Dec 13, 2024•14713

基因表达：生成可探索世界
GenEx: Generating an Explorable World

Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen•Dec 12, 2024•972

SynerGen-VL：实现视觉专家和标记折叠的协同图像理解与生成
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding

Hao Li, Changyao Tian, Jie Shao, Xizhou Zhu, Zhaokai Wang, Jinguo Zhu, Wenhan Dou, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai•Dec 12, 2024•384

大型动作模型：从构思到实施
Large Action Models: From Inception to Implementation

Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang•Dec 13, 2024•355

BiMediX2：用于多种医疗模态的生物医学专家LMM
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal•Dec 10, 2024•282

FreeScale：通过无需调整的尺度融合释放扩散模型的分辨率
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu•Dec 12, 2024•202

基于残差矢量量化的高效生成建模与标记
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens

Jaehyeon Kim, Taehong Moon, Keon Lee, Jaewoong Cho•Dec 13, 2024•192

InstanceCap：通过实例感知结构化字幕改进文本到视频生成
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption

Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai•Dec 12, 2024•193

ObjectMate：一种用于对象插入和主体驱动生成的循环先验
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation

Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen•Dec 11, 2024•112

FireFlow：用于图像语义编辑的快速矫正流反演
FireFlow: Fast Inversion of Rectified Flow for Image Semantic Editing

Yingying Deng, Xiangyu He, Changwang Mei, Peisong Wang, Fan Tang•Dec 10, 2024•113

SCBench：基于KV缓存的长上下文方法分析
SCBench: A KV Cache-Centric Analysis of Long-Context Methods

Yucheng Li, Huiqiang Jiang, Qianhui Wu, Xufang Luo, Surin Ahn, Chengruidong Zhang, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu•Dec 13, 2024•102

LinGen：实现高分辨率、分钟级文本到视频生成的线性计算复杂度
LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai•Dec 13, 2024•104

FluxSpace：在矫正流变压器中的解缠语义编辑
FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag•Dec 12, 2024•102

具有明确桥梁和检索增强的多模态音乐生成
Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation

Baisen Wang, Le Zhuo, Zhaokai Wang, Chenxi Bao, Wu Chengjing, Xuecheng Nie, Jiao Dai, Jizhong Han, Yue Liao, Si Liu•Dec 12, 2024•74

GReaTer：通过推理梯度使较小的语言模型更强大提示优化器
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers

Sarkar Snigdha Sarathi Das, Ryo Kamoi, Bo Pang, Yusen Zhang, Caiming Xiong, Rui Zhang•Dec 12, 2024•53

SmolTulu：更高的学习率与批量大小比率可能会导致在SLM中更好的推理能力。
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

Sultan Alrashed•Dec 11, 2024•42

TraceVLA：视觉追踪提示增强了通用机器人策略的时空意识。
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang•Dec 13, 2024•22

Prompt2Perturb（P2P）：基于扩散的文本引导对乳腺超声图像的对抗攻击
Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attacks on Breast Ultrasound Images

Yasamin Medghalchi, Moein Heidari, Clayton Allard, Leonid Sigal, Ilker Hacihaliloglu•Dec 13, 2024•12