AI研究论文每日精选

每日精选AI研究论文及翻译

面向样式驱动生成的样式友好信噪比采样器
Style-Friendly SNR Sampler for Style-Driven Generation

Jooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon•Nov 22, 2024•353

TÜLU 3：推动开放式语言模型后训练的前沿
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Nathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, Yuling Gu, Saumya Malik, Victoria Graf, Jena D. Hwang, Jiangjiang Yang, Ronan Le Bras, Oyvind Tafjord, Chris Wilhelm, Luca Soldaini, Noah A. Smith, Yizhong Wang, Pradeep Dasigi, Hannaneh Hajishirzi•Nov 22, 2024•632

OminiControl：扩散Transformer的最小通用控制
OminiControl: Minimal and Universal Control for Diffusion Transformer

Zhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang•Nov 22, 2024•6010

一种灵活的大型语言模型防护栏开发方法论用于离题提示检测
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

Gabriel Chua, Shing Yee Chan, Shaun Khoo•Nov 20, 2024•232

我的时间机器：个性化面部年龄转换
MyTimeMachine: Personalized Facial Age Transformation

Luchao Qi, Jiaye Wu, Bang Gong, Annie N. Wang, David W. Jacobs, Roni Sengupta•Nov 21, 2024•222

BALROG：在游戏中对代理式LLM和VLM推理进行基准测试
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Davide Paglieri, Bartłomiej Cupiał, Samuel Coward, Ulyana Piterbarg, Maciej Wolczyk, Akbir Khan, Eduardo Pignatelli, Łukasz Kuciński, Lerrel Pinto, Rob Fergus, Jakob Nicolaus Foerster, Jack Parker-Holder, Tim Rocktäschel•Nov 20, 2024•182

大型多模态模型能够解释大型多模态模型中的特征。
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

Kaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu•Nov 22, 2024•174

VideoEspresso：一个用于细粒度视频推理的大规模思维链数据集，通过核心帧选择
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Songhao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu•Nov 22, 2024•133

通过基于坐标的补丁重建实现长视频的高效标记化
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

Huiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo•Nov 22, 2024•112

利用视频扩散先验进行新视角外推
Novel View Extrapolation with Video Diffusion Priors

Kunhao Liu, Ling Shao, Shijian Lu•Nov 21, 2024•103

VideoRepair：通过错位评估和局部细化改进文本到视频生成
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

Daeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal•Nov 22, 2024•93

AI研究论文每日精选

面向样式驱动生成的样式友好信噪比采样器
Style-Friendly SNR Sampler for Style-Driven Generation

TÜLU 3：推动开放式语言模型后训练的前沿
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

OminiControl：扩散Transformer的最小通用控制
OminiControl: Minimal and Universal Control for Diffusion Transformer

一种灵活的大型语言模型防护栏开发方法论用于离题提示检测
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

我的时间机器：个性化面部年龄转换
MyTimeMachine: Personalized Facial Age Transformation

BALROG：在游戏中对代理式LLM和VLM推理进行基准测试
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

大型多模态模型能够解释大型多模态模型中的特征。
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

VideoEspresso：一个用于细粒度视频推理的大规模思维链数据集，通过核心帧选择
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

通过基于坐标的补丁重建实现长视频的高效标记化
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

利用视频扩散先验进行新视角外推
Novel View Extrapolation with Video Diffusion Priors

VideoRepair：通过错位评估和局部细化改进文本到视频生成
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

WildLMa：野外长时程定位操作
WildLMa: Long Horizon Loco-Manipulation in the Wild

将视觉基础模型调整为在遥感图像中实现稳健的云分割
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

一统天下：自然语言以统一沟通、感知和行动。
One to rule them all: natural language to bind communication, perception and action

Support

AI研究论文每日精选

面向样式驱动生成的样式友好信噪比采样器
Style-Friendly SNR Sampler for Style-Driven Generation

TÜLU 3：推动开放式语言模型后训练的前沿
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

OminiControl：扩散Transformer的最小通用控制
OminiControl: Minimal and Universal Control for Diffusion Transformer

一种灵活的大型语言模型防护栏开发方法论用于离题提示检测
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

我的时间机器：个性化面部年龄转换
MyTimeMachine: Personalized Facial Age Transformation

BALROG：在游戏中对代理式LLM和VLM推理进行基准测试
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

大型多模态模型能够解释大型多模态模型中的特征。
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

VideoEspresso：一个用于细粒度视频推理的大规模思维链数据集，通过核心帧选择
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

通过基于坐标的补丁重建实现长视频的高效标记化
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

利用视频扩散先验进行新视角外推
Novel View Extrapolation with Video Diffusion Priors

VideoRepair：通过错位评估和局部细化改进文本到视频生成
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

WildLMa：野外长时程定位操作
WildLMa: Long Horizon Loco-Manipulation in the Wild

将视觉基础模型调整为在遥感图像中实现稳健的云分割
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

一统天下：自然语言以统一沟通、感知和行动。
One to rule them all: natural language to bind communication, perception and action