AI研究论文每日精选

每日精选AI研究论文及翻译

你的LLMs是否能够稳定推理？
Are Your LLMs Capable of Stable Reasoning?

Junnan Liu, Hongwei Liu, Linchen Xiao, Ziyi Wang, Kuikun Liu, Songyang Gao, Wenwei Zhang, Songyang Zhang, Kai Chen•Dec 17, 2024•953

OmniEval：金融领域全向自动RAG评估基准
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

Shuting Wang, Jiejun Tan, Zhicheng Dou, Ji-Rong Wen•Dec 17, 2024•422

多维洞察：在大型多模态模型中对真实世界个性化进行基准测试
Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models

YiFan Zhang, Shanglin Lei, Runqi Qiao, Zhuoma GongQue, Xiaoshuai Song, Guanting Dong, Qiuna Tan, Zhe Wei, Peiqing Yang, Ye Tian, Yadong Xue, Xiaofei Wang, Honggang Zhang•Dec 17, 2024•423

紧凑的思维链：通过密集表示实现高效推理
Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

Jeffrey Cheng, Benjamin Van Durme•Dec 17, 2024•362

抽象概念的出现：Transformer 中用于上下文学习的概念编码和解码机制
Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers

Seungwook Han, Jinyeop Song, Jeff Gore, Pulkit Agrawal•Dec 16, 2024•152

VisDoM：利用多模态检索增强生成的方式进行具有丰富视觉元素的多文档问答
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation

Manan Suri, Puneet Mathur, Franck Dernoncourt, Kanika Goswami, Ryan A. Rossi, Dinesh Manocha•Dec 14, 2024•152

羽化油门：重访用于加速视觉-语言模型的视觉标记修剪
Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

Mark Endo, Xiaohan Wang, Serena Yeung-Levy•Dec 17, 2024•132

提议者-代理-评估者（PAE）：基于模型的互联网代理自主技能发现
Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents

Yifei Zhou, Qianlan Yang, Kaixiang Lin, Min Bai, Xiong Zhou, Yu-Xiong Wang, Sergey Levine, Erran Li•Dec 17, 2024•122

AI研究论文每日精选

你的LLMs是否能够稳定推理？
Are Your LLMs Capable of Stable Reasoning?

OmniEval：金融领域全向自动RAG评估基准
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

多维洞察：在大型多模态模型中对真实世界个性化进行基准测试
Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models

紧凑的思维链：通过密集表示实现高效推理
Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

抽象概念的出现：Transformer 中用于上下文学习的概念编码和解码机制
Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers

VisDoM：利用多模态检索增强生成的方式进行具有丰富视觉元素的多文档问答
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation

羽化油门：重访用于加速视觉-语言模型的视觉标记修剪
Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

提议者-代理-评估者（PAE）：基于模型的互联网代理自主技能发现
Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents

Marigold-DC：具有引导扩散的零样本单目深度补全
Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion

寻求者：基于中间语言代理框架实现异常安全代码生成
Seeker: Towards Exception Safety Code Generation with Intermediate Language Agents Framework

SUGAR：零样本方式下基于主体驱动的视频定制
SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner

MIVE：多实例视频编辑的新设计与基准。
MIVE: New Design and Benchmark for Multi-Instance Video Editing

何时发言，何时弃权：具有弃权功能的对比解码
When to Speak, When to Abstain: Contrastive Decoding with Abstention

Support

AI研究论文每日精选

你的LLMs是否能够稳定推理？
Are Your LLMs Capable of Stable Reasoning?

OmniEval：金融领域全向自动RAG评估基准
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain

多维洞察：在大型多模态模型中对真实世界个性化进行基准测试
Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models

紧凑的思维链：通过密集表示实现高效推理
Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

抽象概念的出现：Transformer 中用于上下文学习的概念编码和解码机制
Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers

VisDoM：利用多模态检索增强生成的方式进行具有丰富视觉元素的多文档问答
VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation

羽化油门：重访用于加速视觉-语言模型的视觉标记修剪
Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

提议者-代理-评估者（PAE）：基于模型的互联网代理自主技能发现
Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents

Marigold-DC：具有引导扩散的零样本单目深度补全
Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion

寻求者：基于中间语言代理框架实现异常安全代码生成
Seeker: Towards Exception Safety Code Generation with Intermediate Language Agents Framework

SUGAR：零样本方式下基于主体驱动的视频定制
SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner

MIVE：多实例视频编辑的新设计与基准。
MIVE: New Design and Benchmark for Multi-Instance Video Editing

何时发言，何时弃权：具有弃权功能的对比解码
When to Speak, When to Abstain: Contrastive Decoding with Abstention