AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

원시 희소 어텐션: 하드웨어에 맞게 정렬되고 원시적으로 학습 가능한 희소 어텐션
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

Jingyang Yuan, Huazuo Gao, Damai Dai, Junyu Luo, Liang Zhao, Zhengyan Zhang, Zhenda Xie, Y. X. Wei, Lean Wang, Zhiping Xiao, Yuqing Wang, Chong Ruan, Ming Zhang, Wenfeng Liang, Wangding Zeng•Feb 16, 2025•1296

SWE-Lancer: Frontier LLM이 현실 세계 프리랜스 소프트웨어 엔지니어링에서 100만 달러를 벌 수 있을까요?
SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?

Samuel Miserendino, Michele Wang, Tejal Patwardhan, Johannes Heidecke•Feb 17, 2025•415

현실 세계의 인간형 로봇을 위한 일어서기 정책 학습
Learning Getting-Up Policies for Real-World Humanoid Robots

Xialin He, Runpei Dong, Zixuan Chen, Saurabh Gupta•Feb 17, 2025•352

ReLearn: 대규모 언어 모델을 위한 학습을 통한 재학습
ReLearn: Unlearning via Learning for Large Language Models

Haoming Xu, Ningyuan Zhao, Liming Yang, Sendong Zhao, Shumin Deng, Mengru Wang, Bryan Hooi, Nay Oo, Huajun Chen, Ningyu Zhang•Feb 16, 2025•282

나는 생각한다, 고로 나는 확산한다: 확산 모델에서 다중 모달 인-컨텍스트 추론 활성화
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu•Feb 12, 2025•273

LLM이 새로운 지식을 어떻게 습득하는가? 지식 회로 관점에서의 지속적 사전 훈련
How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training

Yixin Ou, Yunzhi Yao, Ningyu Zhang, Hui Jin, Jiacheng Sun, Shumin Deng, Zhenguo Li, Huajun Chen•Feb 16, 2025•206

IHEval: 명령어 계층 구조 준수 여부에 대한 언어 모델 평가
IHEval: Evaluating Language Models on Following the Instruction Hierarchy

Zhihan Zhang, Shiyang Li, Zixuan Zhang, Xin Liu, Haoming Jiang, Xianfeng Tang, Yifan Gao, Zheng Li, Haodong Wang, Zhaoxuan Tan, Yichuan Li, Qingyu Yin, Bing Yin, Meng Jiang•Feb 12, 2025•182

크레인: 제약 조건이 있는 LLM 생성과 추론
CRANE: Reasoning with constrained LLM generation

Debangshu Banerjee, Tarun Suresh, Shubham Ugare, Sasa Misailovic, Gagandeep Singh•Feb 13, 2025•182

HermesFlow: 다중 모달 이해와 생성 간의 간극을 원활하게 메우다
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui•Feb 17, 2025•162

오픈 소스 모델을 활용한 사용자 선호도에 대한 시스템 메시지 생성
System Message Generation for User Preferences using Open-Source Models

Minbyul Jeong, Jungho Cho, Minsoo Khang, Dawoon Jung, Teakgyu Hong•Feb 17, 2025•152

확산-선명화: 소음 제거 궤적 선명화를 통한 확산 모델 세밀 조정
Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui•Feb 17, 2025•153

어떤 양식으로도 질문하라: 다중 양식 검색 증강 생성에 대한 종합적 조사
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation

Mohammad Mahdi Abootorabi, Amirhosein Zobeiri, Mahdi Dehghani, Mohammadali Mohammadkhani, Bardia Mohammadi, Omid Ghahroodi, Mahdieh Soleymani Baghshah, Ehsaneddin Asgari•Feb 12, 2025•142

자연 비디오에서의 자기 지도 사전 훈련으로부터 직관적 물리학 이해가 나타난다.
Intuitive physics understanding emerges from self-supervised pretraining on natural videos

Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun•Feb 17, 2025•122

SURGE: 대형 언어 모델의 일반 목적 대리 코드 실행기로의 잠재력
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors

Bohan Lyu, Siqiao Huang, Zichen Liang•Feb 16, 2025•112

모델 편집의 신화: 야외 평가 재방문
The Mirage of Model Editing: Revisiting Evaluation in the Wild

Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Qi Cao, Dawei Yin, Huawei Shen, Xueqi Cheng•Feb 16, 2025•102

구조적으로 대화하고 계층적으로 행동하기: LLM 다중 에이전트 시스템을 위한 협업 프레임워크
Talk Structurally, Act Hierarchically: A Collaborative Framework for LLM Multi-Agent Systems

Zhao Wang, Sota Moriyama, Wei-Yao Wang, Briti Gangopadhyay, Shingo Takamatsu•Feb 16, 2025•102

Sailor2: 동남아시아에서 포용적 다국어 LLM 항해하기
Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLMs

Longxu Dou, Qian Liu, Fan Zhou, Changyu Chen, Zili Wang, Ziqi Jin, Zichen Liu, Tongyao Zhu, Cunxiao Du, Penghui Yang, Haonan Wang, Jiaheng Liu, Yongchi Zhao, Xiachong Feng, Xin Mao, Man Tsung Yeung, Kunat Pipatanakul, Fajri Koto, Min Si Thu, Hynek Kydlíček, Zeyi Liu, Qunshu Lin, Sittipong Sripaisarnmongkol, Kridtaphad Sae-Khow, Nirattisai Thongchim, Taechawat Konkaew, Narong Borijindargoon, Anh Dao, Matichon Maneegard, Phakphum Artkaew, Zheng-Xin Yong, Quan Nguyen, Wannaphong Phatthiyaphaibun, Hoang H. Tran, Mike Zhang, Shiqi Chen, Tianyu Pang, Chao Du, Xinyi Wan, Wei Lu, Min Lin•Feb 18, 2025•94

탐색기: 멀티모달 웹 에이전트를 위한 탐색 기반 웹 궤적 합성의 확장
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah•Feb 17, 2025•92

비디오-SALMONN-o1: 추론 강화 오디오-시각 대형 언어 모델
video-SALMONN-o1: Reasoning-enhanced Audio-visual Large Language Model

Guangzhi Sun, Yudong Yang, Jimin Zhuang, Changli Tang, Yixuan Li, Wei Li, Zejun MA, Chao Zhang•Feb 17, 2025•82

매직아티큘레이트: 3D 모델을 관절 구조에 맞게 만들어보세요
MagicArticulate: Make Your 3D Models Articulation-Ready

Chaoyue Song, Jianfeng Zhang, Xiu Li, Fan Yang, Yiwen Chen, Zhongcong Xu, Jun Hao Liew, Xiaoyang Guo, Fayao Liu, Jiashi Feng, Guosheng Lin•Feb 17, 2025•72

SAFE-SQL: 텍스트에서 SQL로의 섬세한 예제 선택을 위한 자가 증강된 맥락 학습
SAFE-SQL: Self-Augmented In-Context Learning with Fine-grained Example Selection for Text-to-SQL

Jimin Lee, Ingeol Baek, Byeongjeong Kim, Hwanhee Lee•Feb 17, 2025•72

Dyve: 동적 프로세스 검증을 위한 빠르고 느린 사고
Dyve: Thinking Fast and Slow for Dynamic Process Verification

Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Qiang Xu•Feb 16, 2025•62

한 예가 보여지면, 많은 개념이 알려집니다! 수학적 LLMs에서의 반례 주도 개념 추론
One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs

Yinghui Li, Jiayi Kuang, Haojing Huang, Zhikun Xu, Xinnian Liang, Yi Yu, Wenlian Lu, Yangning Li, Xiaoyu Tan, Chao Qu, Ying Shen, Hai-Tao Zheng, Philip S. Yu•Feb 12, 2025•62

커쿠: LLM 공식의 인터네트에 반응한 IE 프리라이더
Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang•Feb 16, 2025•62

데이터 희귀성 하에서 GPT-4o보다 64% 더 나은 증명 중심 프로그래머 구축하기
Building A Proof-Oriented Programmer That Is 64% Better Than GPT-4o Under Data Scarsity

Dylan Zhang, Justin Wang, Tianran Sun•Feb 17, 2025•62

EQ-VAE: 생성적 이미지 모델링 향상을 위한 등변성 정규화 잠재 공간
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling

Theodoros Kouzelis, Ioannis Kakogeorgiou, Spyros Gidaris, Nikos Komodakis•Feb 13, 2025•52

기억, 벤치마크 및 로봇: 강화 학습을 통해 복잡한 작업 해결을 위한 벤치마크
Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Egor Cherepanov, Nikita Kachaev, Alexey K. Kovalev, Aleksandr I. Panov•Feb 14, 2025•52

물리학 기반 추론을 향한 포괄적인 벤치마크인 PhysReason
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

Xinyu Zhang, Yuxuan Dong, Yanrui Wu, Jiaxing Huang, Chengyou Jia, Basura Fernando, Mike Zheng Shou, Lingling Zhang, Jun Liu•Feb 17, 2025•52

ILIAS: 대규모 인스턴스 수준 이미지 검색
ILIAS: Instance-Level Image retrieval At Scale

Giorgos Kordopatis-Zilos, Vladan Stojnić, Anna Manko, Pavel Šuma, Nikolaos-Antonios Ypsilantis, Nikos Efthymiadis, Zakaria Laskar, Jiří Matas, Ondřej Chum, Giorgos Tolias•Feb 17, 2025•42

단일 모델이 다중 턴 대화와 도구 사용을 모두 마스터할 수 있을까? CALM: 통합된 대화형 에이전트 언어 모델
Can a Single Model Master Both Multi-turn Conversations and Tool Use? CALM: A Unified Conversational Agentic Language Model

Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur•Feb 12, 2025•42

작업을 보여주세요: 설명 가능한 자동 사실 확인을 위한 사실 확인자의 요구 사항
Show Me the Work: Fact-Checkers' Requirements for Explainable Automated Fact-Checking

Greta Warren, Irina Shklovski, Isabelle Augenstein•Feb 13, 2025•42

ExaGPT: 인간 해석 가능성을 위한 예제 기반 기계 생성 텍스트 탐지
ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability

Ryuto Koike, Masahiro Kaneko, Ayana Niwa, Preslav Nakov, Naoaki Okazaki•Feb 17, 2025•02

LLM 성능 평가를 위한 소음이 있는 제로샷 프록시로서의 언어 복잡도 측정
Language Complexity Measurement as a Noisy Zero-Shot Proxy for Evaluating LLM Performance

Birger Moell, Johan Boye•Feb 17, 2025•02