AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

그게 당신의 최종 답변인가요? 테스트 시간 스케일링이 선택적 질문 응답을 개선합니다
Is That Your Final Answer? Test-Time Scaling Improves Selective Question Answering

William Jurayj, Jeffrey Cheng, Benjamin Van Durme•Feb 19, 2025•31

사운드웨이브: 대규모 언어 모델에서 음성-텍스트 정렬을 위한 '적은 것이 더 많다'
Soundwave: Less is More for Speech-Text Alignment in LLMs

Yuhao Zhang, Zhiheng Liu, Fan Bu, Ruiyu Zhang, Benyou Wang, Haizhou Li•Feb 18, 2025•732

1568개의 토큰을 단일 벡터로 압축하고 다시 복원하기: 임베딩 공간 용량의 한계 탐구
Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity

Yuri Kuratov, Mikhail Arkhipov, Aydar Bulatov, Mikhail Burtsev•Feb 18, 2025•574

언어 모델링을 위한 연속 확산 모델
Continuous Diffusion Model for Language Modeling

Jaehyeong Jo, Sung Ju Hwang•Feb 17, 2025•484

팬텀: 크로스모달 정렬을 통한 주체 일관성 비디오 생성
Phantom: Subject-consistent video generation via cross-modal alignment

Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu•Feb 16, 2025•482

Magma: 멀티모달 AI 에이전트를 위한 기초 모델
Magma: A Foundation Model for Multimodal AI Agents

Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao•Feb 18, 2025•424

멀티모달 맘바: 2차에서 선형으로의 증류를 통한 디코더 전용 멀티모달 상태 공간 모델
Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation

Bencheng Liao, Hongyuan Tao, Qian Zhang, Tianheng Cheng, Yingyue Li, Haoran Yin, Wenyu Liu, Xinggang Wang•Feb 18, 2025•352

주성분 분석을 통한 다양한 인간 선호 학습 재고
Rethinking Diverse Human Preference Learning through Principal Component Analysis

Feng Luo, Rui Yang, Hao Sun, Chunyuan Deng, Jiarui Yao, Jingyan Shen, Huan Zhang, Hanjie Chen•Feb 18, 2025•343

FLAG-Trader: 그래디언트 기반 강화 학습을 통합한 LLM-에이전트 금융 트레이딩 시스템
FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie•Feb 17, 2025•302

트랜스포머의 표현 능력을 완전히 활용하지 못하고 있다
You Do Not Fully Utilize Transformer's Representation Capacity

Gleb Gerasimov, Yaroslav Aksenov, Nikita Balagansky, Viacheslav Sinii, Daniil Gavrilov•Feb 13, 2025•283

SoFar: 언어 기반 방향성으로 공간 추론과 객체 조작 간의 간극을 메우다
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi•Feb 18, 2025•282

SafeRoute: 대규모 언어 모델을 위한 효율적이고 정확한 안전 가드레일을 위한 적응형 모델 선택
SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models

Seanie Lee, Dong Bok Lee, Dominik Wagner, Minki Kang, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang•Feb 18, 2025•262

RealSyn: 효과적이고 확장 가능한 멀티모달 인터리브 문서 변환 패러다임
RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

Tiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng•Feb 18, 2025•152

Text2World: 대규모 언어 모델의 상징적 세계 모델 생성을 위한 벤치마킹
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation

Mengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo•Feb 18, 2025•122

OctoTools: 확장 가능한 도구를 갖춘 복잡한 추론을 위한 에이전트 프레임워크
OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

Pan Lu, Bowen Chen, Sheng Liu, Rahul Thapa, Joseph Boen, James Zou•Feb 16, 2025•123

o1 유사 모델의 테스트 시간 스케일링 재고찰: 이들은 정말로 테스트 시간 스케일링 능력을 갖추고 있는가?
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu•Feb 17, 2025•122

PAFT: 프롬프트 독립적 미세 조정
PAFT: Prompt-Agnostic Fine-Tuning

Chenxing Wei, Yao Shu, Mingwen Ou, Ying Tiffany He, Fei Richard Yu•Feb 18, 2025•117

MUDDFormer: 다중 경로 동적 밀집 연결을 통한 트랜스포머의 잔여 병목 현상 해결
MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections

Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan•Feb 13, 2025•102

마르코프 LLM 테스트 타임 스케일링을 위한 사고의 원자
Atom of Thoughts for Markov LLM Test-Time Scaling

Fengwei Teng, Zhaoyang Yu, Quan Shi, Jiayi Zhang, Chenglin Wu, Yuyu Luo•Feb 17, 2025•92

HealthGPT: 이질적 지식 적응을 통해 이해와 생성을 통합하는 의료 대형 비전-언어 모델
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Tianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi•Feb 14, 2025•82

HeadInfer: 헤드 단위 오프로딩을 통한 메모리 효율적인 LLM 추론
HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading

Cheng Luo, Zefan Cai, Hanshi Sun, Jinqi Xiao, Bo Yuan, Wen Xiao, Junjie Hu, Jiawei Zhao, Beidi Chen, Anima Anandkumar•Feb 18, 2025•82

YOLOv12: 주의 기반 실시간 객체 탐지기
YOLOv12: Attention-Centric Real-Time Object Detectors

Yunjie Tian, Qixiang Ye, David Doermann•Feb 18, 2025•72

DiLoCo에서 중첩된 통신과 계산을 위한 적극적인 업데이트
Eager Updates For Overlapped Communication and Computation in DiLoCo

Satyen Kale, Arthur Douillard, Yanislav Donchev•Feb 18, 2025•72

옵션의 흐름: 옵션을 통해 사고함으로써 다양화되고 개선된 LLM 추론
Flow-of-Options: Diversified and Improved LLM Reasoning by Thinking Through Options

Lakshmi Nair, Ian Trase, Mark Kim•Feb 18, 2025•62

대규모 추론 모델의 숨겨진 위험: R1의 안전성 평가
The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1

Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang•Feb 18, 2025•52

크라우드 비교 추론: LLM-as-a-Judge를 위한 포괄적 평가의 활성화
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge

Qiyuan Zhang, Yufei Wang, Yuxin Jiang, Liangyou Li, Chuhan Wu, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma•Feb 18, 2025•52

도메인 특화 지식을 대규모 언어 모델에 주입하기: 포괄적 조사
Injecting Domain-Specific Knowledge into Large Language Models: A Comprehensive Survey

Zirui Song, Bin Yan, Yuhan Liu, Miao Fang, Mingzhe Li, Rui Yan, Xiuying Chen•Feb 15, 2025•42

페로브스카이트-LLM: 페로브스카이트 태양전지 연구를 위한 지식 강화 대형 언어 모델
Perovskite-LLM: Knowledge-Enhanced Large Language Models for Perovskite Solar Cell Research

Xiang Liu, Penglei Sun, Shuyan Chen, Longhan Zhang, Peijie Dong, Huajie You, Yongqi Zhang, Chang Yan, Xiaowen Chu, Tong-yi Zhang•Feb 18, 2025•22

다국어 인코더가 생각보다 더 많이 알고 있다: 극도로 낮은 자원 언어를 위한 공유 가중치 사전 학습
Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages

Zeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong•Feb 15, 2025•22

자율 에이전트의 확장: 자동 보상 모델링 및 계획을 통한 접근
Scaling Autonomous Agents via Automatic Reward Modeling And Planning

Zhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan•Feb 17, 2025•12