AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

수업에서 2.5년: 시각-언어에 대한 다중 모달 교재 사전 훈련
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing•Jan 1, 2025•997

비디오 안이도어: 정확한 모션 제어를 통한 고품질 비디오 객체 삽입
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

Yuanpeng Tu, Hao Luo, Xi Chen, Sihui Ji, Xiang Bai, Hengshuang Zhao•Jan 2, 2025•513

CodeElo: 인간 수준의 Elo 평가를 통해 LLM의 대회 수준 코드 생성 능력을 벤치마킹하기
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

Shanghaoran Quan, Jiaxi Yang, Bowen Yu, Bo Zheng, Dayiheng Liu, An Yang, Xuancheng Ren, Bofei Gao, Yibo Miao, Yunlong Feng, Zekun Wang, Jian Yang, Zeyu Cui, Yang Fan, Yichang Zhang, Binyuan Hui, Junyang Lin•Jan 2, 2025•496

LTX-비디오: 실시간 비디오 잠재 확산
LTX-Video: Realtime Video Latent Diffusion

Yoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi•Dec 30, 2024•423

비디오 LLM을 활용한 공간-시간 객체 이해의 발전을 위한 VideoRefer Suite
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

Yuqian Yuan, Hang Zhang, Wentong Li, Zesen Cheng, Boqiang Zhang, Long Li, Xin Li, Deli Zhao, Wenqiao Zhang, Yueting Zhuang, Jianke Zhu, Lidong Bing•Dec 31, 2024•412

재구성 vs 생성: 잠재 확산 모델에서 최적화 딜레마를 다루다
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

Jingfeng Yao, Xinggang Wang•Jan 2, 2025•372

인간 라벨링 없이 이미지 안전성을 평가하기 위한 MLLM 판별기
MLLM-as-a-Judge for Image Safety without Human Labeling

Zhenting Wang, Shuming Hu, Shiyu Zhao, Xiaowen Lin, Felix Juefei-Xu, Zhuowei Li, Ligong Han, Harihar Subramanyam, Li Chen, Jianfa Chen, Nan Jiang, Lingjuan Lyu, Shiqing Ma, Dimitris N. Metaxas, Ankit Jain•Dec 31, 2024•252

ProgCo: 대형 언어 모델의 자가 교정을 지원하는 프로그램
ProgCo: Program Helps Self-Correction of Large Language Models

Xiaoshuai Song, Yanan Wu, Weixun Wang, Jiaheng Liu, Wenbo Su, Bo Zheng•Jan 2, 2025•252

MapEval: 기초 모델에서 지리 공간 추론의 지도 기반 평가
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez•Dec 31, 2024•222

A3: 모바일 GUI 에이전트를 위한 안드로이드 에이전트 아레나
A3: Android Agent Arena for Mobile GUI Agents

Yuxiang Chai, Hanhao Li, Jiayu Zhang, Liang Liu, Guozhi Wang, Shuai Ren, Siyuan Huang, Hongsheng Li•Jan 2, 2025•223

비디오 언어 모델을 위한 전문화된 시각 인코더 통합
Unifying Specialized Visual Encoders for Video Language Models

Jihoon Chung, Tyler Zhu, Max Gonzalez Saez-Diez, Juan Carlos Niebles, Honglu Zhou, Olga Russakovsky•Jan 2, 2025•212

코드 보상 모델링을 위한 단위 테스트의 동적 스케일링
Dynamic Scaling of Unit Tests for Code Reward Modeling

Zeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang•Jan 2, 2025•172

중첩된 주의: 개념 개인화를 위한 의미 인식 주의 값
Nested Attention: Semantic-aware Attention Values for Concept Personalization

Or Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or•Jan 2, 2025•112

SeedVR: 일반적인 비디오 복원을 위한 확산 트랜스포머에 무한성을 심는다.
SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

Jianyi Wang, Zhijie Lin, Meng Wei, Yang Zhao, Ceyuan Yang, Chen Change Loy, Lu Jiang•Jan 2, 2025•112

MapQaTor: 지도 쿼리 데이터셋을 효율적으로 주석 달 수 있는 시스템
MapQaTor: A System for Efficient Annotation of Map Query Datasets

Mahir Labib Dihan, Mohammed Eunus Ali, Md Rizwan Parvez•Dec 30, 2024•102

최근성과 과도한 평활화의 시각을 통해 상태 공간 모델의 병목 현상을 이해하고 완화하는 방법
Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing

Peihao Wang, Ruisi Cai, Yuehao Wang, Jiajun Zhu, Pragya Srivastava, Zhangyang Wang, Pan Li•Dec 31, 2024•72

인구 인식 확산을 이용한 시계열 생성
Population Aware Diffusion for Time Series Generation

Yang Li, Han Meng, Zhenyu Bi, Ingolv T. Urnes, Haipeng Chen•Jan 1, 2025•62

언어 모델에서 주소 지정을 재고하기: 맥락화된 등변 위치 부호화를 통해
Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

Jiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang•Jan 1, 2025•64

SeFAR: 시간적 왜곡과 학습 안정화를 이용한 준지도 세밀한 행동 인식
SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization

Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao•Jan 2, 2025•52