AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

자가 진화하는 비평가를 통해 확장 가능한 감독 기능 활성화
Enabling Scalable Oversight via Self-Evolving Critic

Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin•Jan 10, 2025•702

비디오 코퍼스 상에서 검색 보강 생성 (VideoRAG)
VideoRAG: Retrieval-Augmented Generation over Video Corpus

Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang•Jan 10, 2025•676

LlamaV-o1: LLM에서 단계별 시각적 추론 재고하기
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan•Jan 10, 2025•615

OmniManip: 객체 중심 상호작용 원시체를 공간 제약 조건으로 통해 일반적인 로봇 조작으로의 발전
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Mingjie Pan, Jiyao Zhang, Tianshu Wu, Yinghao Zhao, Wenlong Gao, Hao Dong•Jan 7, 2025•533

OVO-Bench: 귀하의 비디오-LLMs가 현실 세계 온라인 비디오 이해와 얼마나 떨어져 있는가?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang•Jan 9, 2025•392

Migician: 다중 모달 대형 언어 모델에서의 자유 형식 다중 이미지 그라운딩의 마법을 드러내다
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun•Jan 10, 2025•282

다중 에이전트 파인튜닝: 다양한 추론 체인을 활용한 자가 개선
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

Vighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch•Jan 10, 2025•202

ReFocus: 구조화된 이미지 이해를 위한 사고 체인으로서의 시각 편집
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang•Jan 9, 2025•152

ConceptMaster: 테스트 시간 조정 없이 확산 트랜스포머 모델에서의 다중 개념 비디오 사용자 정의
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

Yuzhou Huang, Ziyang Yuan, Quande Liu, Qiulin Wang, Xintao Wang, Ruimao Zhang, Pengfei Wan, Di Zhang, Kun Gai•Jan 8, 2025•142

AI 연구 논문 데일리

자가 진화하는 비평가를 통해 확장 가능한 감독 기능 활성화
Enabling Scalable Oversight via Self-Evolving Critic

비디오 코퍼스 상에서 검색 보강 생성 (VideoRAG)
VideoRAG: Retrieval-Augmented Generation over Video Corpus

LlamaV-o1: LLM에서 단계별 시각적 추론 재고하기
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

OmniManip: 객체 중심 상호작용 원시체를 공간 제약 조건으로 통해 일반적인 로봇 조작으로의 발전
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

OVO-Bench: 귀하의 비디오-LLMs가 현실 세계 온라인 비디오 이해와 얼마나 떨어져 있는가?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Migician: 다중 모달 대형 언어 모델에서의 자유 형식 다중 이미지 그라운딩의 마법을 드러내다
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

다중 에이전트 파인튜닝: 다양한 추론 체인을 활용한 자가 개선
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

ReFocus: 구조화된 이미지 이해를 위한 사고 체인으로서의 시각 편집
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

ConceptMaster: 테스트 시간 조정 없이 확산 트랜스포머 모델에서의 다중 개념 비디오 사용자 정의
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

비디오 생성에서의 다중 주제 오픈셋 개인화
Multi-subject Open-set Personalization in Video Generation

셀 애니메이션을 위한 생성 모델: 조사
Generative AI for Cel-Animation: A Survey

생성 모델 인공지능에 바이러스 감염하기
Infecting Generative AI With Viruses

금융 LLM을 위한 도메인 적응형 사후 훈련의 실체 해명
Demystifying Domain-adaptive Post-training for Financial LLMs

Support

AI 연구 논문 데일리

자가 진화하는 비평가를 통해 확장 가능한 감독 기능 활성화
Enabling Scalable Oversight via Self-Evolving Critic

비디오 코퍼스 상에서 검색 보강 생성 (VideoRAG)
VideoRAG: Retrieval-Augmented Generation over Video Corpus

LlamaV-o1: LLM에서 단계별 시각적 추론 재고하기
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

OmniManip: 객체 중심 상호작용 원시체를 공간 제약 조건으로 통해 일반적인 로봇 조작으로의 발전
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

OVO-Bench: 귀하의 비디오-LLMs가 현실 세계 온라인 비디오 이해와 얼마나 떨어져 있는가?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Migician: 다중 모달 대형 언어 모델에서의 자유 형식 다중 이미지 그라운딩의 마법을 드러내다
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

다중 에이전트 파인튜닝: 다양한 추론 체인을 활용한 자가 개선
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

ReFocus: 구조화된 이미지 이해를 위한 사고 체인으로서의 시각 편집
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

ConceptMaster: 테스트 시간 조정 없이 확산 트랜스포머 모델에서의 다중 개념 비디오 사용자 정의
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

비디오 생성에서의 다중 주제 오픈셋 개인화
Multi-subject Open-set Personalization in Video Generation

셀 애니메이션을 위한 생성 모델: 조사
Generative AI for Cel-Animation: A Survey

생성 모델 인공지능에 바이러스 감염하기
Infecting Generative AI With Viruses

금융 LLM을 위한 도메인 적응형 사후 훈련의 실체 해명
Demystifying Domain-adaptive Post-training for Financial LLMs