AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

Animate-X: 향상된 동작 표현을 갖춘 범용 캐릭터 이미지 애니메이션
Animate-X: Universal Character Image Animation with Enhanced Motion Representation

Shuai Tan, Biao Gong, Xiang Wang, Shiwei Zhang, Dandan Zheng, Ruobing Zheng, Kecheng Zheng, Jingdong Chen, Ming Yang•Oct 14, 2024•575

LOKI: 대규모 다중 모달 모델을 활용한 종합적인 합성 데이터 탐지 벤치마크
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models

Junyan Ye, Baichuan Zhou, Zilong Huang, Junan Zhang, Tianyi Bai, Hengrui Kang, Jun He, Honglin Lin, Zihao Wang, Tong Wu, Zhizheng Wu, Yiping Chen, Dahua Lin, Conghui He, Weijia Li•Oct 13, 2024•564

MMIE: 대규모 비전-언어 모델을 위한 대규모 다중 모달 교차 이해 벤치마크
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao•Oct 14, 2024•534

검색 증강 생성을 위한 일반적인 지시 따르기 정렬 방향으로
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation

Guanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, Ji-Rong Wen•Oct 12, 2024•493

MEGA-Bench: 500개 이상의 실제 과제로 다중 모달 평가 확장
MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen•Oct 14, 2024•393

Omni-MATH: 대규모 언어 모델을 위한 범용 올림피아드 수학 벤치마크
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models

Bofei Gao, Feifan Song, Zhe Yang, Zefan Cai, Yibo Miao, Qingxiu Dong, Lei Li, Chenghao Ma, Liang Chen, Runxin Xu, Zhengyang Tang, Benyou Wang, Daoguang Zan, Shanghaoran Quan, Ge Zhang, Lei Sha, Yichang Zhang, Xuancheng Ren, Tianyu Liu, Baobao Chang•Oct 10, 2024•333

수식적 확률 미분 방정식을 사용한 시맨틱 이미지 반전 및 편집
Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

Litu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu•Oct 14, 2024•313

LiveXiv -- Arxiv 논문 콘텐츠를 기반으로 한 멀티 모달 라이브 벤치마크
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content

Nimrod Shabtay, Felipe Maia Polo, Sivan Doveh, Wei Lin, M. Jehanzeb Mirza, Leshem Chosen, Mikhail Yurochkin, Yuekai Sun, Assaf Arbelle, Leonid Karlinsky, Raja Giryes•Oct 14, 2024•282

VisRAG: 다중 모달리티 문서에서의 시각 기반 검색 보강 생성
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

Shi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun•Oct 14, 2024•273

Cavia: 시점 통합 주의를 갖춘 카메라 제어 가능한 다중 뷰 비디오 확산
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention

Dejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang•Oct 14, 2024•264

생각하는 LLMs: 사고 생성과 함께 일반적인 지시 따르기
Thinking LLMs: General Instruction Following with Thought Generation

Tianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar•Oct 14, 2024•204

TemporalBench: 다중 모달 비디오 모델을 위한 미세 시간 이해 벤치마킹
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang•Oct 14, 2024•172

대규모 데이터 선택의 재고찰: 무작위 선택이 거의 모든 것을 해결한다.
Rethinking Data Selection at Scale: Random Selection is Almost All You Need

Tingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin•Oct 12, 2024•173

LongMemEval: 장기 상호 작용 메모리에 대한 채팅 어시스턴트의 벤치마킹
LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

Di Wu, Hongwei Wang, Wenhao Yu, Yuwei Zhang, Kai-Wei Chang, Dong Yu•Oct 14, 2024•112

MMCOMPOSITION: 사전 훈련된 시각-언어 모델의 복합성 재방문
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models

Hang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo•Oct 13, 2024•92

문제 트리: 복합성을 활용한 구조화된 문제 해결 개선
Tree of Problems: Improving structured problem solving with compositionality

Armel Zebaze, Benoît Sagot, Rachel Bawden•Oct 9, 2024•92

DuoAttention: 검색 및 스트리밍 헤드를 활용한 효율적인 장거리 문맥 LLM 추론
DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads

Guangxuan Xiao, Jiaming Tang, Jingwei Zuo, Junxian Guo, Shang Yang, Haotian Tang, Yao Fu, Song Han•Oct 14, 2024•72

개선된 3D 확산 정책을 활용한 일반화 가능한 인간형 조작
Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies

Yanjie Ze, Zixuan Chen, Wenhao Wang, Tianyi Chen, Xialin He, Ying Yuan, Xue Bin Peng, Jiajun Wu•Oct 14, 2024•72

TVBench: 비디오-언어 평가 재설계
TVBench: Redesigning Video-Language Evaluation

Daniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano•Oct 10, 2024•62

동일하지만 다른 것: 다국어 언어 모델링에서의 구조적 유사점과 차이점
The Same But Different: Structural Similarities and Differences in Multilingual Language Modeling

Ruochen Zhang, Qinan Yu, Matianyu Zang, Carsten Eickhoff, Ellie Pavlick•Oct 11, 2024•52

ReLU의 부활: 정규화 없는 대규모 언어 모델에서의 엔트로피 과부하
ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models

Nandan Kumar Jha, Brandon Reagen•Oct 12, 2024•42

비디오로부터의 잠재 행동 사전 훈련
Latent Action Pretraining from Videos

Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo•Oct 15, 2024•22