ChatPaper.ai
메뉴 열기
홈
오늘의 논문
대시보드
요금제
계정
🇰🇷
한국어
Loading...
•
•
•
•
•
•
•
•
•
•
AI 연구 논문 데일리
번역이 포함된 일일 선별된 AI 연구 논문
November 21st, 2024
SymDPO: Symbol Demonstration Direct Preference Optimization을 활용한 대규모 다중 모달 모델의 문맥 내 학습 강화
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization
Hongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
•
Nov 17, 2024
•
11
3
SageAttention2 기술 보고서: 플러그 앤 플레이 추론 가속화를 위한 정확한 4비트 어텐션
SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration
Jintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen
•
Nov 17, 2024
•
41
6
VBench++: 비디오 생성 모델을 위한 포괄적이고 다재다능한 벤치마크 스위트
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models
Ziqi Huang, Fan Zhang, Xiaojie Xu, Yinan He, Jiashuo Yu, Ziyue Dong, Qianli Ma, Nattapol Chanpaisit, Chenyang Si, Yuming Jiang, Yaohui Wang, Xinyuan Chen, Ying-Cong Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu
•
Nov 20, 2024
•
24
3
비디오 자동 아레나: 사용자 시뮬레이션을 통해 비디오 분석에서 대규모 다중 모달 모델을 평가하는 자동화된 아레나
VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation
Ziyang Luo, Haoning Wu, Dongxu Li, Jing Ma, Mohan Kankanhalli, Junnan Li
•
Nov 20, 2024
•
15
4
정밀도가 위치를 만나면: BFloat16이 긴 맥락에서의 RoPE를 해체합니다.
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training
Haonan Wang, Qian Liu, Chao Du, Tongyao Zhu, Cunxiao Du, Kenji Kawaguchi, Tianyu Pang
•
Nov 20, 2024
•
12
2
SAMURAI: 움직임 인식 메모리를 활용한 제로샷 시각 추적을 위한 Segment Anything Model 적응
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
•
Nov 18, 2024
•
12
3
당신의 LLM이 비밀리에 인터넷의 세계 모델인가요? 웹 에이전트를 위한 모델 기반 계획
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents
Yu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su
•
Nov 10, 2024
•
10
2
스타일 코드: 이미지 생성을 위한 스타일 정보 부호화
Stylecodes: Encoding Stylistic Information For Image Generation
Ciara Rowles
•
Nov 19, 2024
•
7
2
ViBe: 대규모 다중모달 모델에서 환각을 평가하기 위한 텍스트-비디오 벤치마크
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models
Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
•
Nov 16, 2024
•
6
3
손실 대 손실 예측: 모든 데이터셋에 대한 스케일링 법칙
Loss-to-Loss Prediction: Scaling Laws for All Datasets
David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade
•
Nov 19, 2024
•
5
2
텍스트에서 이미지로 RGBA 인스턴스 생성을 통한 구성적인 장면 생성
Generating Compositional Scenes via Text-to-image RGBA Instance Generation
Alessandro Fontanella, Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Sarah Parisot
•
Nov 16, 2024
•
2
2
ORID: 방사선학 보고서 생성을 위한 장기-지역 정보 주도 프레임워크
ORID: Organ-Regional Information Driven Framework for Radiology Report Generation
Tiancheng Gu, Kaicheng Yang, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai
•
Nov 20, 2024
•
2
2