ChatPaper.ai
메뉴 열기
홈
오늘의 논문
arXiv
HuggingFace
요금제
계정
작업공간
🇰🇷
한국어
Loading...
•
•
•
•
•
•
•
•
•
•
AI 연구 논문 데일리
번역이 포함된 일일 선별된 AI 연구 논문
October 4th, 2024
대규모 이미지 캡션 데이터를 다시 검토하여 다중 모달 기반 모델 사전 훈련하기
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models
Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang
•
Oct 3, 2024
•
55
2
SageAttention: 플러그 앤 플레이 추론을 위한 정확한 8비트 어텐션 가속화
SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration
Jintao Zhang, Jia wei, Pengle Zhang, Jun Zhu, Jianfei Chen
•
Oct 3, 2024
•
50
5
깊이 프로: 1초 미만의 시간 내에 날카로운 단안 메트릭 깊이
Depth Pro: Sharp Monocular Metric Depth in Less Than a Second
Aleksei Bochkovskii, Amaël Delaunoy, Hugo Germain, Marcel Santos, Yichao Zhou, Stephan R. Richter, Vladlen Koltun
•
Oct 2, 2024
•
42
2
합성 데이터를 활용한 비디오 지시 조정
Video Instruction Tuning With Synthetic Data
Yuanhan Zhang, Jinming Wu, Wei Li, Bo Li, Zejun Ma, Ziwei Liu, Chunyuan Li
•
Oct 3, 2024
•
39
3
Loong: 자기 회귀 언어 모델을 사용하여 분 단위 장영상 생성
Loong: Generating Minute-level Long Videos with Autoregressive Language Models
Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu
•
Oct 3, 2024
•
38
3
대조적으로 지역화된 언어-이미지 사전 훈련
Contrastive Localized Language-Image Pre-Training
Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan
•
Oct 3, 2024
•
38
3
LLaVA-Critic: 다중 모달 모델 평가 학습
LLaVA-Critic: Learning to Evaluate Multimodal Models
Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li
•
Oct 3, 2024
•
36
3
대규모 언어 모델을 마르코프 체인으로 사용하기
Large Language Models as Markov Chains
Oussama Zekri, Ambroise Odonnat, Abdelhakim Benechehab, Linus Bleistein, Nicolas Boullé, Ievgen Redko
•
Oct 3, 2024
•
33
3
확산 모델에서 과총포화와 높은 가이드 스케일의 아티팩트 제거
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models
Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber
•
Oct 3, 2024
•
31
4
VinePPO: 정교한 신용 할당을 통해 LLM 추론을 위한 RL 잠재력 해제
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment
Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance, Alessandro Sordoni, Siva Reddy, Aaron Courville, Nicolas Le Roux
•
Oct 2, 2024
•
25
2
지시 훈련 없이 엔드 투 엔드 음성 어시스턴트 축소하기 데이터
Distilling an End-to-End Voice Assistant Without Instruction Training Data
William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang
•
Oct 3, 2024
•
23
5
맥락적 문서 임베딩
Contextual Document Embeddings
John X. Morris, Alexander M. Rush
•
Oct 3, 2024
•
23
4
CLIP-MoE: 다양한 다중 업사이클링을 위한 CLIP의 전문가 혼합물 구축을 향하여
CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng
•
Sep 28, 2024
•
20
2
합성 편집 시퀀스로 언어 모델을 훈련시키면 코드 합성이 개선됩니다.
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis
Ulyana Piterbarg, Lerrel Pinto, Rob Fergus
•
Oct 3, 2024
•
12
3
L-CiteEval: 긴 맥락 모델이 정말로 응답을 위해 맥락을 활용하는가?
L-CiteEval: Do Long-Context Models Truly Leverage Context for Responding?
Zecheng Tang, Keyan Zhou, Juntao Li, Baibei Ji, Jianye Hou, Min Zhang
•
Oct 3, 2024
•
10
3
Open-RAG: 오픈 소스 대형 언어 모델을 활용한 향상된 검색 보강 추론
Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models
Shayekh Bin Islam, Md Asib Rahman, K S M Tozammel Hossain, Enamul Hoque, Shafiq Joty, Md Rizwan Parvez
•
Oct 2, 2024
•
10
3
환각 완화를 위한 시각-언어 표현 해석 및 편집
Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations
Nick Jiang, Anish Kachinthaya, Suzie Petryk, Yossi Gandelsman
•
Oct 3, 2024
•
9
2
MedVisionLlama: 사전 훈련된 대형 언어 모델 레이어를 활용하여 의료 이미지 분할 향상
MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation
Gurucharan Marthi Krishna Kumar, Aman Chadha, Janine Mendola, Amir Shmuel
•
Oct 3, 2024
•
9
5
자기 학습과 반사적 트리 탐색을 활용하여 자율적 AI 에이전트 향상하기
Improving Autonomous AI Agents with Reflective Tree Search and Self-Learning
Xiao Yu, Baolin Peng, Vineeth Vajipey, Hao Cheng, Michel Galley, Jianfeng Gao, Zhou Yu
•
Oct 2, 2024
•
9
2
MVGS: 새로운 뷰 합성을 위한 다중 뷰 조절 가우시안 스플래팅
MVGS: Multi-view-regulated Gaussian Splatting for Novel View Synthesis
Xiaobiao Du, Yida Wang, Xin Yu
•
Oct 2, 2024
•
8
3
Vinoground: 짧은 비디오를 통한 밀도 있는 시간적 추론에 대한 LMMs의 검토
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos
Jianrui Zhang, Mu Cai, Yong Jae Lee
•
Oct 3, 2024
•
7
2
카오스의 가장자리에 위치한 지능
Intelligence at the Edge of Chaos
Shiyang Zhang, Aakash Patel, Syed A Rizvi, Nianchen Liu, Sizhuang He, Amin Karbasi, Emanuele Zappala, David van Dijk
•
Oct 3, 2024
•
6
2
Synthio: 합성 데이터를 활용한 소규모 오디오 분류 데이터셋 보강
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data
Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha
•
Oct 2, 2024
•
6
2
데이터로부터 게임의 잠재적 규칙 학습: 체스 이야기
Learning the Latent Rules of a Game from Data: A Chess Story
Ben Fauber
•
Oct 3, 2024
•
5
2
대규모 언어 모델에서 제로샷 크로스-언어 전이를 위한 레이어 스와핑
Layer Swapping for Zero-Shot Cross-Lingual Transfer in Large Language Models
Lucas Bandarkar, Benjamin Muller, Pritish Yuvraj, Rui Hou, Nayan Singhal, Hongjiang Lv, Bing Liu
•
Oct 2, 2024
•
5
3
로빈3D: 견고한 지시 조정을 통해 3D 대형 언어 모델 개선
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning
Weitai Kang, Haifeng Huang, Yuzhang Shang, Mubarak Shah, Yan Yan
•
Sep 30, 2024
•
5
2
SciPrompt: 과학 주제의 세분화된 범주화를 위한 지식 증강 프롬프팅
SciPrompt: Knowledge-augmented Prompting for Fine-grained Categorization of Scientific Topics
Zhiwen You, Kanyao Han, Haotian Zhu, Bertram Ludäscher, Jana Diesner
•
Oct 2, 2024
•
4
3