ChatPaper.ai
메뉴 열기
홈
오늘의 논문
요금제
계정
작업공간
🇰🇷
한국어
Loading...
•
•
•
•
•
•
•
•
•
•
AI 연구 논문 데일리
번역이 포함된 일일 선별된 AI 연구 논문
November 28th, 2024
ROICtrl: 시각 생성을 위한 인스턴스 제어 강화
ROICtrl: Boosting Instance Control for Visual Generation
Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
•
Nov 27, 2024
•
71
2
교차되는 텍스트 및 이미지 생성을 위한 교차된 장면 그래프 평가
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment
Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna
•
Nov 26, 2024
•
19
2
주파수 분해를 통한 신원 보존 텍스트 대 동영상 생성
Identity-Preserving Text-to-Video Generation by Frequency Decomposition
Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan
•
Nov 26, 2024
•
13
3
MARVEL-40M+: 고품질 텍스트 대 3D 콘텐츠 생성을 위한 다중 수준 시각적 설명
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation
Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
•
Nov 26, 2024
•
21
4
CAT4D: 다중 뷰 비디오 확산 모델을 사용하여 4D에서 모든 것을 만들다.
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models
Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski
•
Nov 27, 2024
•
52
5
대규모 언어 모델 기반 GUI 에이전트: 조사
Large Language Model-Brained GUI Agents: A Survey
Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
•
Nov 27, 2024
•
29
3
3D 볼록 스플래팅: 3D 부드러운 볼록체로의 광도 필드 렌더링
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes
Jan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck
•
Nov 22, 2024
•
17
5
영상 생성을 위한 제로샷 맞춤형 확산 셀프 증류
Diffusion Self-Distillation for Zero-Shot Customized Image Generation
Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein
•
Nov 27, 2024
•
15
6
확산 주행: 단축된 확산 모델을 이용한 자율 주행 종단 간 모델
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
•
Nov 22, 2024
•
15
2
Make-It-Animatable: 애니메이션 준비가 된 3D 캐릭터를 작성하기 위한 효율적인 프레임워크
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters
Zhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang
•
Nov 27, 2024
•
14
4
DreamCache: 피니튜닝 없이 가벼운 개인화 이미지 생성을 위한 특징 캐싱
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching
Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli
•
Nov 26, 2024
•
12
3
협력적 디코딩은 시각적 자기회귀 모델링을 효율적으로 만듭니다.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient
Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
•
Nov 26, 2024
•
12
2
ChatRex: 다중 모달 LLM을 조절하여 공동 인식과 이해를 향상시키다.
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding
Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang
•
Nov 27, 2024
•
10
3
UniPose: 인간 자세 이해, 생성 및 편집을 위한 통합된 멀티모달 프레임워크
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
•
Nov 25, 2024
•
10
3
다중 모달 제어를 사용한 비디오 안내 풀리 사운드 생성
Video-Guided Foley Sound Generation with Multimodal Controls
Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
•
Nov 26, 2024
•
9
2
오메간스: 확산 기반 합성에서 다양한 미립자에 대한 단일 매개변수
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis
Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy
•
Nov 26, 2024
•
7
2
초안 모델이 멈춰야 할 때를 알고 있는: 예측 디코딩을 위한 자가 검증 길이 정책
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding
Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
•
Nov 27, 2024
•
6
2
VideoLLM는 말할 시기를 알고 있습니다: 비디오-텍스트 듀엣 상호작용 형식을 활용한 시간에 민감한 비디오 이해력 향상
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format
Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
•
Nov 27, 2024
•
5
2
MedNeXt를 사용하여 뇌종양 분할 최적화: BraTS 2024 SSA 및 소아청소년과학회
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics
Sarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub
•
Nov 24, 2024
•
5
2
적응형 블라인드 올인원 이미지 복원
Adaptive Blind All-in-One Image Restoration
David Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral
•
Nov 27, 2024
•
4
2
템플릿 기반 데이터 생성을 사용한 언어 모델의 훈련과 평가
Training and Evaluating Language Models with Template-based Data Generation
Yifan Zhang
•
Nov 27, 2024
•
3
3
편집하려 하면 내 얼굴은 그대로 남지 않을 것입니다: 악의적 생성 편집에 대한 개인 바이오메트릭 방어
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing
Hanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu
•
Nov 25, 2024
•
2
3