AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

ROICtrl: 시각 생성을 위한 인스턴스 제어 강화
ROICtrl: Boosting Instance Control for Visual Generation

Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou•Nov 27, 2024•712

교차되는 텍스트 및 이미지 생성을 위한 교차된 장면 그래프 평가
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna•Nov 26, 2024•192

주파수 분해를 통한 신원 보존 텍스트 대 동영상 생성
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan•Nov 26, 2024•133

MARVEL-40M+: 고품질 텍스트 대 3D 콘텐츠 생성을 위한 다중 수준 시각적 설명
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal•Nov 26, 2024•214

CAT4D: 다중 뷰 비디오 확산 모델을 사용하여 4D에서 모든 것을 만들다.
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski•Nov 27, 2024•525

대규모 언어 모델 기반 GUI 에이전트: 조사
Large Language Model-Brained GUI Agents: A Survey

Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang•Nov 27, 2024•293

3D 볼록 스플래팅: 3D 부드러운 볼록체로의 광도 필드 렌더링
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Jan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck•Nov 22, 2024•175

영상 생성을 위한 제로샷 맞춤형 확산 셀프 증류
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein•Nov 27, 2024•156

확산 주행: 단축된 확산 모델을 이용한 자율 주행 종단 간 모델
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang•Nov 22, 2024•152

Make-It-Animatable: 애니메이션 준비가 된 3D 캐릭터를 작성하기 위한 효율적인 프레임워크
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Zhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang•Nov 27, 2024•144

DreamCache: 피니튜닝 없이 가벼운 개인화 이미지 생성을 위한 특징 캐싱
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli•Nov 26, 2024•123

협력적 디코딩은 시각적 자기회귀 모델링을 효율적으로 만듭니다.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang•Nov 26, 2024•122

ChatRex: 다중 모달 LLM을 조절하여 공동 인식과 이해를 향상시키다.
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang•Nov 27, 2024•103

UniPose: 인간 자세 이해, 생성 및 편집을 위한 통합된 멀티모달 프레임워크
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen•Nov 25, 2024•103

다중 모달 제어를 사용한 비디오 안내 풀리 사운드 생성
Video-Guided Foley Sound Generation with Multimodal Controls

Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon•Nov 26, 2024•92

오메간스: 확산 기반 합성에서 다양한 미립자에 대한 단일 매개변수
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy•Nov 26, 2024•72

초안 모델이 멈춰야 할 때를 알고 있는: 예측 디코딩을 위한 자가 검증 길이 정책
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu•Nov 27, 2024•62

VideoLLM는 말할 시기를 알고 있습니다: 비디오-텍스트 듀엣 상호작용 형식을 활용한 시간에 민감한 비디오 이해력 향상
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao•Nov 27, 2024•52

MedNeXt를 사용하여 뇌종양 분할 최적화: BraTS 2024 SSA 및 소아청소년과학회
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Sarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub•Nov 24, 2024•52

적응형 블라인드 올인원 이미지 복원
Adaptive Blind All-in-One Image Restoration

David Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral•Nov 27, 2024•42

템플릿 기반 데이터 생성을 사용한 언어 모델의 훈련과 평가
Training and Evaluating Language Models with Template-based Data Generation

Yifan Zhang•Nov 27, 2024•33

편집하려 하면 내 얼굴은 그대로 남지 않을 것입니다: 악의적 생성 편집에 대한 개인 바이오메트릭 방어
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Hanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu•Nov 25, 2024•23