AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

TEXGen: 메쉬 텍스처를 위한 생성 확산 모델
TEXGen: a Generative Diffusion Model for Mesh Textures

Xin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi•Nov 22, 2024•122

DreamMix: 사용자 지정 이미지 보정에서 향상된 편집 가능성을 위해 객체 속성을 분리하는 방법
DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting

Yicheng Yang, Pengxiang Li, Lu Zhang, Liqian Ma, Ping Hu, Siyu Du, Yunzhi Zhuge, Xu Jia, Huchuan Lu•Nov 26, 2024•53

스타 어텐션: 긴 시퀀스 상에서 효율적인 LLM 추론
Star Attention: Efficient LLM Inference over Long Sequences

Shantanu Acharya, Fei Jia, Boris Ginsburg•Nov 26, 2024•382

GUI 시각 에이전트를 위한 Vision-Language-Action 모델인 ShowUI
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou•Nov 26, 2024•803

이미지 매니폴드 상의 경로: 비디오 생성을 통한 이미지 편집
Pathways on the Image Manifold: Image Editing via Video Generation

Noam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel•Nov 25, 2024•332

MLLMs에서 Token Reduction을 재고: 훈련 없이 가속화를 위한 통합 패러다임으로
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Yuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang•Nov 26, 2024•202

MME-Survey: 다중 모달 LLMs의 평가에 관한 포괄적인 조사
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He•Nov 22, 2024•202

스케치 에이전트: 언어 주도 시퀀셜 스케치 생성
SketchAgent: Language-Driven Sequential Sketch Generation

Yael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba•Nov 26, 2024•194

SAR3D: 다중 스케일 3D VQVAE를 통한 자기 회귀 3D 객체 생성 및 이해
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Yongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan•Nov 25, 2024•132

저 비트 양자화는 미훈련된 LLMs에 유리합니다: 100조 개의 훈련 토큰을 사용한 양자화된 LLMs의 스케일링 법칙
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Xu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu•Nov 26, 2024•135

VLRewardBench: 시각-언어 생성 보상 모델을 위한 도전적인 벤치마크
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu•Nov 26, 2024•112

SALOVA: 장형 비디오 분석에서 대상 검색 및 경로 지정을 위한 세그먼트 보강형 장비디오 어시스턴트
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Junho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro•Nov 25, 2024•92

절차적 3D 프로그램으로부터 3D 표현 학습
Learning 3D Representations from Procedural 3D Programs

Xuweiyi Chen, Zezhou Cheng•Nov 25, 2024•92

미세캡션: 원하는 위치와 원하는 해상도에서 집합적 이미지 캡션 생성
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Hang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo•Nov 23, 2024•82

AnchorCrafter: 인간-물체 상호작용 비디오 생성을 통해 제품을 판매하는 사이버앵커 애니메이션
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Ziyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang•Nov 26, 2024•72

효율적인 비전 맘바: 숨겨진 상태 믹서를 기반으로 한 상태 공간 이중성
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Sanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim•Nov 22, 2024•62

MolReFlect: 분자와 텍스트 간 맥락 내 세밀한 정렬을 향하여
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Jiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li•Nov 22, 2024•52

개인화된 다중 의류를 사용한 조절 가능한 인간 이미지 생성
Controllable Human Image Generation with Personalized Multi-Garments

Yisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin•Nov 25, 2024•42

시각적 카운터 튜링 테스트 (VCT^2): AI 생성 이미지 감지의 어려움 발견 및 시각적 AI 지수 (V_AI) 소개
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das•Nov 24, 2024•42