ChatPaper.ai
메뉴 열기
홈
오늘의 논문
요금제
계정
작업공간
🇰🇷
한국어
Loading...
•
•
•
•
•
•
•
•
•
•
AI 연구 논문 데일리
번역이 포함된 일일 선별된 AI 연구 논문
December 16th, 2024
아폴로: 대규모 다중모달 모델에서의 비디오 이해 탐구
Apollo: An Exploration of Video Understanding in Large Multimodal Models
Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia
•
Dec 13, 2024
•
140
12
GenEx: 탐색 가능한 세계 생성
GenEx: Generating an Explorable World
Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen
•
Dec 12, 2024
•
90
2
SynerGen-VL: 시각 전문가와 토큰 폴딩을 활용한 상호 작용적 이미지 이해 및 생성을 향하여
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding
Hao Li, Changyao Tian, Jie Shao, Xizhou Zhu, Zhaokai Wang, Jinguo Zhu, Wenhan Dou, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai
•
Dec 12, 2024
•
35
4
대규모 행동 모델: 시작부터 실행까지
Large Action Models: From Inception to Implementation
Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
•
Dec 13, 2024
•
32
5
BiMediX2: 다양한 의료 모달리티를 위한 생체 의학 전문가 LMM
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities
Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal
•
Dec 10, 2024
•
26
2
프리스케일: 튜닝이 필요 없는 스케일 퓨전을 통해 확산 모델의 해상도 발휘하기
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion
Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu
•
Dec 12, 2024
•
20
2
잔차 벡터 양자화 기반의 토큰을 활용한 효율적인 생성 모델링
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens
Jaehyeon Kim, Taehong Moon, Keon Lee, Jaewoong Cho
•
Dec 13, 2024
•
19
2
InstanceCap: 인스턴스 인식 구조화된 캡션을 통해 텍스트에서 비디오 생성 개선
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption
Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai
•
Dec 12, 2024
•
19
3
ObjectMate: 객체 삽입 및 주체 주도 생성을 위한 재발 사전
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
•
Dec 11, 2024
•
11
2
FireFlow: 이미지 의미 편집을 위한 정류된 흐름의 빠른 역전
FireFlow: Fast Inversion of Rectified Flow for Image Semantic Editing
Yingying Deng, Xiangyu He, Changwang Mei, Peisong Wang, Fan Tang
•
Dec 10, 2024
•
11
3
LinGen: 선형 계산 복잡도를 가진 고해상도 분 단위 텍스트에서 비디오 생성을 향해
LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity
Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai
•
Dec 13, 2024
•
10
4
SCBench: 장문맥 방법의 KV 캐시 중심 분석
SCBench: A KV Cache-Centric Analysis of Long-Context Methods
Yucheng Li, Huiqiang Jiang, Qianhui Wu, Xufang Luo, Surin Ahn, Chengruidong Zhang, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu
•
Dec 13, 2024
•
10
2
플럭스 스페이스: 정정된 플로우 트랜스포머에서 해체된 의미 편집
FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers
Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag
•
Dec 12, 2024
•
9
2
명시적 다리와 검색 보강을 활용한 다중 모달 음악 생성
Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation
Baisen Wang, Le Zhuo, Zhaokai Wang, Chenxi Bao, Wu Chengjing, Xuecheng Nie, Jiao Dai, Jizhong Han, Yue Liao, Si Liu
•
Dec 12, 2024
•
7
4
GReaTer: 추론 위에 그래디언트를 사용하여 작은 언어 모델을 강화하는 프롬프트 최적화기
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers
Sarkar Snigdha Sarathi Das, Ryo Kamoi, Bo Pang, Yusen Zhang, Caiming Xiong, Rui Zhang
•
Dec 12, 2024
•
5
3
SmolTulu: 배치 크기 대비 높은 학습률은 SLMs에서 더 나은 추론을 이끌어 낼 수 있습니다.
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs
Sultan Alrashed
•
Dec 11, 2024
•
4
2
TraceVLA: 시각적 트레이스 프롬프팅은 일반적인 로봇 정책의 공간-시간 인식을 향상시킵니다.
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies
Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang
•
Dec 13, 2024
•
2
2
Prompt2Perturb (P2P): 유방 초음파 이미지에 대한 텍스트 안내 확산 기반 적대적 공격
Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attacks on Breast Ultrasound Images
Yasamin Medghalchi, Moein Heidari, Clayton Allard, Leonid Sigal, Ilker Hacihaliloglu
•
Dec 13, 2024
•
1
2