AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

MIA-DPO: 대규모 비전-언어 모델을 위한 다중 이미지 증강 직접 선호도 최적화
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang•Oct 23, 2024•373

LongVU: 장기 비디오-언어 이해를 위한 시공간적 적응형 압축
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra•Oct 22, 2024•292

WorldSimBench: 비디오 생성 모델을 세계 시뮬레이터로서의 방향으로
WorldSimBench: Towards Video Generation Models as World Simulators

Yiran Qin, Zhelun Shi, Jiwen Yu, Xijun Wang, Enshen Zhou, Lijun Li, Zhenfei Yin, Xihui Liu, Lu Sheng, Jing Shao, Lei Bai, Wanli Ouyang, Ruimao Zhang•Oct 23, 2024•202

자기 회귀 모델로부터 적응을 통한 확산 언어 모델의 확장
Scaling Diffusion Language Models via Adaptation from Autoregressive Models

Shansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, Hao Peng, Lingpeng Kong•Oct 23, 2024•162

텍스트에서 이미지 생성을 위한 확장 가능한 순위 선호 최적화
Scalable Ranked Preference Optimization for Text-to-Image Generation

Shyamgopal Karthik, Huseyin Coskun, Zeynep Akata, Sergey Tulyakov, Jian Ren, Anil Kag•Oct 23, 2024•152

DynamicCity: 동적 장면으로부터 대규모 LiDAR 생성
DynamicCity: Large-Scale LiDAR Generation from Dynamic Scenes

Hengwei Bian, Lingdong Kong, Haozhe Xie, Liang Pan, Yu Qiao, Ziwei Liu•Oct 23, 2024•142

다국어 환경에서 보상 모델을 평가하는 M-RewardBench
M-RewardBench: Evaluating Reward Models in Multilingual Settings

Srishti Gureja, Lester James V. Miranda, Shayekh Bin Islam, Rishabh Maheshwary, Drishti Sharma, Gusti Winata, Nathan Lambert, Sebastian Ruder, Sara Hooker, Marzieh Fadaee•Oct 20, 2024•123

가벼운 신경망 앱 제어
Lightweight Neural App Control

Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao•Oct 23, 2024•102

TP-Eval: 사용자 지정 프롬프트를 통해 다중 모달 LLM의 평가 잠재력 활용하기
TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts

Yuxuan Xie, Tianhua Li, Wenqi Shao, Kaipeng Zhang•Oct 23, 2024•71

AI 연구 논문 데일리

MIA-DPO: 대규모 비전-언어 모델을 위한 다중 이미지 증강 직접 선호도 최적화
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

LongVU: 장기 비디오-언어 이해를 위한 시공간적 적응형 압축
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

WorldSimBench: 비디오 생성 모델을 세계 시뮬레이터로서의 방향으로
WorldSimBench: Towards Video Generation Models as World Simulators

자기 회귀 모델로부터 적응을 통한 확산 언어 모델의 확장
Scaling Diffusion Language Models via Adaptation from Autoregressive Models

텍스트에서 이미지 생성을 위한 확장 가능한 순위 선호 최적화
Scalable Ranked Preference Optimization for Text-to-Image Generation

DynamicCity: 동적 장면으로부터 대규모 LiDAR 생성
DynamicCity: Large-Scale LiDAR Generation from Dynamic Scenes

다국어 환경에서 보상 모델을 평가하는 M-RewardBench
M-RewardBench: Evaluating Reward Models in Multilingual Settings

가벼운 신경망 앱 제어
Lightweight Neural App Control

TP-Eval: 사용자 지정 프롬프트를 통해 다중 모달 LLM의 평가 잠재력 활용하기
TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts

ARKit LabelMaker: 실내 3D 장면 이해를 위한 새로운 척도
ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding

MedINST: 생명 의학 지침의 메타 데이터셋
MedINST: Meta Dataset of Biomedical Instructions

LVSM: 최소 3D 귀납 편향을 갖춘 대규모 뷰 합성 모델
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

일반화된 모델을 조정하기: 가치 지침을 통해 로봇 기반 모델 개선하기
Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance

Support

AI 연구 논문 데일리

MIA-DPO: 대규모 비전-언어 모델을 위한 다중 이미지 증강 직접 선호도 최적화
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

LongVU: 장기 비디오-언어 이해를 위한 시공간적 적응형 압축
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

WorldSimBench: 비디오 생성 모델을 세계 시뮬레이터로서의 방향으로
WorldSimBench: Towards Video Generation Models as World Simulators

자기 회귀 모델로부터 적응을 통한 확산 언어 모델의 확장
Scaling Diffusion Language Models via Adaptation from Autoregressive Models

텍스트에서 이미지 생성을 위한 확장 가능한 순위 선호 최적화
Scalable Ranked Preference Optimization for Text-to-Image Generation

DynamicCity: 동적 장면으로부터 대규모 LiDAR 생성
DynamicCity: Large-Scale LiDAR Generation from Dynamic Scenes

다국어 환경에서 보상 모델을 평가하는 M-RewardBench
M-RewardBench: Evaluating Reward Models in Multilingual Settings

가벼운 신경망 앱 제어
Lightweight Neural App Control

TP-Eval: 사용자 지정 프롬프트를 통해 다중 모달 LLM의 평가 잠재력 활용하기
TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts

ARKit LabelMaker: 실내 3D 장면 이해를 위한 새로운 척도
ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding

MedINST: 생명 의학 지침의 메타 데이터셋
MedINST: Meta Dataset of Biomedical Instructions

LVSM: 최소 3D 귀납 편향을 갖춘 대규모 뷰 합성 모델
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

일반화된 모델을 조정하기: 가치 지침을 통해 로봇 기반 모델 개선하기
Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance