Articles de Recherche en IA Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

MIA-DPO : Optimisation des Préférences Directes Augmentées Multi-Images pour les Grands Modèles Vision- Langage
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

Ziyu Liu, Yuhang Zang, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Haodong Duan, Conghui He, Yuanjun Xiong, Dahua Lin, Jiaqi Wang•Oct 23, 2024•343

LongVU : Compression Adaptative Spatiotemporelle pour la Compréhension Vidéo-Langage à Long Terme
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra•Oct 22, 2024•242

WorldSimBench : Vers des modèles de génération vidéo en tant que simulateurs de monde
WorldSimBench: Towards Video Generation Models as World Simulators

Yiran Qin, Zhelun Shi, Jiwen Yu, Xijun Wang, Enshen Zhou, Lijun Li, Zhenfei Yin, Xihui Liu, Lu Sheng, Jing Shao, Lei Bai, Wanli Ouyang, Ruimao Zhang•Oct 23, 2024•172

Mise à l'échelle des modèles de langage de diffusion via l'adaptation à partir de modèles autorégressifs
Scaling Diffusion Language Models via Adaptation from Autoregressive Models

Shansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, Hao Peng, Lingpeng Kong•Oct 23, 2024•152

Optimisation évolutive des préférences classées pour la génération de texte vers image.
Scalable Ranked Preference Optimization for Text-to-Image Generation

Shyamgopal Karthik, Huseyin Coskun, Zeynep Akata, Sergey Tulyakov, Jian Ren, Anil Kag•Oct 23, 2024•142

DynamicCity : Génération à grande échelle de LiDAR à partir de scènes dynamiques
DynamicCity: Large-Scale LiDAR Generation from Dynamic Scenes

Hengwei Bian, Lingdong Kong, Haozhe Xie, Liang Pan, Yu Qiao, Ziwei Liu•Oct 23, 2024•122

M-RewardBench : Évaluation des modèles de récompense dans des environnements multilingues
M-RewardBench: Evaluating Reward Models in Multilingual Settings

Srishti Gureja, Lester James V. Miranda, Shayekh Bin Islam, Rishabh Maheshwary, Drishti Sharma, Gusti Winata, Nathan Lambert, Sebastian Ruder, Sara Hooker, Marzieh Fadaee•Oct 20, 2024•103

Contrôle Léger d'Applications Neuronales
Lightweight Neural App Control

Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao•Oct 23, 2024•92

MedINST : Méta-ensemble d'instructions biomédicales
MedINST: Meta Dataset of Biomedical Instructions

Wenhan Han, Meng Fang, Zihan Zhang, Yu Yin, Zirui Song, Ling Chen, Mykola Pechenizkiy, Qingyu Chen•Oct 17, 2024•62

ARKit LabelMaker : Une nouvelle échelle pour la compréhension de scènes 3D intérieures
ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding

Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum•Oct 17, 2024•62

TP-Eval : Exploiter le potentiel des LMM multimodaux dans l'évaluation en personnalisant les invitations
TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts

Yuxuan Xie, Tianhua Li, Wenqi Shao, Kaipeng Zhang•Oct 23, 2024•61

LVSM : Un modèle de synthèse de grande vue avec un minimum de biais inductif en 3D
LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

Haian Jin, Hanwen Jiang, Hao Tan, Kai Zhang, Sai Bi, Tianyuan Zhang, Fujun Luan, Noah Snavely, Zexiang Xu•Oct 22, 2024•32

Orienter vos généralistes : Amélioration des modèles fondamentaux de robots via l'orientation de la valeur
Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance

Mitsuhiko Nakamoto, Oier Mees, Aviral Kumar, Sergey Levine•Oct 17, 2024•11