Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

UVA: Generalizzazione delle Politiche dei Robot tramite Allineamento delle Preferenze
GRAPE: Generalizing Robot Policy via Preference Alignment

Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao•Nov 28, 2024•442

Profondità video senza modelli video
Video Depth without Video Models

Bingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler•Nov 28, 2024•357

Oltre agli Esempi: Paradigma di Ragionamento Automatico di Alto Livello nell'Apprendimento In-Contesto tramite MCTS
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

Jinyang Wu, Mingkuan Feng, Shuai Zhang, Feihu Che, Zengqi Wen, Jianhua Tao•Nov 27, 2024•3414

Rapporto Tecnico Yi-Lightning
Yi-Lightning Technical Report

01. AI, Alan Wake, Albert Wang, Bei Chen, C. X. Lv, Chao Li, Chengen Huang, Chenglin Cai, Chujie Zheng, Daniel Cooper, Ethan Dai, Fan Zhou, Feng Hu, Heng Ji, Howard Qiu, Jiangcheng Zhu, Jun Tian, Katherine Su, Lihuan Zhang, Liying Li, Ming Song, Mou Li, Peng Liu, Qichen Hu, Shawn Wang, Shijun Zhou, Shiyong Li, Tianhang Zhu, Wen Xie, Xiang He, Xiaobo Chen, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Yanpeng Li, Yongke Zhao, Yongzhen Luo, Yuchi Xu, Yuxuan Sha, Zhaodong Yan, Zhiyuan Liu, Zirui Zhang•Dec 2, 2024•262

Sul Post-Training Specifico del Dominio per Modelli Linguistici Multimodali di Grandi Dimensioni
On Domain-Specific Post-Training for Multimodal Large Language Models

Daixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang•Nov 29, 2024•253

Guida di Salto Spazio-Temporale per un Campionamento Migliorato della Diffusione Video
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

Junha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo•Nov 27, 2024•243

Il Pensiero Inverso Rende i LLM Più Forti nei Processi di Ragionamento
Reverse Thinking Makes LLMs Stronger Reasoners

Justin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister•Nov 29, 2024•202

Diffusione FAM: Modulazione di Frequenza e Attenzione per la Generazione di Immagini ad Alta Risoluzione con Diffusione Stabile
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Haosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez•Nov 27, 2024•172

L'incorporamento dell'istante temporale dice: è tempo di memorizzare nella cache per il modello di diffusione video
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

Feng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan•Nov 28, 2024•172

Puzzle: NAS basata sulla distillazione per LLM ottimizzati per l'inferenza
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Akhiad Bercovich, Tomer Ronen, Talor Abramovich, Nir Ailon, Nave Assaf, Mohammad Dabbah, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Netanel Haber, Ehud Karpas, Itay Levy, Shahar Mor, Zach Moshe, Najeeb Nabwani, Omri Puny, Ran Rubin, Itamar Schen, Ido Shahaf, Oren Tropp, Omer Ullman Argov, Ran Zilberstein, Ran El-Yaniv•Nov 28, 2024•162

Attenzione alla traiettoria per il controllo fine dei movimenti video dettagliati
Trajectory Attention for Fine-grained Video Motion Control

Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan•Nov 28, 2024•122

Scaling Transformers per la Codifica Vocale ad Alta Qualità a Bassi Bitrate
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Julian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu•Nov 29, 2024•113

DisCoRD: Token discreti a movimento continuo tramite flusso rettificato Decodifica
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu•Nov 29, 2024•102

Guarda Ogni Frame Tutto in Una Volta: Video-Ma^2mba per una Comprensione Efficienti di Video a Lungo Termine con Checkpointing a Gradiente Multi-Asse.
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

Hosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro•Nov 29, 2024•102

MATATA: uno strumento matematico assistito per il ragionamento a supervisione debole per Applicazioni Tabulari
MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications

Vishnou Vinayagame, Gregory Senay, Luis Martí•Nov 28, 2024•82

AC3D: Analisi e Miglioramento del Controllo della Telecamera 3D nella Diffusione Video Transformers
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Sherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov•Nov 27, 2024•82

DeMo: Ottimizzazione del Momento Decoppiata
DeMo: Decoupled Momentum Optimization

Bowen Peng, Jeffrey Quesnelle, Diederik P. Kingma•Nov 29, 2024•62

Quadro LLM Docente-Studente per la Classificazione del Testo Senza Dati Annotati Manualmente: Uno Studio di Caso nella Classificazione degli Argomenti delle Notizie IPTC
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Taja Kuzman, Nikola Ljubešić•Nov 29, 2024•62

AlphaTablets: Una Rappresentazione Piana Generica per la Ricostruzione Pianare 3D da Video Monoculare
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos

Yuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu•Nov 29, 2024•62

SpotLight: Illuminazione guidata dall'ombra degli oggetti tramite diffusione
SpotLight: Shadow-Guided Object Relighting via Diffusion

Frédéric Fortier-Chouinard, Zitian Zhang, Louis-Etienne Messier, Mathieu Garon, Anand Bhattad, Jean-François Lalonde•Nov 27, 2024•31

Addestramento del Taglio dei Token di Rumore
Training Noise Token Pruning

Mingxing Rao, Bohan Jiang, Daniel Moyer•Nov 27, 2024•12