Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

STAR: Aumento Spazio-Temporale con Modelli Testo-Video per la Super-Risoluzione Video nel Mondo Reale
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai•Jan 6, 2025•513

Calcolo al momento del test: dal pensiero di Sistema-1 al pensiero di Sistema-2
Test-time Computing: from System-1 Thinking to System-2 Thinking

Yixin Ji, Juntao Li, Hai Ye, Kaixin Wu, Jia Xu, Linjian Mo, Min Zhang•Jan 5, 2025•402

BoostStep: Potenziare la capacità matematica dei Grandi Modelli Linguistici tramite un miglioramento del ragionamento in un singolo passo.
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Beichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin, Jiaqi Wang•Jan 6, 2025•352

Dispider: Abilitare Video LLMs con Interazione Attiva in Tempo Reale tramite Percezione, Decisione e Reazione Disentangled
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang•Jan 6, 2025•333

Recupero personalizzato basato su grafi per modelli linguistici di grandi dimensioni
Personalized Graph-Based Retrieval for Large Language Models

Steven Au, Cameron J. Dimacali, Ojasmitha Pedirappagari, Namyong Park, Franck Dernoncourt, Yu Wang, Nikos Kanakaris, Hanieh Deilamsalehy, Ryan A. Rossi, Nesreen K. Ahmed•Jan 4, 2025•282

Leggi di scalabilità per l'addestramento con quantizzazione in virgola mobile.
Scaling Laws for Floating Point Quantization Training

Xingwu Sun, Shuaipeng Li, Ruobing Xie, Weidong Han, Kan Wu, Zhen Yang, Yixing Li, An Wang, Shuai Li, Jinbao Xue, Yu Cheng, Yangyu Tao, Zhanhui Kang, Chengzhong Xu, Di Wang, Jie Jiang•Jan 5, 2025•252

TransPixar: Avanzamento della Generazione Testo-Video con Trasparenza
TransPixar: Advancing Text-to-Video Generation with Transparency

Luozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen•Jan 6, 2025•224

METAGENE-1: Modello Fondamentale Metagenomic per il Monitoraggio delle Pandemie
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger•Jan 3, 2025•212

Attraverso-la-Maschera: Traiettorie di Movimento Basate su Maschera per la Generazione Immagine-Video
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

Guy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak•Jan 6, 2025•192

GS-DiT: Avanzamento della Generazione Video con Campi Gaussiani Pseudo 4D tramite Tracciamento Punti 3D Denso Efficiente
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking

Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li•Jan 5, 2025•172

Esplorazione automatica della strategia di jailbreak per il red teaming di grandi modelli di linguaggio.
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

Yanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun•Jan 3, 2025•172

DepthMaster: Domare i modelli di diffusione per la stima della profondità monoculare
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang•Jan 5, 2025•154

PRMBench: un benchmark dettagliato e impegnativo per i modelli di ricompensa a livello di processo.
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng•Jan 6, 2025•142

ToolHop: un benchmark guidato da query per valutare i grandi modelli linguistici nell'uso di strumenti multi-hop
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen•Jan 5, 2025•103

AutoPresent: Progettare Immagini Strutturate da Zero
AutoPresent: Designing Structured Visuals from Scratch

Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell•Jan 1, 2025•82

Riconoscimento vocale all'avanguardia Samba-asr sfruttando modelli strutturati dello spazio degli stati.
Samba-asr state-of-the-art speech recognition leveraging structured state-space models

Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi•Jan 6, 2025•83

Ingredienti: Miscelare Foto Personalizzate con Trasformatori di Diffusione Video
Ingredients: Blending Custom Photos with Video Diffusion Transformers

Zhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan•Jan 3, 2025•82

Generazione automatica di domande a scelta multipla impegnative per la valutazione dei modelli di visione e linguaggio.
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy•Jan 6, 2025•72

ProTracker: Integrazione Probabilistica per un Tracciamento Punti Robusto e Preciso
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking

Tingyang Zhang, Chen Wang, Zhiyang Dou, Qingzhe Gao, Jiahui Lei, Baoquan Chen, Lingjie Liu•Jan 6, 2025•42