Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Ho Coperto Tutte le Basi: Interpretazione delle Caratteristiche di Ragionamento nei Modelli Linguistici di Grande Dimensione tramite Autoencoder Sparse
I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

Andrey Galichin, Alexey Dontsov, Polina Druzhinina, Anton Razzhigaev, Oleg Y. Rogov, Elena Tutubalina, Ivan Oseledets•Mar 24, 2025•1182

Video-T1: Scalatura al Tempo di Test per la Generazione di Video
Video-T1: Test-Time Scaling for Video Generation

Fangfu Liu, Hanyang Wang, Yimo Cai, Kaiyan Zhang, Xiaohang Zhan, Yueqi Duan•Mar 24, 2025•881

Posizione: Video Generativo Interattivo come Motore di Gioco di Nuova Generazione
Position: Interactive Generative Video as Next-Generation Game Engine

Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu•Mar 21, 2025•623

SimpleRL-Zoo: Indagare e Domare l'Apprendimento per Rinforzo Zero per Modelli di Base Aperti in Ambiente Reale
SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild

Weihao Zeng, Yuzhen Huang, Qian Liu, Wei Liu, Keqing He, Zejun Ma, Junxian He•Mar 24, 2025•301

Aether: Modellizzazione Unificata del Mondo con Consapevolezza Geometrica
Aether: Geometric-Aware Unified World Modeling

Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He•Mar 24, 2025•282

OmnimatteZero: Omnimatte in tempo reale senza addestramento con modelli di diffusione video pre-addestrati
OmnimatteZero: Training-free Real-time Omnimatte with Pre-trained Video Diffusion Models

Dvir Samuel, Matan Levy, Nir Darshan, Gal Chechik, Rami Ben-Ari•Mar 23, 2025•252

AgentRxiv: Verso una Ricerca Autonoma Collaborativa
AgentRxiv: Towards Collaborative Autonomous Research

Samuel Schmidgall, Michael Moor•Mar 23, 2025•222

CFG-Zero: Miglioramento della Guida Senza Classificatore per Modelli di Flow Matching
CFG-Zero: Improved Classifier-Free Guidance for Flow Matching Models

Weichen Fan, Amber Yijia Zheng, Raymond A. Yeh, Ziwei Liu•Mar 24, 2025•212

Sconfiggere le iniezioni di prompt attraverso il design
Defeating Prompt Injections by Design

Edoardo Debenedetti, Ilia Shumailov, Tianqi Fan, Jamie Hayes, Nicholas Carlini, Daniel Fabian, Christoph Kern, Chongyang Shi, Andreas Terzis, Florian Tramèr•Mar 24, 2025•201

Giudicare Qualsiasi Cosa: MLLM come Giudice Attraverso Qualsiasi Modalità
Judge Anything: MLLM as a Judge Across Any Modality

Shu Pu, Yaochen Wang, Dongping Chen, Yuhang Chen, Guohao Wang, Qi Qin, Zhongyi Zhang, Zhiyuan Zhang, Zetong Zhou, Shuang Gong, Yi Gui, Yao Wan, Philip S. Yu•Mar 21, 2025•202

FFN Fusion: Ripensare il Calcolo Sequenziale nei Modelli Linguistici di Grande Dimensione
FFN Fusion: Rethinking Sequential Computation in Large Language Models

Akhiad Bercovich, Mohammad Dabbah, Omri Puny, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Ehud Karpas, Itay Levy, Zach Moshe, Najeeb Nabwani, Tomer Ronen, Itamar Schen, Elad Segal, Ido Shahaf, Oren Tropp, Ran Zilberstein, Ran El-Yaniv•Mar 24, 2025•193

Vision-R1: Evoluzione dell'Allineamento Senza Intervento Umano nei Grandi Modelli Visione-Linguaggio tramite Apprendimento per Rinforzo Guidato dalla Visione
Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning

Yufei Zhan, Yousong Zhu, Shurong Zheng, Hongyin Zhao, Fan Yang, Ming Tang, Jinqiao Wang•Mar 23, 2025•192

Modellazione di Immagini Equivariante
Equivariant Image Modeling

Ruixiao Dong, Mengde Xu, Zigang Geng, Li Li, Han Hu, Shuyang Gu•Mar 24, 2025•151

LEMMA: Apprendere dagli Errori per il Progresso Matematico nei Modelli Linguistici di Grande Dimensione
LEMMA: Learning from Errors for MatheMatical Advancement in LLMs

Zhuoshi Pan, Yu Li, Honglin Lin, Qizhi Pei, Zinan Tang, Wei Wu, Chenlin Ming, H. Vicky Zhao, Conghui He, Lijun Wu•Mar 21, 2025•152

Ragionamento per Apprendere da Pensieri Latenti
Reasoning to Learn from Latent Thoughts

Yangjun Ruan, Neil Band, Chris J. Maddison, Tatsunori Hashimoto•Mar 24, 2025•131

Feather-SQL: Un Framework NL2SQL Leggero con Paradigma di Collaborazione a Doppio Modello per Modelli Linguistici di Piccole Dimensioni
Feather-SQL: A Lightweight NL2SQL Framework with Dual-Model Collaboration Paradigm for Small Language Models

Wenqi Pei, Hailing Xu, Hengyuan Zhao, Shizheng Hou, Han Chen, Zining Zhang, Pingyi Luo, Bingsheng He•Mar 22, 2025•132

Ottimizzazione del Minimal 3D Gaussian Splatting
Optimized Minimal 3D Gaussian Splatting

Joo Chan Lee, Jong Hwan Ko, Eunbyung Park•Mar 21, 2025•132

Accelerazione del Diffusion senza Addestramento con Campionamento a Collo di Bottiglia
Training-free Diffusion Acceleration with Bottleneck Sampling

Ye Tian, Xin Xia, Yuxi Ren, Shanchuan Lin, Xing Wang, Xuefeng Xiao, Yunhai Tong, Ling Yang, Bin Cui•Mar 24, 2025•124

Video SimpleQA: Verso la Valutazione della Fattualità nei Modelli Linguistici su Video di Grande Scala
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models

Meng Cao, Pengfei Hu, Yingyao Wang, Jihao Gu, Haoran Tang, Haoze Zhao, Jiahua Dong, Wangbo Yu, Ge Zhang, Ian Reid, Xiaodan Liang•Mar 24, 2025•121

AlphaSpace: Abilitare Azioni Robotiche attraverso Tokenizzazione Semantica e Ragionamento Simbolico
AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning

Alan Dao, Dinh Bach Vu, Bui Quang Huy•Mar 24, 2025•102

MagicComp: Affinamento in Doppia Fase Senza Addestramento per la Generazione Composizionale di Video
MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation

Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen•Mar 18, 2025•82

Diffusion-4K: Sintesi di immagini a risoluzione ultra-elevata con modelli di diffusione latente
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models

Jinjin Zhang, Qiuyu Huang, Junjie Liu, Xiefan Guo, Di Huang•Mar 24, 2025•62

Persi nella traduzione culturale: i modelli linguistici faticano con la matematica nei diversi contesti culturali?
Lost in Cultural Translation: Do LLMs Struggle with Math Across Cultural Contexts?

Aabid Karim, Abdul Karim, Bhoomika Lohana, Matt Keon, Jaswinder Singh, Abdul Sattar•Mar 23, 2025•62

V-Seek: Accelerare il Ragionamento dei Modelli Linguistici su Piattaforme Server-class RISC-V ad Hardware Aperto
V-Seek: Accelerating LLM Reasoning on Open-hardware Server-class RISC-V Platforms

Javier J. Poveda Rodrigo, Mohamed Amine Ahmdi, Alessio Burrello, Daniele Jahier Pagliari, Luca Benini•Mar 21, 2025•62

Typed-RAG: Scomposizione Multi-Aspetto con Consapevolezza del Tipo per il Rispondere a Domande Non-Fattuali
Typed-RAG: Type-aware Multi-Aspect Decomposition for Non-Factoid Question Answering

DongGeon Lee, Ahjeong Park, Hyeri Lee, Hyeonseo Nam, Yunho Maeng•Mar 20, 2025•62

AMD-Hummingbird: Verso un Modello Efficiente di Testo-Video
AMD-Hummingbird: Towards an Efficient Text-to-Video Model

Takashi Isobe, He Cui, Dong Zhou, Mengmeng Ge, Dong Li, Emad Barsoum•Mar 24, 2025•52

Controllo della Varianza tramite Riscalatura dei Pesi nel Pre-addestramento di LLM
Variance Control via Weight Rescaling in LLM Pre-training

Louis Owen, Abhay Kumar, Nilabhra Roy Chowdhury, Fabian Güra•Mar 21, 2025•52

MetaSpatial: Rafforzamento del Ragionamento Spaziale 3D nei VLMs per il Metaverso
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse

Zhenyu Pan, Han Liu•Mar 24, 2025•32

Instruct-CLIP: Miglioramento dell'Editing di Immagini Guidato da Istruzioni con Affinamento Automatico dei Dati Utilizzando l'Apprendimento Contrastivo
Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning

Sherry X. Chen, Misha Sra, Pradeep Sen•Mar 24, 2025•32

Mente con Occhi: dal Ragionamento Linguistico al Ragionamento Multimodale
Mind with Eyes: from Language Reasoning to Multimodal Reasoning

Zhiyu Lin, Yifei Gao, Xian Zhao, Yunfan Yang, Jitao Sang•Mar 23, 2025•32

CODA: Riadattamento di VAEs continui per la tokenizzazione discreta
CODA: Repurposing Continuous VAEs for Discrete Tokenization

Zeyu Liu, Zanlin Ni, Yeguo Hua, Xin Deng, Xiao Ma, Cheng Zhong, Gao Huang•Mar 22, 2025•32

RDTF: Framework di Addestramento a Doppia Maschera Efficiente in Risorse per la Generazione di Adesivi Animati Multi-frame
RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation

Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang•Mar 22, 2025•32

La Supervisione Verbale dei Processi Stimola Agenti di Codifica Più Efficaci
Verbal Process Supervision Elicits Better Coding Agents

Hao-Yuan Chen, Cheng-Pong Huang, Jui-Ming Yao•Mar 24, 2025•22

Disapprendimento del Movimento Umano
Human Motion Unlearning

Edoardo De Matteis, Matteo Migliarini, Alessio Sampieri, Indro Spinelli, Fabio Galasso•Mar 24, 2025•12

Rivalutazione della fusione di immagini per la correzione del bilanciamento del bianco multi-illuminante
Revisiting Image Fusion for Multi-Illuminant White-Balance Correction

David Serrano-Lozano, Aditya Arora, Luis Herranz, Konstantinos G. Derpanis, Michael S. Brown, Javier Vazquez-Corral•Mar 18, 2025•12

Ripensare la Valutazione delle Immagini nella Super-Risoluzione
Rethinking Image Evaluation in Super-Resolution

Shaolin Su, Josep M. Rocafort, Danna Xue, David Serrano-Lozano, Lei Sun, Javier Vazquez-Corral•Mar 17, 2025•12

Ricerca ad Albero Globale-Locale per la Generazione di Scene 3D Guidata dal Linguaggio
Global-Local Tree Search for Language Guided 3D Scene Generation

Wei Deng, Mengshi Qi, Huadong Ma•Mar 24, 2025•02

QuartDepth: Quantizzazione Post-Addestramento per la Stima della Profondità in Tempo Reale su Dispositivi Edge
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge

Xuan Shen, Weize Ma, Jing Liu, Changdi Yang, Rui Ding, Quanyi Wang, Henghui Ding, Wei Niu, Yanzhi Wang, Pu Zhao, Jun Lin, Jiuxiang Gu•Mar 20, 2025•02

DynamicVis: Un Modello Visivo Fondamentale Efficiente e Generale per la Comprensione delle Immagini da Telerilevamento
DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding

Keyan Chen, Chenyang Liu, Bowen Chen, Wenyuan Li, Zhengxia Zou, Zhenwei Shi•Mar 20, 2025•02