Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seaweed-7B: Addestramento Economico di un Modello Fondamentale per la Generazione di Video
Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

Team Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang•Apr 11, 2025•11710

GigaTok: Scalabilità dei Tokenizzatori Visivi a 3 Miliardi di Parametri per la Generazione Autoregressiva di Immagini
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu•Apr 11, 2025•442

MineWorld: un Modello di Mondo Interattivo in Tempo Reale e Open-Source su Minecraft
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft

Junliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian•Apr 11, 2025•373

VLM-R1: Un modello linguistico-visivo di grandi dimensioni stile R1 stabile e generalizzabile
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

Haozhan Shen, Peng Liu, Jingcheng Li, Chunxin Fang, Yibo Ma, Jiajia Liao, Qiaoli Shen, Zilun Zhang, Kangjia Zhao, Qianqian Zhang, Ruochen Xu, Tiancheng Zhao•Apr 10, 2025•262

SQL-R1: Addestramento di un Modello di Ragionamento da Linguaggio Naturale a SQL Tramite Apprendimento per Rinforzo
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

Peixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo•Apr 11, 2025•242

ZipIR: Trasformatore a Diffusione con Piramide Latente per il Restauro di Immagini ad Alta Risoluzione
ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

Yongsheng Yu, Haitian Zheng, Zhifei Zhang, Jianming Zhang, Yuqian Zhou, Connelly Barnes, Yuchen Liu, Wei Xiong, Zhe Lin, Jiebo Luo•Apr 11, 2025•152

PixelFlow: Modelli Generativi nello Spazio dei Pixel con Flusso
PixelFlow: Pixel-Space Generative Models with Flow

Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo•Apr 10, 2025•156

FlexIP: Controllo Dinamico della Conservazione e della Personalità per la Generazione Personalizzata di Immagini
FlexIP: Dynamic Control of Preservation and Personality for Customized Image Generation

Linyan Huang, Haonan Lin, Yanning Zhou, Kaiwen Xiao•Apr 10, 2025•92

I modelli linguistici di livello PhD comprendono davvero l'addizione elementare? Esplorando l'apprendimento di regole rispetto alla memorizzazione nei grandi modelli linguistici
Do PhD-level LLMs Truly Grasp Elementary Addition? Probing Rule Learning vs. Memorization in Large Language Models

Yang Yan, Yu Lu, Renjun Xu, Zhenzhong Lan•Apr 7, 2025•96

CoRAG: Generazione Aumentata con Recupero Collaborativo
CoRAG: Collaborative Retrieval-Augmented Generation

Aashiq Muhamed, Mona Diab, Virginia Smith•Apr 2, 2025•92

Cronache Visive: Utilizzo di Modelli Linguistici Multimodali per Analizzare Vaste Collezioni di Immagini
Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images

Boyang Deng, Songyou Peng, Kyle Genova, Gordon Wetzstein, Noah Snavely, Leonidas Guibas, Thomas Funkhouser•Apr 11, 2025•82

ModernBERT o DeBERTaV3? Esaminando l'influenza dell'architettura e dei dati sulle prestazioni dei modelli Transformer Encoder
ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance

Wissam Antoun, Benoît Sagot, Djamé Seddah•Apr 11, 2025•83

In-2-4D: Interpolazione da Due Immagini Monovista alla Generazione 4D
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation

Sauradip Nag, Daniel Cohen-Or, Hao Zhang, Ali Mahdavi-Amiri•Apr 11, 2025•72

Guida senza addestramento nella generazione testo-video tramite pianificazione multimodale e inizializzazione strutturata del rumore
Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization

Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal•Apr 11, 2025•52

BlenderGym: Benchmarking dei Sistemi di Modelli Fondamentali per l'Editing Grafico
BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing

Yunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas Guibas•Apr 2, 2025•52

SpecReason: Calcolo Rapido e Preciso al Momento dell'Inferenza tramite Ragionamento Speculativo
SpecReason: Fast and Accurate Inference-Time Compute via Speculative Reasoning

Rui Pan, Yinwei Dai, Zhihao Zhang, Gabriele Oliaro, Zhihao Jia, Ravi Netravali•Apr 10, 2025•42

UKBOB: Un Miliardo di Maschere Etichettate da Risonanza Magnetica per la Segmentazione Generalizzabile di Immagini Mediche 3D
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation

Emmanuelle Bourigault, Amir Jamaludin, Abdullah Hamdi•Apr 9, 2025•42

Autoencoder a Diffusione Latente: Verso un Apprendimento di Rappresentazione Non Supervisionato Efficace e Significativo nell'Imaging Medico
Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging

Gabriele Lozupone, Alessandro Bria, Francesco Fontanella, Frederick J. A. Meijer, Claudio De Stefano, Henkjan Huisman•Apr 11, 2025•32

Gli SAE possono migliorare il disimparamento: Autoencoder Sparso Dinamico come Guardrail per il Disimparamento di Precisione nei Modelli Linguistici di Grande Dimensione
SAEs Can Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs

Aashiq Muhamed, Jacopo Bonato, Mona Diab, Virginia Smith•Apr 11, 2025•32

InteractVLM: Ragionamento sull'Interazione 3D a partire da Modelli Fondamentali 2D
InteractVLM: 3D Interaction Reasoning from 2D Foundational Models

Sai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, Omid Taheri, Cordelia Schmid, Michael J. Black, Dimitrios Tzionas•Apr 7, 2025•22