Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

MergeVQ: Un Framework Unificato per la Generazione e la Rappresentazione Visiva con Fusione e Quantizzazione di Token Disaccoppiati
MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Siyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei•Apr 1, 2025•827

DreamActor-M1: Animazione di immagini umane olistica, espressiva e robusta con guida ibrida
DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance

Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu•Apr 2, 2025•636

AnimeGamer: Simulazione Infinita di Vita Anime con Predizione del Prossimo Stato di Gioco
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction

Junhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan•Apr 1, 2025•612

Miglioramento del Ragionamento Visivo-Spaziale tramite Addestramento di Tipo R1-Zero
Improved Visual-Spatial Reasoning via R1-Zero-Like Training

Zhenyi Liao, Qingsong Xie, Yanhao Zhang, Zijian Kong, Haonan Lu, Zhenyu Yang, Zhijie Deng•Apr 1, 2025•603

Comprendere l'Addestramento di Tipo R1-Zero: Una Prospettiva Critica
Understanding R1-Zero-Like Training: A Critical Perspective

Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin•Mar 26, 2025•433

VideoScene: Distillare Modelli di Diffusione Video per Generare Scene 3D in un Singolo Passo
VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step

Hanyang Wang, Fangfu Liu, Jiawei Chi, Yueqi Duan•Apr 2, 2025•392

ScholarCopilot: Addestramento di Modelli Linguistici di Grandi Dimensioni per la Scrittura Accademica con Citazioni Accurate
ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations

Yubo Wang, Xueguang Ma, Ping Nie, Huaye Zeng, Zhiheng Lyu, Yuxuan Zhang, Benjamin Schneider, Yi Lu, Xiang Yue, Wenhu Chen•Apr 1, 2025•392

Verso la Generazione di Video Fisicamente Plausibili tramite Pianificazione VLM
Towards Physically Plausible Video Generation via VLM Planning

Xindi Yang, Baolu Li, Yiming Zhang, Zhenfei Yin, Lei Bai, Liqian Ma, Zhiyong Wang, Jianfei Cai, Tien-Tsin Wong, Huchuan Lu, Xu Jia•Mar 30, 2025•383

PaperBench: Valutazione della Capacità dell'IA di Replicare la Ricerca sull'IA
PaperBench: Evaluating AI's Ability to Replicate AI Research

Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan•Apr 2, 2025•352

Distillazione della Cinematica Articolata da Modelli di Diffusione Video
Articulated Kinematics Distillation from Video Diffusion Models

Xuan Li, Qianli Ma, Tsung-Yi Lin, Yongxin Chen, Chenfanfu Jiang, Ming-Yu Liu, Donglai Xiang•Apr 1, 2025•233

ILLUME+: Illuminazione di un MLLM Unificato con Tokenizzazione Visiva Duale e Affinamento a Diffusione
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

Runhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu•Apr 2, 2025•224

Migliora il Tuo Modello di Generazione di Immagini Umane tramite Ottimizzazione Diretta delle Preferenze con Feedback AI
Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

Sanghyeon Na, Yonggyu Kim, Hyunjoon Lee•May 30, 2024•203

Proteggere i Modelli Visione-Linguaggio: Mitigare le Vulnerabilità al Rumore Gaussiano negli Attacchi Basati su Perturbazioni
Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks

Jiawei Wang, Yushen Zuo, Yuanjun Chai, Zhendong Liu, Yichen Fu, Yichun Feng, Kin-man Lam•Apr 2, 2025•132

DASH: Rilevamento e Valutazione delle Allucinazioni Sistematiche nei Modelli Visivo-Linguistici
DASH: Detection and Assessment of Systematic Hallucinations of VLMs

Maximilian Augustin, Yannic Neuhaus, Matthias Hein•Mar 30, 2025•122

MegaTTS 3: Trasformatore a Diffusione Latente con Allineamento Sparso Potenziato per la Sintesi Vocale Zero-Shot
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis

Ziyue Jiang, Yi Ren, Ruiqi Li, Shengpeng Ji, Boyang Zhang, Zhenhui Ye, Chen Zhang, Bai Jionghao, Xiaoda Yang, Jialong Zuo, Yu Zhang, Rui Liu, Xiang Yin, Zhou Zhao•Feb 26, 2025•122

Quamba2: Un Framework Robusto e Scalabile per la Quantizzazione Post-Addestramento di Modelli a Spazio di Stati Selettivi
Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models

Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu•Mar 28, 2025•102

LSNet: Vedi Grande, Concentrati sul Piccolo
LSNet: See Large, Focus Small

Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding•Mar 29, 2025•93

VerifiAgent: un Agente di Verifica Unificato nel Ragionamento dei Modelli Linguistici
VerifiAgent: a Unified Verification Agent in Language Model Reasoning

Jiuzhou Han, Wray Buntine, Ehsan Shareghi•Apr 1, 2025•62

Salto adattivo di strati nei modelli linguistici pre-addestrati
Adaptive Layer-skipping in Pre-trained LLMs

Xuan Luo, Weizhi Wang, Xifeng Yan•Mar 31, 2025•62

I modelli linguistici di grandi dimensioni in ambito medico sono facilmente distraibili.
Medical large language models are easily distracted

Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann•Apr 1, 2025•32

Modelli di diffusione video consapevoli del target
Target-Aware Video Diffusion Models

Taeksoo Kim, Hanbyul Joo•Mar 24, 2025•32

Miglioramento del Rilevamento OoD attraverso l'Allineamento Cross-Modale delle Rappresentazioni Multi-Modali
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations

Jeonghyeon Kim, Sangheum Hwang•Mar 24, 2025•31