Paper Giornalieri
ColorBench: I modelli linguistici visivi possono vedere e comprendere il mondo colorato? Un benchmark completo per la percezione del colore, il ragionamento e la robustezzaColorBench: Can VLMs See and Understand the Colorful World? A
Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
ColorBench: I modelli linguistici visivi possono vedere e comprendere il mondo colorato? Un benchmark completo per la percezione del colore, il ragionamento e la robustezza
ColorBench: Can VLMs See and Understand the Colorful World? A
Comprehensive Benchmark for Color Perception, Reasoning, and Robustness
Yijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou•Apr 10, 2025•313
BitNet b1.58 Rapporto Tecnico 2B4TBitNet b1.58 2B4T Technical Report
BitNet b1.58 Rapporto Tecnico 2B4T
BitNet b1.58 2B4T Technical Report
Shuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei•Apr 16, 2025•281
ReTool: Apprendimento per Rinforzo per l'Uso Strategico di Strumenti nei Modelli LinguisticiReTool: Reinforcement Learning for Strategic Tool Use in LLMs
ReTool: Apprendimento per Rinforzo per l'Uso Strategico di Strumenti nei Modelli Linguistici
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs
Jiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong•Apr 15, 2025•251
Cobra: Colorizzazione Efficiente di Line Art con Riferimenti più AmpiCobra: Efficient Line Art COlorization with BRoAder References
Cobra: Colorizzazione Efficiente di Line Art con Riferimenti più Ampi
Cobra: Efficient Line Art COlorization with BRoAder References
Junhao Zhuang, Lingen Li, Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan•Apr 16, 2025•171
AlayaDB: La Fondazione Dati per un'Inferenza Efficiente ed Efficace nei Modelli Linguistici a Lungo ContestoAlayaDB: The Data Foundation for Efficient and Effective Long-context
LLM Inference
AlayaDB: La Fondazione Dati per un'Inferenza Efficiente ed Efficace nei Modelli Linguistici a Lungo Contesto
AlayaDB: The Data Foundation for Efficient and Effective Long-context
LLM Inference
Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang•Apr 14, 2025•171
SIFT-50M: Un Dataset Multilingue su Larga Scala per il Fine-Tuning di Istruzioni VocaliSIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction
Fine-Tuning
SIFT-50M: Un Dataset Multilingue su Larga Scala per il Fine-Tuning di Istruzioni Vocali
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction
Fine-Tuning
Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz•Apr 12, 2025•121
REPA-E: Sbloccare i VAE per l'ottimizzazione end-to-end con la diffusione latente dei TransformerREPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion
Transformers
REPA-E: Sbloccare i VAE per l'ottimizzazione end-to-end con la diffusione latente dei Transformer
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion
Transformers
Xingjian Leng, Jaskirat Singh, Yunzhong Hou, Zhenchang Xing, Saining Xie, Liang Zheng•Apr 14, 2025•111
SFT o RL? Un'indagine preliminare sull'addestramento di modelli linguistici visivi di grandi dimensioni con ragionamento simile a R1SFT or RL? An Early Investigation into Training R1-Like Reasoning Large
Vision-Language Models
SFT o RL? Un'indagine preliminare sull'addestramento di modelli linguistici visivi di grandi dimensioni con ragionamento simile a R1
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large
Vision-Language Models
Hardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie•Apr 10, 2025•81
Verso l'apprendimento per completare qualsiasi cosa nei dati LiDARTowards Learning to Complete Anything in Lidar
Verso l'apprendimento per completare qualsiasi cosa nei dati LiDAR
Towards Learning to Complete Anything in Lidar
Ayca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep•Apr 16, 2025•51
Vivid4D: Miglioramento della Ricostruzione 4D da Video Monoculare tramite Video InpaintingVivid4D: Improving 4D Reconstruction from Monocular Video by Video
Inpainting
Vivid4D: Miglioramento della Ricostruzione 4D da Video Monoculare tramite Video Inpainting
Vivid4D: Improving 4D Reconstruction from Monocular Video by Video
Inpainting
Jiaxin Huang, Sheng Miao, BangBnag Yang, Yuewen Ma, Yiyi Liao•Apr 15, 2025•51
Rilevamento robusto e granulare di testi generati dall'intelligenza artificialeRobust and Fine-Grained Detection of AI Generated Texts
Rilevamento robusto e granulare di testi generati dall'intelligenza artificiale
Robust and Fine-Grained Detection of AI Generated Texts
Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Kanwal Mehreen, Drishti Sharma, Siddhant Gupta, Jebish Purbey, Ashay Srivastava, Subhasya TippaReddy, Arvind Reddy Bobbili, Suraj Telugara Chandrashekhar, Modabbir Adeeb, Srinadh Vura, Hamza Farooq•Apr 16, 2025•41
Sizigia dei Pensieri: Migliorare il Ragionamento a Catena nei Modelli Linguistici con la Risoluzione Libera MinimaSyzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution
Sizigia dei Pensieri: Migliorare il Ragionamento a Catena nei Modelli Linguistici con la Risoluzione Libera Minima
Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution
Chenghao Li, Chaoning Zhang, Yi Lu, Jiaquan Zhang, Qigan Sun, Xudong Wang, Jiwei Wei, Guoqing Wang, Yang Yang, Heng Tao Shen•Apr 13, 2025•21
"Non è una rappresentazione di me": Esaminando il Pregiudizio sull'Accento e l'Esclusione Digitale nei Servizi di Sintesi Vocale basati sull'Intelligenza Artificiale"It's not a representation of me": Examining Accent Bias and Digital
Exclusion in Synthetic AI Voice Services
"Non è una rappresentazione di me": Esaminando il Pregiudizio sull'Accento e l'Esclusione Digitale nei Servizi di Sintesi Vocale basati sull'Intelligenza Artificiale
"It's not a representation of me": Examining Accent Bias and Digital
Exclusion in Synthetic AI Voice Services
Shira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh•Apr 12, 2025•11
BlockGaussian: Sintesi Efficiente di Nuove Visualizzazioni su Grande Scala di Scene tramite Splatting Gaussiano Adattivo Basato su BlocchiBlockGaussian: Efficient Large-Scale Scene Novel View Synthesis via
Adaptive Block-Based Gaussian Splatting
BlockGaussian: Sintesi Efficiente di Nuove Visualizzazioni su Grande Scala di Scene tramite Splatting Gaussiano Adattivo Basato su Blocchi
BlockGaussian: Efficient Large-Scale Scene Novel View Synthesis via
Adaptive Block-Based Gaussian Splatting
Yongchang Wu, Zipeng Qi, Zhenwei Shi, Zhengxia Zou•Apr 12, 2025•11