Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

TEXGen: un modello generativo a diffusione per le texture a maglia
TEXGen: a Generative Diffusion Model for Mesh Textures

Xin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi•Nov 22, 2024•122

DreamMix: Decoupling degli attributi degli oggetti per una maggiore modificabilità nell'Inpainting personalizzato delle immagini
DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting

Yicheng Yang, Pengxiang Li, Lu Zhang, Liqian Ma, Ping Hu, Siyu Du, Yunzhi Zhuge, Xu Jia, Huchuan Lu•Nov 26, 2024•53

Attenzione a Stelle: Inferenza Efficient di LLM su Sequenze Lunghe
Star Attention: Efficient LLM Inference over Long Sequences

Shantanu Acharya, Fei Jia, Boris Ginsburg•Nov 26, 2024•382

MostraUI: Un Modello Visione-Linguaggio-Azione per un Agente Visivo GUI
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou•Nov 26, 2024•793

Percorsi sulla varietà delle immagini: Modifica delle immagini tramite la generazione di video
Pathways on the Image Manifold: Image Editing via Video Generation

Noam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel•Nov 25, 2024•312

Ripensando alla Riduzione dei Token nei Modelli di Linguaggio Basati su Trasformatori: Verso un Paradigma Unificato per l'Accelerazione Senza Addestramento
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Yuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang•Nov 26, 2024•192

Indagine MME: Un'indagine esaustiva sull'valutazione dei Modelli Linguaggio Multimodali.
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Chaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He•Nov 22, 2024•192

SketchAgent: Generazione Sequenziale di Bozzetti Guidata dal Linguaggio
SketchAgent: Language-Driven Sequential Sketch Generation

Yael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba•Nov 26, 2024•184

SAR3D: Generazione autoregressiva di oggetti 3D e comprensione tramite VQVAE 3D multi-scala.
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Yongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan•Nov 25, 2024•112

La quantizzazione a basso bit favorisce i LLM sottallenati: leggi di scala per i LLM quantizzati con 100T token di addestramento.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Xu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu•Nov 26, 2024•115

VLRewardBench: un benchmark sfidante per i modelli generativi visione-linguaggio di ricompensa.
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu•Nov 26, 2024•102

Apprendimento delle rappresentazioni 3D da programmi 3D procedurali
Learning 3D Representations from Procedural 3D Programs

Xuweiyi Chen, Zezhou Cheng•Nov 25, 2024•82

SALOVA: Assistente Video a Lungo Termine Potenziato da Segmenti per il Recupero Mirato e l'Instradamento nell'Analisi Video a Lungo Termine
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Junho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro•Nov 25, 2024•72

SOTTOTITOLO: Descrizione Compositiva delle Immagini Concentrandosi Ovunque Tu Desideri a Qualsiasi Livello di Granularità
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Hang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo•Nov 23, 2024•72

AnchorCrafter: Anima gli ancoraggi cibernetici per la vendita dei tuoi prodotti tramite la generazione di video di interazione tra persone e oggetti.
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Ziyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang•Nov 26, 2024•62

EfficientViM: Vision Mamba Efficient con Mixer di Stato Nascosto basato sulla Dualità dello Spazio di Stato
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Sanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim•Nov 22, 2024•52

MolReFlect: Verso Allineamenti Dettagliati Contestualizzati tra Molecole e Testi
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Jiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li•Nov 22, 2024•42

Generazione di immagini controllabili di persone con abbigliamento personalizzato multi-garments.
Controllable Human Image Generation with Personalized Multi-Garments

Yisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin•Nov 25, 2024•32

Test di Turing del Contatore Visivo (VCT^2): Scoperta delle sfide per la Rilevazione di Immagini Generate da AI e Introduzione dell'Indice di AI Visiva (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das•Nov 24, 2024•12