Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

ROICtrl: Potenziamento del Controllo delle Istanze per la Generazione Visuale
ROICtrl: Boosting Instance Control for Visual Generation

Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou•Nov 27, 2024•712

Grafo della scena intercalato per la generazione intercalata di testo e immagini Valutazione
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna•Nov 26, 2024•192

Generazione di Video da Testo Preservando l'Identità tramite Decomposizione in Frequenza
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan•Nov 26, 2024•133

MARVEL-40M+: Elaborazione Visiva a Più Livelli per la Creazione di Contenuti Testuali in 3D ad Alta Fedeltà
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal•Nov 26, 2024•214

CAT4D: Creare Qualsiasi Cosa in 4D con Modelli di Diffusione Video Multivista
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski•Nov 27, 2024•505

Agenti GUI con grandi modelli linguistici cerebrali: un'indagine
Large Language Model-Brained GUI Agents: A Survey

Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang•Nov 27, 2024•293

Splatting Convesso in 3D: Rendering del Campo di Radiazione con Convessi Lisci in 3D
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Jan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck•Nov 22, 2024•175

Auto-Distillazione per Diffusione per la Generazione Personalizzata di Immagini Zero-Shot
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein•Nov 27, 2024•156

DiffusionDrive: Modello di Diffusione Troncato per la Guida Autonoma End-to-End
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang•Nov 22, 2024•152

Make-It-Animatable: Un Framework Efficiente per la Creazione di Personaggi 3D Pronti per l'Animazione
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Zhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang•Nov 27, 2024•144

DreamCache: Generazione leggera e personalizzata di immagini senza sintonizzazione tramite caching delle caratteristiche
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli•Nov 26, 2024•123

La decodifica collaborativa rende efficiente la modellazione auto-regressiva visuale.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang•Nov 26, 2024•112

UniPose: Un framework unificato multimodale per la comprensione, generazione e modifica della postura umana
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen•Nov 25, 2024•103

ChatRex: Addomesticare il LLM Multimodale per la Percezione e Comprensione Congiunte
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang•Nov 27, 2024•93

Generazione di suoni Foley guidata da video con controlli multimodali
Video-Guided Foley Sound Generation with Multimodal Controls

Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon•Nov 26, 2024•82

Omegance: Un singolo parametro per varie granularità nella sintesi basata sulla diffusione
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy•Nov 26, 2024•72

Modello provvisorio sa quando fermarsi: una politica di lunghezza di autoverifica per la decodifica speculativa
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu•Nov 27, 2024•62

VideoLLM sa quando parlare: Migliorare la comprensione di video sensibili al tempo con il formato di interazione video-testo duale
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao•Nov 27, 2024•52

Ottimizzazione della segmentazione dei tumori cerebrali con MedNeXt: BraTS 2024 SSA e Pediatria
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Sarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub•Nov 24, 2024•52

Ripristino Immagine Adattivo Cieco All-in-One
Adaptive Blind All-in-One Image Restoration

David Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral•Nov 27, 2024•42

Addestramento e Valutazione dei Modelli Linguistici con la Generazione di Dati basata su Modelli.
Training and Evaluating Language Models with Template-based Data Generation

Yifan Zhang•Nov 27, 2024•33

Modifica e il mio volto non rimarrà: Difesa biometrica personale contro la modifica generativa maliziosa
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Hanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu•Nov 25, 2024•23