Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Apollo: Un'esplorazione della comprensione dei video nei grandi modelli multimodali
Apollo: An Exploration of Video Understanding in Large Multimodal Models

Orr Zohar, Xiaohan Wang, Yann Dubois, Nikhil Mehta, Tong Xiao, Philippe Hansen-Estruch, Licheng Yu, Xiaofang Wang, Felix Juefei-Xu, Ning Zhang, Serena Yeung-Levy, Xide Xia•Dec 13, 2024•13912

GenEx: Generazione di un Mondo Esplorabile
GenEx: Generating an Explorable World

Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen•Dec 12, 2024•882

SynerGen-VL: Verso una comprensione e generazione d'immagini sinergiche con esperti di visione e piegatura di token.
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding

Hao Li, Changyao Tian, Jie Shao, Xizhou Zhu, Zhaokai Wang, Jinguo Zhu, Wenhan Dou, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai•Dec 12, 2024•354

Modelli di Azione Estesi: Dall'Inizio all'Implementazione
Large Action Models: From Inception to Implementation

Lu Wang, Fangkai Yang, Chaoyun Zhang, Junting Lu, Jiaxu Qian, Shilin He, Pu Zhao, Bo Qiao, Ray Huang, Si Qin, Qisheng Su, Jiayi Ye, Yudi Zhang, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang•Dec 13, 2024•325

BiMediX2: Esperto in Medicina Biologica LMM per Diverse Modalità Mediche
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal•Dec 10, 2024•262

FreeScale: Liberare la Risoluzione dei Modelli di Diffusione tramite Fusione di Scala Senza Taratura
FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion

Haonan Qiu, Shiwei Zhang, Yujie Wei, Ruihang Chu, Hangjie Yuan, Xiang Wang, Yingya Zhang, Ziwei Liu•Dec 12, 2024•202

Modellazione generativa efficiente con token basati su Quantizzazione Vettoriale Residua
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens

Jaehyeon Kim, Taehong Moon, Keon Lee, Jaewoong Cho•Dec 13, 2024•192

InstanceCap: Migliorare la Generazione Testo-Video tramite Didascalie Strutturate Consapevoli delle Istanze
InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption

Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai•Dec 12, 2024•193

ObjectMate: Una Priorità di Ricorrenza per l'Inserimento di Oggetti e la Generazione Guidata dal Soggetto
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation

Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen•Dec 11, 2024•112

FireFlow: Inversione Veloce del Flusso Rettificato per la Modifica Semantica delle Immagini
FireFlow: Fast Inversion of Rectified Flow for Image Semantic Editing

Yingying Deng, Xiangyu He, Changwang Mei, Peisong Wang, Fan Tang•Dec 10, 2024•113

LinGen: Verso la Generazione di Video da Testo ad Alta Risoluzione di Breve Durata con Complessità Computazionale Lineare
LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai•Dec 13, 2024•104

FluxSpace: Modifica Semantica Disentangled nei Trasformatori di Flusso Raddrizzati
FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

Yusuf Dalva, Kavana Venkatesh, Pinar Yanardag•Dec 12, 2024•92

SCBench: Un'Analisi Centrata sulla Cache KV dei Metodi a Lungo Contesto
SCBench: A KV Cache-Centric Analysis of Long-Context Methods

Yucheng Li, Huiqiang Jiang, Qianhui Wu, Xufang Luo, Surin Ahn, Chengruidong Zhang, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu•Dec 13, 2024•92

Generazione musicale multimodale con ponti espliciti e potenziamento del recupero
Multimodal Music Generation with Explicit Bridges and Retrieval Augmentation

Baisen Wang, Le Zhuo, Zhaokai Wang, Chenxi Bao, Wu Chengjing, Xuecheng Nie, Jiao Dai, Jizhong Han, Yue Liao, Si Liu•Dec 12, 2024•74

GReaTer: I Gradienti sulla Ragionamento Rendono più Forti i Modelli Linguistici più Piccoli Ottimizzatori Prompt
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers

Sarkar Snigdha Sarathi Das, Ryo Kamoi, Bo Pang, Yusen Zhang, Caiming Xiong, Rui Zhang•Dec 12, 2024•53

SmolTulu: Rapporti più elevati tra tasso di apprendimento e dimensione del batch possono portare a un miglioramento della capacità di ragionamento nei SLM.
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs

Sultan Alrashed•Dec 11, 2024•42

TraceVLA: Visual Trace Prompting Migliora la Consapevolezza Spazio-Temporale per Politiche Robotiche Generaliste
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies

Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang•Dec 13, 2024•22

Prompt2Perturb (P2P): Attacchi avversari basati sulla diffusione guidata dal testo alle immagini ad ultrasuoni al seno
Prompt2Perturb (P2P): Text-Guided Diffusion-Based Adversarial Attacks on Breast Ultrasound Images

Yasamin Medghalchi, Moein Heidari, Clayton Allard, Leonid Sigal, Ilker Hacihaliloglu•Dec 13, 2024•12