Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Trasformatore Latente a Byte: Le Patch Scalano Meglio dei Token
Byte Latent Transformer: Patches Scale Better Than Tokens

Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer•Dec 13, 2024•896

Agente di Valutazione: Framework di Valutazione Efficienti e Reattivo per Modelli Generativi Visivi
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Fan Zhang, Shulin Tian, Ziqi Huang, Yu Qiao, Ziwei Liu•Dec 10, 2024•352

BrushEdit: Inpainting e Modifica Immagini All-In-One
BrushEdit: All-In-One Image Inpainting and Editing

Yaowei Li, Yuxuan Bian, Xuan Ju, Zhaoyang Zhang, Ying Shan, Qiang Xu•Dec 13, 2024•333

RetroLLM: Potenziare i Grandi Modelli Linguistici per Recuperare Prove Dettagliate all'interno della Generazione
RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation

Xiaoxi Li, Jiajie Jin, Yujia Zhou, Yongkang Wu, Zhonghua Li, Qi Ye, Zhicheng Dou•Dec 16, 2024•334

I Modelli Linguistici Più Piccoli Sono Migliori Evolutori di Istruzioni
Smaller Language Models Are Better Instruction Evolvers

Tingfeng Hui, Lulu Zhao, Guanting Dong, Yaqi Zhang, Hua Zhou, Sen Su•Dec 15, 2024•272

ColorFlow: Colorizzazione di sequenze di immagini potenziata dal recupero
ColorFlow: Retrieval-Augmented Image Sequence Colorization

Junhao Zhuang, Xuan Ju, Zhaoyang Zhang, Yong Liu, Shiyi Zhang, Chun Yuan, Ying Shan•Dec 16, 2024•264

Trasformatori di Diffusione Causale per la Modellazione Generativa
Causal Diffusion Transformers for Generative Modeling

Chaorui Deng, Deyao Zh, Kunchang Li, Shi Guan, Haoqi Fan•Dec 16, 2024•233

SPaR: Gioco in autonomia con perfezionamento della ricerca ad albero per migliorare il seguire istruzioni nei grandi modelli linguistici
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Jiale Cheng, Xiao Liu, Cunxiang Wang, Xiaotao Gu, Yida Lu, Dan Zhang, Yuxiao Dong, Jie Tang, Hongning Wang, Minlie Huang•Dec 16, 2024•172

Paese delle Meraviglie: Navigare Scene 3D da un'Immagine Singola
Wonderland: Navigating 3D Scenes from a Single Image

Hanwen Liang, Junli Cao, Vidit Goel, Guocheng Qian, Sergei Korolev, Demetri Terzopoulos, Konstantinos N. Plataniotis, Sergey Tulyakov, Jian Ren•Dec 16, 2024•152

Proprietà Gaussiana: Integrazione delle Proprietà Fisiche nelle Gaussiane 3D con LMM.
GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs

Xinli Xu, Wenhang Ge, Dicong Qiu, ZhiFei Chen, Dongyu Yan, Zhuoyun Liu, Haoyu Zhao, Hanfeng Zhao, Shunsi Zhang, Junwei Liang, Ying-Cong Chen•Dec 15, 2024•132

VividFace: un framework ibrido basato sulla diffusione per lo scambio ad alta fedeltà dei volti nei video
VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping

Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Shuo Qin, Zhuofan Zong, Bingqi Ma, Yu Liu, Hongsheng Li•Dec 15, 2024•122

IDArb: Decomposizione Intrinseca per un Numero Arbitrario di Viste e Illuminazioni di Input
IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Zhibing Li, Tong Wu, Jing Tan, Mengchen Zhang, Jiaqi Wang, Dahua Lin•Dec 16, 2024•122

StrandHead: Testo a Avatar di Testa 3D Disentangled in Strisce Utilizzando Priors Geometrici dei Capelli
StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors

Xiaokun Sun, Zeyu Cai, Zhenyu Zhang, Ying Tai, Jian Yang•Dec 16, 2024•112

SepLLM: Accelerare i Grandi Modelli Linguistici Comprimendo un Segmento in un Separatore
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang•Dec 16, 2024•105

Emma-X: Un modello di azione multimodale incorporato con una catena di pensiero radicata e ragionamento spaziale di anticipazione.
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning

Qi Sun, Pengfei Hong, Tej Deep Pala, Vernon Toh, U-Xuan Tan, Deepanway Ghosal, Soujanya Poria•Dec 16, 2024•92

Il Vantaggio dell'Open Source nei Grandi Modelli Linguistici (LLM)
The Open Source Advantage in Large Language Models (LLMs)

Jiya Manchanda, Laura Boettcher, Matheus Westphalen, Jasser Jasser•Dec 16, 2024•92

SplineGS: Spline Robusto Adattivo al Movimento per Gaussiane 3D Dinamiche in Tempo Reale da Video Monoculare
SplineGS: Robust Motion-Adaptive Spline for Real-Time Dynamic 3D Gaussians from Monocular Video

Jongmin Park, Minh-Quan Viet Bui, Juan Luis Gonzalez Bello, Jaeho Moon, Jihyong Oh, Munchurl Kim•Dec 13, 2024•73

DynamicScaler: Generazione Video Fluida e Scalabile per Scene Panoramiche
DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes

Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang•Dec 15, 2024•62

Meravigliose Matrici: Combinazione per un'Architettura del Modello di Base più Efficient e Efficace
Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture

Jingze Shi, Bingheng Wu•Dec 16, 2024•62

TidyBot++: Un Manipolatore Mobile Ominidirezionale Open-Source per l'Apprendimento dei Robot
TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning

Jimmy Wu, William Chong, Robert Holmberg, Aaditya Prasad, Yihuai Gao, Oussama Khatib, Shuran Song, Szymon Rusinkiewicz, Jeannette Bohg•Dec 11, 2024•52

MOVIS: Miglioramento della Sintesi di Nuove Viste Multi-Oggetto per Scene Interne
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

Ruijie Lu, Yixin Chen, Junfeng Ni, Baoxiong Jia, Yu Liu, Diwen Wan, Gang Zeng, Siyuan Huang•Dec 16, 2024•52

GeoX: Risoluzione dei problemi geometrici attraverso il pre-addestramento unificato formalizzato della visione e del linguaggio.
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

Renqiu Xia, Mingsheng Li, Hancheng Ye, Wenjie Wu, Hongbin Zhou, Jiakang Yuan, Tianshuo Peng, Xinyu Cai, Xiangchao Yan, Bin Wang, Conghui He, Botian Shi, Tao Chen, Junchi Yan, Bo Zhang•Dec 16, 2024•42

MaxInfoRL: Potenziare l'esplorazione nell'apprendimento per rinforzo attraverso la massimizzazione del guadagno di informazione
MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Bhavya Sukhija, Stelian Coros, Andreas Krause, Pieter Abbeel, Carmelo Sferrazza•Dec 16, 2024•42

Whisper-GPT: Un Modello di Linguaggio Audio a Rappresentazione Ibrida di Grandi Dimensioni
Whisper-GPT: A Hybrid Representation Audio Large Language Model

Prateek Verma•Dec 16, 2024•42

Classifiche affidabili, riproducibili e molto veloci con Evalica
Reliable, Reproducible, and Really Fast Leaderboards with Evalica

Dmitry Ustalov•Dec 15, 2024•22

Una semplice trasformazione è sufficiente per la protezione dei dati nel Vertical Federated Learning.
Just a Simple Transformation is Enough for Data Protection in Vertical Federated Learning

Andrei Semenov, Philip Zmushko, Alexander Pichugin, Aleksandr Beznosikov•Dec 16, 2024•22

Protezione quasi a costo zero contro l'imitazione tramite modelli di diffusione personalizzati
Nearly Zero-Cost Protection Against Mimicry by Personalized Diffusion Models

Namhyuk Ahn, KiYoon Yoo, Wonhyuk Ahn, Daesik Kim, Seung-Hun Nam•Dec 16, 2024•12

RLDG: Distillazione della politica generalista robotica tramite apprendimento per rinforzo
RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning

Charles Xu, Qiyang Li, Jianlan Luo, Sergey Levine•Dec 13, 2024•12