Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

OmniDocBench: Valutazione delle Diverse Analisi di Documenti PDF con Annotazioni Complete
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He•Dec 10, 2024•111

ProcessBench: Identificazione degli errori nei processi di ragionamento matematico
ProcessBench: Identifying Process Errors in Mathematical Reasoning

Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin•Dec 9, 2024•786

Addestramento di Grandi Modelli Linguistici per Ragionare in uno Spazio Latente Continuo
Training Large Language Models to Reason in a Continuous Latent Space

Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian•Dec 9, 2024•747

Svelare la complessità della memoria negli agenti di RL: un approccio per la classificazione e valutazione
Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

Egor Cherepanov, Nikita Kachaev, Artem Zholus, Alexey K. Kovalev, Aleksandr I. Panov•Dec 9, 2024•712

Maya: Un modello multilingue multimodale raffinato mediante istruzioni
Maya: An Instruction Finetuned Multilingual Multimodal Model

Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji•Dec 10, 2024•262

In giro per il mondo in 80 passaggi temporali: Un approccio generativo alla geolocalizzazione visiva globale
Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu•Dec 9, 2024•202

Divot: la diffusione alimenta il tokenizer video per la comprensione e la generazione
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan•Dec 5, 2024•152

Esplorazione delle annotazioni concettuali a più granularità per modelli di linguaggio multimodali di grandi dimensioni
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

Xiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan•Dec 8, 2024•152

Lo vedi, lo ottieni: Apprendimento della creazione 3D su video senza pose a larga scala
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

Baorui Ma, Huachen Gao, Haoge Deng, Zhengxiong Luo, Tiejun Huang, Lulu Tang, Xinlong Wang•Dec 9, 2024•123

Reti Delta con cancelli: Migliorare Mamba2 con la regola Delta
Gated Delta Networks: Improving Mamba2 with Delta Rule

Songlin Yang, Jan Kautz, Ali Hatamizadeh•Dec 9, 2024•103

MotionShop: Trasferimento di Movimento Zero-Shot nei Modelli di Diffusione Video con Miscela di Guida dei Punteggi
MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance

Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag•Dec 6, 2024•72

Rappresentazioni Globali e Dense della Terra: Major TOM Fluttuante nello Spazio Latente
Global and Dense Embeddings of Earth: Major TOM Floating in the Latent Space

Mikolaj Czerkawski, Marcin Kluczek, Jędrzej S. Bojanowski•Dec 7, 2024•72

MAtCha Gaussians: Atlante di Grafici per Geometria di Alta Qualità e Fotorealismo da Viste Sparse
MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views

Antoine Guédon, Tomoki Ichikawa, Kohei Yamashita, Ko Nishino•Dec 9, 2024•62

CARP: Apprendimento della politica visuomotoria tramite previsione autoregressiva grossolana-fine.
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang•Dec 9, 2024•62

Marcatura d'acqua testuale multi-bit robusta con parafrasi basate su LLM.
Robust Multi-bit Text Watermark with LLM-based Paraphrasers

Xiaojun Xu, Jinghan Jia, Yuanshun Yao, Yang Liu, Hang Li•Dec 4, 2024•52

Se non puoi usarli, riciclali: Ottimizzazione della Fusione su Larga Scala per Mitigare i Compromessi sulle Prestazioni
If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé•Dec 5, 2024•42

Turbo3D: Generazione Ultra Veloce di Testo in 3D
Turbo3D: Ultra-fast Text-to-3D Generation

Hanzhe Hu, Tianwei Yin, Fujun Luan, Yiwei Hu, Hao Tan, Zexiang Xu, Sai Bi, Shubham Tulsiani, Kai Zhang•Dec 5, 2024•32