KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

SymDPO: Steigerung des kontextbezogenen Lernens großer multimodaler Modelle mit Symbol-Demonstrations-Direktpräferenzoptimierung
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

Hongrui Jia, Chaoya Jiang, Haiyang Xu, Wei Ye, Mengfan Dong, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang•Nov 17, 2024•113

Technischer Bericht zu SageAttention2: Präzise 4-Bit-Aufmerksamkeit für beschleunigte Plug-and-Play-Inferenz.
SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration

Jintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen•Nov 17, 2024•416

VBench++: Umfassendes und vielseitiges Benchmark-Set für Video-generative Modelle
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models

Ziqi Huang, Fan Zhang, Xiaojie Xu, Yinan He, Jiashuo Yu, Ziyue Dong, Qianli Ma, Nattapol Chanpaisit, Chenyang Si, Yuming Jiang, Yaohui Wang, Xinyuan Chen, Ying-Cong Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu•Nov 20, 2024•243

VideoAutoArena: Eine automatisierte Arena zur Bewertung großer multimodaler Modelle in der Videoanalyse durch Benutzersimulation.
VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation

Ziyang Luo, Haoning Wu, Dongxu Li, Jing Ma, Mohan Kankanhalli, Junnan Li•Nov 20, 2024•154

Wenn Präzision auf Position trifft: BFloat16 überwindet RoPE im Training mit langem Kontext.
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

Haonan Wang, Qian Liu, Chao Du, Tongyao Zhu, Cunxiao Du, Kenji Kawaguchi, Tianyu Pang•Nov 20, 2024•122

SAMURAI: Anpassung des Segment-Anything-Modells für das Null-Schuss-Visuelle Tracking mit Bewegungsbewusstem Speicher
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang•Nov 18, 2024•123

Ist Ihr LLM heimlich ein Weltmodell des Internets? Modellbasierte Planung für Web-Agenten.
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

Yu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su•Nov 10, 2024•102

Stilcodes: Codierung stilistischer Informationen für die Bildgenerierung
Stylecodes: Encoding Stylistic Information For Image Generation

Ciara Rowles•Nov 19, 2024•72

ViBe: Ein Text-zu-Video-Benchmark zur Bewertung von Halluzinationen in großen multimodalen Modellen
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

Vipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das•Nov 16, 2024•63

Verlust-zu-Verlust-Vorhersage: Skalierungsgesetze für alle Datensätze
Loss-to-Loss Prediction: Scaling Laws for All Datasets

David Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade•Nov 19, 2024•52

Generierung von zusammengesetzten Szenen durch Text-zu-Bild RGBA-Instanzgenerierung
Generating Compositional Scenes via Text-to-image RGBA Instance Generation

Alessandro Fontanella, Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Sarah Parisot•Nov 16, 2024•22

ORID: Organ-Regionales informationsgesteuertes Rahmenwerk für die Generierung von Radiologieberichten
ORID: Organ-Regional Information Driven Framework for Radiology Report Generation

Tiancheng Gu, Kaicheng Yang, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai•Nov 20, 2024•22