Tägliche Papers
Zur Untersuchung von Kamerabewegungen in beliebigen VideosTowards Understanding Camera Motions in Any Video
Zur Untersuchung von Kamerabewegungen in beliebigen Videos
Towards Understanding Camera Motions in Any Video
Zhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan•Apr 21, 2025•1121
Skywork R1V2: Multimodales hybrides Reinforcement Learning für ReasoningSkywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
Skywork R1V2: Multimodales hybrides Reinforcement Learning für Reasoning
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning
Chris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou•Apr 23, 2025•391
BitNet v2: Native 4-Bit-Aktivierungen mit Hadamard-Transformation für 1-Bit-LLMsBitNet v2: Native 4-bit Activations with Hadamard Transformation for
1-bit LLMs
BitNet v2: Native 4-Bit-Aktivierungen mit Hadamard-Transformation für 1-Bit-LLMs
BitNet v2: Native 4-bit Activations with Hadamard Transformation for
1-bit LLMs
Hongyu Wang, Shuming Ma, Furu Wei•Apr 25, 2025•191
VideoVista-CulturalLingo: 360° Horizonte – Brücken zwischen Kulturen, Sprachen und Domänen in der VideoverständnisanalyseVideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures,
Languages, and Domains in Video Comprehension
VideoVista-CulturalLingo: 360° Horizonte – Brücken zwischen Kulturen, Sprachen und Domänen in der Videoverständnisanalyse
VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures,
Languages, and Domains in Video Comprehension
Xinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang•Apr 23, 2025•171
Können große Sprachmodelle bei der multimodalen Sprachanalyse helfen? MMLA: Ein umfassender BenchmarkCan Large Language Models Help Multimodal Language Analysis? MMLA: A
Comprehensive Benchmark
Können große Sprachmodelle bei der multimodalen Sprachanalyse helfen? MMLA: Ein umfassender Benchmark
Can Large Language Models Help Multimodal Language Analysis? MMLA: A
Comprehensive Benchmark
Hanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang•Apr 23, 2025•91
Die Sparse Frontier: Kompromisse bei sparsamer Aufmerksamkeit in Transformer-LLMsThe Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs
Die Sparse Frontier: Kompromisse bei sparsamer Aufmerksamkeit in Transformer-LLMs
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs
Piotr Nawrot, Robert Li, Renjie Huang, Sebastian Ruder, Kelly Marchisio, Edoardo M. Ponti•Apr 24, 2025•82
Subjektgesteuerte Videogenerierung durch Entkopplung von Identität und BewegungSubject-driven Video Generation via Disentangled Identity and Motion
Subjektgesteuerte Videogenerierung durch Entkopplung von Identität und Bewegung
Subject-driven Video Generation via Disentangled Identity and Motion
Daneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo•Apr 23, 2025•71
DianJin-R1: Bewertung und Verbesserung des finanziellen Denkens in großen SprachmodellenDianJin-R1: Evaluating and Enhancing Financial Reasoning in Large
Language Models
DianJin-R1: Bewertung und Verbesserung des finanziellen Denkens in großen Sprachmodellen
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large
Language Models
Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang•Apr 22, 2025•51
DC-SAM: In-Context Segmentierung von Beliebigem in Bildern und Videos durch Duale KonsistenzDC-SAM: In-Context Segment Anything in Images and Videos via Dual
Consistency
DC-SAM: In-Context Segmentierung von Beliebigem in Bildern und Videos durch Duale Konsistenz
DC-SAM: In-Context Segment Anything in Images and Videos via Dual
Consistency
Mengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang•Apr 16, 2025•51
Kimi-Audio Technischer BerichtKimi-Audio Technical Report
Kimi-Audio Technischer Bericht
Kimi-Audio Technical Report
KimiTeam, Ding Ding, Zeqian Ju, Yichong Leng, Songxiang Liu, Tong Liu, Zeyu Shang, Kai Shen, Wei Song, Xu Tan, Heyi Tang, Zhengtao Wang, Chu Wei, Yifei Xin, Xinran Xu, Jianwei Yu, Yutao Zhang, Xinyu Zhou, Y. Charles, Jun Chen, Yanru Chen, Yulun Du, Weiran He, Zhenxing Hu, Guokun Lai, Qingcheng Li, Yangyang Liu, Weidong Sun, Jianzhou Wang, Yuzhi Wang, Yuefeng Wu, Yuxin Wu, Dongchao Yang, Hao Yang, Ying Yang, Zhilin Yang, Aoxiong Yin, Ruibin Yuan, Yutong Zhang, Zaida Zhou•Apr 25, 2025•01
Optimierung von LLMs für Italienisch: Reduzierung der Token-Fertilität und Steigerung der Effizienz durch VokabularanpassungOptimizing LLMs for Italian: Reducing Token Fertility and Enhancing
Efficiency Through Vocabulary Adaptation
Optimierung von LLMs für Italienisch: Reduzierung der Token-Fertilität und Steigerung der Effizienz durch Vokabularanpassung
Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing
Efficiency Through Vocabulary Adaptation
Luca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli•Apr 23, 2025•00