KI-Forschungspapiere Täglich

Täglich kuratierte KI-Forschungspapiere mit Übersetzungen

Ermöglichen von skalierbarer Aufsicht durch selbstentwickelnde Kritiker.
Enabling Scalable Oversight via Self-Evolving Critic

Zhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin•Jan 10, 2025•752

VideoRAG: Abrufunterstützte Generierung über Videokorpus
VideoRAG: Retrieval-Augmented Generation over Video Corpus

Soyeong Jeong, Kangsan Kim, Jinheon Baek, Sung Ju Hwang•Jan 10, 2025•726

LlamaV-o1: Überdenken der schrittweisen visuellen Schlussfolgerung in LLMs
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan•Jan 10, 2025•665

OmniManip: Auf dem Weg zur allgemeinen robotergestützten Manipulation durch objektzentrierte Interaktionsprimitive als räumliche Einschränkungen
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Mingjie Pan, Jiyao Zhang, Tianshu Wu, Yinghao Zhao, Wenlong Gao, Hao Dong•Jan 7, 2025•563

OVO-Bench: Wie weit sind Ihre Video-LLMs von einem Verständnis von Online-Videos in der realen Welt entfernt?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang•Jan 9, 2025•442

Migician: Die Enthüllung der Magie der freiformatigen Multi-Bild-Verankerung in multimodalen großen Sprachmodellen
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

You Li, Heyu Huang, Chi Chen, Kaiyu Huang, Chao Huang, Zonghao Guo, Zhiyuan Liu, Jinan Xu, Yuhua Li, Ruixuan Li, Maosong Sun•Jan 10, 2025•302

Multiagent Feinabstimmung: Selbstverbesserung mit vielfältigen Schlussketten
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

Vighnesh Subramaniam, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Shuang Li, Igor Mordatch•Jan 10, 2025•202

ReFocus: Visuelle Bearbeitung als Gedankenkette für strukturiertes Bildverstehen
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang•Jan 9, 2025•152

ConceptMaster: Mehrkonzept-Videoanpassung auf Diffusionstransformationsmodellen ohne Abstimmung zur Testzeit
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

Yuzhou Huang, Ziyang Yuan, Quande Liu, Qiulin Wang, Xintao Wang, Ruimao Zhang, Pengfei Wan, Di Zhang, Kun Gai•Jan 8, 2025•152

Entmystifizierung der domänenadaptiven Nachschulung für Finanz-LLMs.
Demystifying Domain-adaptive Post-training for Financial LLMs

Zixuan Ke, Yifei Ming, Xuan-Phi Nguyen, Caiming Xiong, Shafiq Joty•Jan 9, 2025•112

KI-Forschungspapiere Täglich

Ermöglichen von skalierbarer Aufsicht durch selbstentwickelnde Kritiker.
Enabling Scalable Oversight via Self-Evolving Critic

VideoRAG: Abrufunterstützte Generierung über Videokorpus
VideoRAG: Retrieval-Augmented Generation over Video Corpus

LlamaV-o1: Überdenken der schrittweisen visuellen Schlussfolgerung in LLMs
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

OmniManip: Auf dem Weg zur allgemeinen robotergestützten Manipulation durch objektzentrierte Interaktionsprimitive als räumliche Einschränkungen
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

OVO-Bench: Wie weit sind Ihre Video-LLMs von einem Verständnis von Online-Videos in der realen Welt entfernt?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Migician: Die Enthüllung der Magie der freiformatigen Multi-Bild-Verankerung in multimodalen großen Sprachmodellen
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

Multiagent Feinabstimmung: Selbstverbesserung mit vielfältigen Schlussketten
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

ReFocus: Visuelle Bearbeitung als Gedankenkette für strukturiertes Bildverstehen
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

ConceptMaster: Mehrkonzept-Videoanpassung auf Diffusionstransformationsmodellen ohne Abstimmung zur Testzeit
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

Multithemen-Open-Set-Personalisierung in der Videogenerierung
Multi-subject Open-set Personalization in Video Generation

Infizierung von Generativer KI mit Viren
Infecting Generative AI With Viruses

Generative KI für Cel-Animation: Eine Übersicht
Generative AI for Cel-Animation: A Survey

Entmystifizierung der domänenadaptiven Nachschulung für Finanz-LLMs.
Demystifying Domain-adaptive Post-training for Financial LLMs

Support

KI-Forschungspapiere Täglich

Ermöglichen von skalierbarer Aufsicht durch selbstentwickelnde Kritiker.
Enabling Scalable Oversight via Self-Evolving Critic

VideoRAG: Abrufunterstützte Generierung über Videokorpus
VideoRAG: Retrieval-Augmented Generation over Video Corpus

LlamaV-o1: Überdenken der schrittweisen visuellen Schlussfolgerung in LLMs
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

OmniManip: Auf dem Weg zur allgemeinen robotergestützten Manipulation durch objektzentrierte Interaktionsprimitive als räumliche Einschränkungen
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

OVO-Bench: Wie weit sind Ihre Video-LLMs von einem Verständnis von Online-Videos in der realen Welt entfernt?
OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?

Migician: Die Enthüllung der Magie der freiformatigen Multi-Bild-Verankerung in multimodalen großen Sprachmodellen
Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models

Multiagent Feinabstimmung: Selbstverbesserung mit vielfältigen Schlussketten
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains

ReFocus: Visuelle Bearbeitung als Gedankenkette für strukturiertes Bildverstehen
ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

ConceptMaster: Mehrkonzept-Videoanpassung auf Diffusionstransformationsmodellen ohne Abstimmung zur Testzeit
ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning

Multithemen-Open-Set-Personalisierung in der Videogenerierung
Multi-subject Open-set Personalization in Video Generation

Infizierung von Generativer KI mit Viren
Infecting Generative AI With Viruses

Generative KI für Cel-Animation: Eine Übersicht
Generative AI for Cel-Animation: A Survey

Entmystifizierung der domänenadaptiven Nachschulung für Finanz-LLMs.
Demystifying Domain-adaptive Post-training for Financial LLMs