Transformer^2: Selbstadaptive LLMs

Transformer^2: Self-adaptive LLMs

January 9, 2025
Autoren: Qi Sun, Edoardo Cetin, Yujin Tang
cs.AI

Zusammenfassung

Selbstadaptierende große Sprachmodelle (LLMs) zielen darauf ab, die Herausforderungen herkömmlicher Feinabstimmungsmethoden zu lösen, die oft rechenintensiv sind und statisch in ihrer Fähigkeit sind, verschiedene Aufgaben zu bewältigen. Wir stellen \implname vor, ein neuartiges Selbstadaptations-Framework, das LLMs in Echtzeit für unbekannte Aufgaben anpasst, indem es selektiv nur die einzelnen Komponenten ihrer Gewichtsmatrizen anpasst. Während der Inferenz verwendet \implname einen Zwei-Durchgangs-Mechanismus: Zuerst identifiziert ein Dispositionssystem die Aufgabeneigenschaften, und dann werden auf Verstärkungslernen trainierte, aufgaben-spezifische "Experten"-Vektoren dynamisch gemischt, um das gezielte Verhalten für die eingehende Aufforderung zu erhalten. Unsere Methode übertrifft weit verbreitete Ansätze wie LoRA, mit weniger Parametern und größerer Effizienz. \implname zeigt Vielseitigkeit über verschiedene LLM-Architekturen und Modalitäten hinweg, einschließlich Vision-Sprach-Aufgaben. \implname stellt einen bedeutenden Fortschritt dar und bietet eine skalierbare, effiziente Lösung zur Verbesserung der Anpassungsfähigkeit und aufgaben-spezifischen Leistung von LLMs und ebnet den Weg für wirklich dynamische, selbstorganisierende KI-Systeme.
English
Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce \implname, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting only the singular components of their weight matrices. During inference, \implname employs a two-pass mechanism: first, a dispatch system identifies the task properties, and then task-specific "expert" vectors, trained using reinforcement learning, are dynamically mixed to obtain targeted behavior for the incoming prompt. Our method outperforms ubiquitous approaches such as LoRA, with fewer parameters and greater efficiency. \implname demonstrates versatility across different LLM architectures and modalities, including vision-language tasks. \implname represents a significant leap forward, offering a scalable, efficient solution for enhancing the adaptability and task-specific performance of LLMs, paving the way for truly dynamic, self-organizing AI systems.

Summary

AI-Generated Summary

PDF466January 14, 2025