ChroKnowledge: Onthulling van Chronologische Kennis van Taalmodellen in Meerdere Domeinen
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains
October 13, 2024
Auteurs: Yein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang
cs.AI
Samenvatting
Grote taalmodellen (LLM's) hebben aanzienlijke invloed gehad op vele aspecten van ons leven. Het beoordelen en waarborgen van hun chronologische kennis blijft echter een uitdaging. Bestaande benaderingen schieten tekort in het aanpakken van de cumulatieve aard van kennis, vaak vertrouwend op een enkel tijdstempel. Om dit te overwinnen, introduceren we ChroKnowBench, een benchmark dataset ontworpen om chronologisch opgebouwde kennis te evalueren over drie belangrijke aspecten: meerdere domeinen, tijdsafhankelijkheid, temporele staat. Onze benchmark maakt onderscheid tussen kennis die evolueert (bijv. wetenschappelijke ontdekkingen, gewijzigde wetten) en kennis die constant blijft (bijv. wiskundige waarheden, gezond verstand feiten). Voortbouwend op deze benchmark, presenteren we ChroKnowledge (Chronologische Categorisering van Kennis), een nieuw bemonsteringsgebaseerd raamwerk voor het evalueren en bijwerken van LLM's niet-parametrische chronologische kennis. Onze evaluatie toont aan: (1) Het vermogen om tijdsgebonden kennis op te roepen varieert afhankelijk van het gegevensformaat waarop het model is getraind. (2) LLM's roepen kennis gedeeltelijk op of tonen een afkapping bij tijdsbegrenzingen in plaats van alle aspecten van kennis correct op te roepen. Daarom passen we onze ChroKnowPrompt toe, een diepgaande aanmoediging om chronologische kennis op te roepen door stapsgewijs door de omliggende tijdsperiodes te gaan. We constateren dat ons raamwerk succesvol de algehele kennis over de gehele tijdlijn bijwerkt in zowel het biomedische domein (+11,9%) als het algemene domein (+2,8%), waarbij de effectiviteit ervan wordt aangetoond in het verfijnen van temporele kennis. Deze niet-parametrische benadering maakt ook kennisupdates mogelijk niet alleen in open-source modellen maar ook in eigendoms-LMM's, waarbij een uitgebreide toepasbaarheid over modeltypen wordt gegarandeerd. We voeren een uitgebreide analyse uit op basis van temporele kenmerken van ChroKnowPrompt en valideren het potentieel van verschillende modellen om intrinsieke temporele kennis op te roepen via onze methode.
English
Large language models (LLMs) have significantly impacted many aspects of our
lives. However, assessing and ensuring their chronological knowledge remains
challenging. Existing approaches fall short in addressing the accumulative
nature of knowledge, often relying on a single time stamp. To overcome this, we
introduce ChroKnowBench, a benchmark dataset designed to evaluate
chronologically accumulated knowledge across three key aspects: multiple
domains, time dependency, temporal state. Our benchmark distinguishes between
knowledge that evolves (e.g., scientific discoveries, amended laws) and
knowledge that remain constant (e.g., mathematical truths, commonsense facts).
Building on this benchmark, we present ChroKnowledge (Chronological
Categorization of Knowledge), a novel sampling-based framework for evaluating
and updating LLMs' non-parametric chronological knowledge. Our evaluation
shows: (1) The ability of eliciting temporal knowledge varies depending on the
data format that model was trained on. (2) LLMs partially recall knowledge or
show a cut-off at temporal boundaries rather than recalling all aspects of
knowledge correctly. Thus, we apply our ChroKnowPrompt, an in-depth prompting
to elicit chronological knowledge by traversing step-by-step through the
surrounding time spans. We observe that our framework successfully updates the
overall knowledge across the entire timeline in both the biomedical domain
(+11.9%) and the general domain (+2.8%), demonstrating its effectiveness in
refining temporal knowledge. This non-parametric approach also enables
knowledge updates not only in open-source models but also in proprietary LLMs,
ensuring comprehensive applicability across model types. We perform a
comprehensive analysis based on temporal characteristics of ChroKnowPrompt and
validate the potential of various models to elicit intrinsic temporal knowledge
through our method.Summary
AI-Generated Summary