ChroKnowledge: Onthulling van Chronologische Kennis van Taalmodellen in Meerdere Domeinen

ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains

October 13, 2024
Auteurs: Yein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang
cs.AI

Samenvatting

Grote taalmodellen (LLM's) hebben aanzienlijke invloed gehad op vele aspecten van ons leven. Het beoordelen en waarborgen van hun chronologische kennis blijft echter een uitdaging. Bestaande benaderingen schieten tekort in het aanpakken van de cumulatieve aard van kennis, vaak vertrouwend op een enkel tijdstempel. Om dit te overwinnen, introduceren we ChroKnowBench, een benchmark dataset ontworpen om chronologisch opgebouwde kennis te evalueren over drie belangrijke aspecten: meerdere domeinen, tijdsafhankelijkheid, temporele staat. Onze benchmark maakt onderscheid tussen kennis die evolueert (bijv. wetenschappelijke ontdekkingen, gewijzigde wetten) en kennis die constant blijft (bijv. wiskundige waarheden, gezond verstand feiten). Voortbouwend op deze benchmark, presenteren we ChroKnowledge (Chronologische Categorisering van Kennis), een nieuw bemonsteringsgebaseerd raamwerk voor het evalueren en bijwerken van LLM's niet-parametrische chronologische kennis. Onze evaluatie toont aan: (1) Het vermogen om tijdsgebonden kennis op te roepen varieert afhankelijk van het gegevensformaat waarop het model is getraind. (2) LLM's roepen kennis gedeeltelijk op of tonen een afkapping bij tijdsbegrenzingen in plaats van alle aspecten van kennis correct op te roepen. Daarom passen we onze ChroKnowPrompt toe, een diepgaande aanmoediging om chronologische kennis op te roepen door stapsgewijs door de omliggende tijdsperiodes te gaan. We constateren dat ons raamwerk succesvol de algehele kennis over de gehele tijdlijn bijwerkt in zowel het biomedische domein (+11,9%) als het algemene domein (+2,8%), waarbij de effectiviteit ervan wordt aangetoond in het verfijnen van temporele kennis. Deze niet-parametrische benadering maakt ook kennisupdates mogelijk niet alleen in open-source modellen maar ook in eigendoms-LMM's, waarbij een uitgebreide toepasbaarheid over modeltypen wordt gegarandeerd. We voeren een uitgebreide analyse uit op basis van temporele kenmerken van ChroKnowPrompt en valideren het potentieel van verschillende modellen om intrinsieke temporele kennis op te roepen via onze methode.
English
Large language models (LLMs) have significantly impacted many aspects of our lives. However, assessing and ensuring their chronological knowledge remains challenging. Existing approaches fall short in addressing the accumulative nature of knowledge, often relying on a single time stamp. To overcome this, we introduce ChroKnowBench, a benchmark dataset designed to evaluate chronologically accumulated knowledge across three key aspects: multiple domains, time dependency, temporal state. Our benchmark distinguishes between knowledge that evolves (e.g., scientific discoveries, amended laws) and knowledge that remain constant (e.g., mathematical truths, commonsense facts). Building on this benchmark, we present ChroKnowledge (Chronological Categorization of Knowledge), a novel sampling-based framework for evaluating and updating LLMs' non-parametric chronological knowledge. Our evaluation shows: (1) The ability of eliciting temporal knowledge varies depending on the data format that model was trained on. (2) LLMs partially recall knowledge or show a cut-off at temporal boundaries rather than recalling all aspects of knowledge correctly. Thus, we apply our ChroKnowPrompt, an in-depth prompting to elicit chronological knowledge by traversing step-by-step through the surrounding time spans. We observe that our framework successfully updates the overall knowledge across the entire timeline in both the biomedical domain (+11.9%) and the general domain (+2.8%), demonstrating its effectiveness in refining temporal knowledge. This non-parametric approach also enables knowledge updates not only in open-source models but also in proprietary LLMs, ensuring comprehensive applicability across model types. We perform a comprehensive analysis based on temporal characteristics of ChroKnowPrompt and validate the potential of various models to elicit intrinsic temporal knowledge through our method.

Summary

AI-Generated Summary

PDF73November 16, 2024