TruthPrInt: Minderung von LVLM-Objekt-Halluzinationen durch latente wahrheitsbasierte Vor-Intervention
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention
March 13, 2025
Autoren: Jinhao Duan, Fei Kong, Hao Cheng, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
cs.AI
Zusammenfassung
Objekt-Halluzination (OH) wird als eine der größten Herausforderungen in Bezug auf die Vertrauenswürdigkeit von großen visuell-sprachlichen Modellen (Large Vision-Language Models, LVLMs) anerkannt. Jüngste Fortschritte bei großen Sprachmodellen (Large Language Models, LLMs) deuten darauf hin, dass interne Zustände, wie beispielsweise versteckte Zustände, die „Gesamtwahrhaftigkeit“ generierter Antworten kodieren. Es bleibt jedoch weitgehend unerforscht, wie interne Zustände in LVLMs funktionieren und ob sie als „pro-Token“-Halluzinationsindikatoren dienen könnten, was für die Minderung von OH entscheidend wäre. In diesem Papier führen wir zunächst eine eingehende Untersuchung der internen Zustände von LVLMs in Bezug auf OH-Probleme durch und entdecken, dass (1) interne Zustände von LVLMs hochspezifische pro-Token-Indikatoren für Halluzinationsverhalten sind. Darüber hinaus (2) kodieren verschiedene LVLMs universelle Muster von Halluzinationen in gemeinsamen latenten Unterräumen, was darauf hindeutet, dass es „generische wahrhaftige Richtungen“ gibt, die von verschiedenen LVLMs geteilt werden. Basierend auf diesen Erkenntnissen schlagen wir Truthful-Guided Pre-Intervention (TruthPrInt) vor, das zunächst die wahrhaftige Richtung der LVLM-Decodierung lernt und dann eine wahrhaftigkeitsgeleitete Intervention zur Inferenzzeit während der LVLM-Decodierung anwendet. Weiterhin schlagen wir ComnHallu vor, um sowohl die übergreifende LVLM- als auch die übergreifende Daten-Halluzinationserkennungstransferierbarkeit zu verbessern, indem Halluzinations-latente Unterräume konstruiert und ausgerichtet werden. Wir evaluieren TruthPrInt in umfangreichen experimentellen Settings, einschließlich In-Domain- und Out-of-Domain-Szenarien, über beliebte LVLMs und OH-Benchmarks. Die experimentellen Ergebnisse zeigen, dass TruthPrInt state-of-the-art-Methoden deutlich übertrifft. Der Code wird unter https://github.com/jinhaoduan/TruthPrInt verfügbar sein.
English
Object Hallucination (OH) has been acknowledged as one of the major
trustworthy challenges in Large Vision-Language Models (LVLMs). Recent
advancements in Large Language Models (LLMs) indicate that internal states,
such as hidden states, encode the "overall truthfulness" of generated
responses. However, it remains under-explored how internal states in LVLMs
function and whether they could serve as "per-token" hallucination indicators,
which is essential for mitigating OH. In this paper, we first conduct an
in-depth exploration of LVLM internal states in relation to OH issues and
discover that (1) LVLM internal states are high-specificity per-token
indicators of hallucination behaviors. Moreover, (2) different LVLMs encode
universal patterns of hallucinations in common latent subspaces, indicating
that there exist "generic truthful directions" shared by various LVLMs. Based
on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt)
that first learns the truthful direction of LVLM decoding and then applies
truthful-guided inference-time intervention during LVLM decoding. We further
propose ComnHallu to enhance both cross-LVLM and cross-data hallucination
detection transferability by constructing and aligning hallucination latent
subspaces. We evaluate TruthPrInt in extensive experimental settings, including
in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks.
Experimental results indicate that TruthPrInt significantly outperforms
state-of-the-art methods. Codes will be available at
https://github.com/jinhaoduan/TruthPrInt.Summary
AI-Generated Summary