ChatPaper.aiChatPaper

Hyperbolische sicherheitsbewusste Vision-Sprache-Modelle

Hyperbolic Safety-Aware Vision-Language Models

March 15, 2025
Autoren: Tobia Poppi, Tejaswi Kasarla, Pascal Mettes, Lorenzo Baraldi, Rita Cucchiara
cs.AI

Zusammenfassung

Die Bewältigung der Herausforderung, unsichere Inhalte aus Vision-Sprache-Modellen wie CLIP abzurufen, ist ein wichtiger Schritt hin zur Integration in die reale Welt. Bisherige Bemühungen haben sich auf Unlearning-Techniken gestützt, die versuchen, das Wissen des Modells über unsichere Konzepte zu löschen. Obwohl diese Techniken effektiv darin sind, unerwünschte Ausgaben zu reduzieren, schränken sie die Fähigkeit des Modells ein, zwischen sicheren und unsicheren Inhalten zu unterscheiden. In dieser Arbeit führen wir einen neuartigen Ansatz ein, der vom Unlearning zu einem Bewusstseinsparadigma übergeht, indem die inhärenten hierarchischen Eigenschaften des hyperbolischen Raums genutzt werden. Wir schlagen vor, sichere und unsichere Inhalte als eine Hierarchie der Implikation zu kodieren, wobei beide in verschiedenen Regionen des hyperbolischen Raums platziert werden. Unser HySAC, Hyperbolic Safety-Aware CLIP, verwendet Implikationsverlustfunktionen, um die hierarchischen und asymmetrischen Beziehungen zwischen sicheren und unsicheren Bild-Text-Paaren zu modellieren. Diese Modellierung, die in Standard-Vision-Sprache-Modellen aufgrund ihrer Abhängigkeit von euklidischen Einbettungen unwirksam ist, verleiht dem Modell ein Bewusstsein für unsichere Inhalte, wodurch es sowohl als multimodaler unsicherer Klassifikator als auch als flexibler Inhaltsabrufer dienen kann, mit der Möglichkeit, unsichere Anfragen dynamisch auf sicherere Alternativen umzuleiten oder die ursprüngliche Ausgabe beizubehalten. Umfangreiche Experimente zeigen, dass unser Ansatz nicht nur die Sicherheitserkennung verbessert, sondern auch ein anpassungsfähigeres und interpretierbareres Rahmenwerk für die Inhaltsmoderation in Vision-Sprache-Modellen etabliert. Unser Quellcode ist verfügbar unter https://github.com/aimagelab/HySAC.
English
Addressing the retrieval of unsafe content from vision-language models such as CLIP is an important step towards real-world integration. Current efforts have relied on unlearning techniques that try to erase the model's knowledge of unsafe concepts. While effective in reducing unwanted outputs, unlearning limits the model's capacity to discern between safe and unsafe content. In this work, we introduce a novel approach that shifts from unlearning to an awareness paradigm by leveraging the inherent hierarchical properties of the hyperbolic space. We propose to encode safe and unsafe content as an entailment hierarchy, where both are placed in different regions of hyperbolic space. Our HySAC, Hyperbolic Safety-Aware CLIP, employs entailment loss functions to model the hierarchical and asymmetrical relations between safe and unsafe image-text pairs. This modelling, ineffective in standard vision-language models due to their reliance on Euclidean embeddings, endows the model with awareness of unsafe content, enabling it to serve as both a multimodal unsafe classifier and a flexible content retriever, with the option to dynamically redirect unsafe queries toward safer alternatives or retain the original output. Extensive experiments show that our approach not only enhances safety recognition but also establishes a more adaptable and interpretable framework for content moderation in vision-language models. Our source code is available at https://github.com/aimagelab/HySAC.

Summary

AI-Generated Summary

PDF32March 19, 2025