Attention IoU: Untersuchung von Verzerrungen in CelebA mithilfe von Attention Maps
Attention IoU: Examining Biases in CelebA using Attention Maps
March 25, 2025
Autoren: Aaron Serianni, Tyler Zhu, Olga Russakovsky, Vikram V. Ramaswamy
cs.AI
Zusammenfassung
Es wurde gezeigt, dass Computer-Vision-Modelle Vorurteile über eine Vielzahl von Datensätzen und Aufgaben hinweg aufweisen und verstärken. Bestehende Methoden zur Quantifizierung von Vorurteilen in Klassifikationsmodellen konzentrieren sich hauptsächlich auf die Datensatzverteilung und die Modellleistung bei Untergruppen, wobei die internen Abläufe eines Modells außer Acht gelassen werden. Wir führen die Attention-IoU-Metrik (Attention Intersection over Union) und verwandte Scores ein, die Aufmerksamkeitskarten verwenden, um Vorurteile innerhalb der internen Repräsentationen eines Modells aufzudecken und Bildmerkmale zu identifizieren, die möglicherweise diese Vorurteile verursachen. Zunächst validieren wir Attention-IoU auf dem synthetischen Waterbirds-Datensatz und zeigen, dass die Metrik die Modellvorurteile genau misst. Anschließend analysieren wir den CelebA-Datensatz und stellen fest, dass Attention-IoU Korrelationen aufdeckt, die über Genauigkeitsunterschiede hinausgehen. Durch eine Untersuchung einzelner Attribute anhand des geschützten Attributs „Männlich“ untersuchen wir die unterschiedlichen Arten, wie Vorurteile in CelebA dargestellt werden. Schließlich demonstrieren wir durch eine Unterabtastung des Trainingssatzes zur Änderung von Attributkorrelationen, dass Attention-IoU potenzielle Störvariablen aufdeckt, die nicht in den Datensatzlabels vorhanden sind.
English
Computer vision models have been shown to exhibit and amplify biases across a
wide array of datasets and tasks. Existing methods for quantifying bias in
classification models primarily focus on dataset distribution and model
performance on subgroups, overlooking the internal workings of a model. We
introduce the Attention-IoU (Attention Intersection over Union) metric and
related scores, which use attention maps to reveal biases within a model's
internal representations and identify image features potentially causing the
biases. First, we validate Attention-IoU on the synthetic Waterbirds dataset,
showing that the metric accurately measures model bias. We then analyze the
CelebA dataset, finding that Attention-IoU uncovers correlations beyond
accuracy disparities. Through an investigation of individual attributes through
the protected attribute of Male, we examine the distinct ways biases are
represented in CelebA. Lastly, by subsampling the training set to change
attribute correlations, we demonstrate that Attention-IoU reveals potential
confounding variables not present in dataset labels.Summary
AI-Generated Summary