ChatPaper.aiChatPaper

Fälschungen erkennen: Synthetische Bilderkennung mit großen multimodalen Modellen und Artefakt-Erklärung

Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation

March 19, 2025
Autoren: Siwei Wen, Junyan Ye, Peilin Feng, Hengrui Kang, Zichen Wen, Yize Chen, Jiang Wu, Wenjun Wu, Conghui He, Weijia Li
cs.AI

Zusammenfassung

Mit dem rasanten Fortschritt der Technologien zur künstlich generierten Inhalte (Artificial Intelligence Generated Content, AIGC) sind synthetische Bilder im Alltag immer häufiger anzutreffen, was neue Herausforderungen für die Authentizitätsbewertung und Erkennung mit sich bringt. Obwohl bestehende Methoden effektiv bei der Bewertung der Bildauthentizität und der Lokalisierung von Fälschungen sind, fehlt diesen Ansätzen oft die menschliche Interpretierbarkeit, und sie bewältigen nicht vollständig die zunehmende Komplexität synthetischer Daten. Um diese Herausforderungen zu bewältigen, stellen wir FakeVLM vor, ein spezialisiertes großes multimodales Modell, das sowohl für allgemeine synthetische Bilderkennung als auch für DeepFake-Erkennungsaufgaben entwickelt wurde. FakeVLM zeichnet sich nicht nur durch die Unterscheidung von echten und gefälschten Bildern aus, sondern bietet auch klare, natürliche Sprachbeschreibungen für Bildartefakte, was die Interpretierbarkeit verbessert. Zusätzlich präsentieren wir FakeClue, einen umfassenden Datensatz mit über 100.000 Bildern in sieben Kategorien, die mit fein abgestuften Artefakthinweisen in natürlicher Sprache annotiert sind. FakeVLM zeigt eine Leistung, die mit Expertenmodellen vergleichbar ist, während es den Bedarf an zusätzlichen Klassifikatoren eliminiert, was es zu einer robusten Lösung für die Erkennung synthetischer Daten macht. Umfangreiche Bewertungen über mehrere Datensätze hinweg bestätigen die Überlegenheit von FakeVLM sowohl bei der Authentizitätsklassifizierung als auch bei der Erklärung von Artefakten und setzen damit einen neuen Maßstab für die Erkennung synthetischer Bilder. Der Datensatz und der Code werden unter folgender Adresse veröffentlicht: https://github.com/opendatalab/FakeVLM.
English
With the rapid advancement of Artificial Intelligence Generated Content (AIGC) technologies, synthetic images have become increasingly prevalent in everyday life, posing new challenges for authenticity assessment and detection. Despite the effectiveness of existing methods in evaluating image authenticity and locating forgeries, these approaches often lack human interpretability and do not fully address the growing complexity of synthetic data. To tackle these challenges, we introduce FakeVLM, a specialized large multimodal model designed for both general synthetic image and DeepFake detection tasks. FakeVLM not only excels in distinguishing real from fake images but also provides clear, natural language explanations for image artifacts, enhancing interpretability. Additionally, we present FakeClue, a comprehensive dataset containing over 100,000 images across seven categories, annotated with fine-grained artifact clues in natural language. FakeVLM demonstrates performance comparable to expert models while eliminating the need for additional classifiers, making it a robust solution for synthetic data detection. Extensive evaluations across multiple datasets confirm the superiority of FakeVLM in both authenticity classification and artifact explanation tasks, setting a new benchmark for synthetic image detection. The dataset and code will be released in: https://github.com/opendatalab/FakeVLM.

Summary

AI-Generated Summary

PDF193March 26, 2025