UniF^2ace: Feinmaschiges Gesichtsverständnis und -generierung mit vereinheitlichten multimodalen Modellen
UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models
March 11, 2025
Autoren: Junzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li
cs.AI
Zusammenfassung
Unified Multimodal Models (UMMs) haben sich als ein leistungsstarkes Paradigma in der grundlegenden Computer-Vision-Forschung etabliert und zeigen erhebliches Potenzial sowohl im Bereich des Bildverständnisses als auch der Bildgenerierung. Bisher konzentriert sich die Forschung im Gesichtsbereich jedoch hauptsächlich auf das grobe Verständnis von Gesichtsattributen, mit begrenzter Fähigkeit, fein abgestufte Gesichtsattribute zu verarbeiten, und ohne die Generierungsfähigkeiten zu berücksichtigen. Um diese Einschränkungen zu überwinden, schlagen wir UniF^2ace vor, das erste UMM, das speziell für das fein abgestufte Gesichtsverständnis und die Gesichtsgenerierung entwickelt wurde. Im Allgemeinen trainieren wir UniF^2ace auf einem selbst erstellten, spezialisierten Datensatz unter Verwendung von zwei sich gegenseitig ergänzenden Diffusionstechniken und einer zweistufigen Mixture-of-Experts-Architektur. Konkret erstellen wir zunächst einen groß angelegten Gesichtsdatensatz, UniF^2ace-130K, der 130.000 Bild-Text-Paare mit einer Million Frage-Antwort-Paaren enthält, die ein breites Spektrum von Gesichtsattributen abdecken. Zweitens stellen wir eine theoretische Verbindung zwischen diskreter Diffusions-Score-Matching und maskierten generativen Modellen her, indem wir beide Evidenz Lower Bounds gleichzeitig optimieren, was die Fähigkeit des Modells zur Synthese von Gesichtsdetails erheblich verbessert. Schließlich führen wir sowohl Token-Level- als auch Sequenz-Level-Mixture-of-Experts ein, die ein effizientes, fein abgestuftes Repräsentationslernen sowohl für Verständnis- als auch für Generierungsaufgaben ermöglichen. Umfangreiche Experimente auf UniF^2ace-130K zeigen, dass UniF^2ace bestehende UMMs und generative Modelle übertrifft und sowohl bei Verständnis- als auch bei Generierungsaufgaben überlegene Leistung erzielt.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm in
foundational computer vision research, demonstrating significant potential in
both image understanding and generation. However, existing research in the face
domain primarily focuses on coarse facial attribute understanding,
with limited capacity to handle fine-grained facial attributes and
without addressing generation capabilities. To overcome these limitations, we
propose UniF^2ace, the first UMM tailored specifically for
fine-grained face understanding and generation. In general, we train
UniF^2ace on a self-constructed, specialized dataset utilizing two
mutually beneficial diffusion techniques and a two-level mixture-of-experts
architecture. Specifically, we first build a large-scale facial dataset,
UniF^2ace-130K, which contains 130K image-text pairs with one
million question-answering pairs that span a wide range of facial attributes.
Second, we establish a theoretical connection between discrete diffusion score
matching and masked generative models, optimizing both evidence lower bounds
simultaneously, which significantly improves the model's ability to synthesize
facial details. Finally, we introduce both token-level and sequence-level
mixture-of-experts, enabling efficient fine-grained representation learning for
both understanding and generation tasks. Extensive experiments on
UniF^2ace-130K demonstrate that UniF^2ace outperforms
existing UMMs and generative models, achieving superior performance across both
understanding and generation tasks.Summary
AI-Generated Summary