CineBrain: Ein groß angelegter multimodaler Hirndatensatz während der Verarbeitung natürlicher audiovisueller Erzählungen
CineBrain: A Large-Scale Multi-Modal Brain Dataset During Naturalistic Audiovisual Narrative Processing
March 10, 2025
Autoren: Jianxiong Gao, Yichang Liu, Baofeng Yang, Jianfeng Feng, Yanwei Fu
cs.AI
Zusammenfassung
In diesem Artikel stellen wir CineBrain vor, den ersten groß angelegten Datensatz mit simultanen EEG- und fMRI-Aufnahmen während dynamischer audiovisueller Stimulation. In Anerkennung der komplementären Stärken der hohen zeitlichen Auflösung von EEG und der tiefen räumlichen Abdeckung von fMRI bietet CineBrain etwa sechs Stunden narrativ getriebener Inhalte aus der beliebten Fernsehserie The Big Bang Theory für jede der sechs Teilnehmer:innen. Aufbauend auf diesem einzigartigen Datensatz schlagen wir CineSync vor, ein innovatives multimodales Dekodierungsframework, das einen Multi-Modal Fusion Encoder mit einem diffusionsbasierten Neural Latent Decoder integriert. Unser Ansatz fusioniert EEG- und fMRI-Signale effektiv und verbessert die Rekonstruktionsqualität komplexer audiovisueller Stimuli signifikant. Um eine rigorose Bewertung zu ermöglichen, führen wir Cine-Benchmark ein, ein umfassendes Evaluationsprotokoll, das Rekonstruktionen über semantische und perzeptive Dimensionen hinweg bewertet. Experimentelle Ergebnisse zeigen, dass CineSync state-of-the-art Video-Rekonstruktionsleistungen erzielt und unseren anfänglichen Erfolg bei der Kombination von fMRI und EEG zur Rekonstruktion sowohl von Video- als auch Audio-Stimuli unterstreicht. Projektseite: https://jianxgao.github.io/CineBrain.
English
In this paper, we introduce CineBrain, the first large-scale dataset
featuring simultaneous EEG and fMRI recordings during dynamic audiovisual
stimulation. Recognizing the complementary strengths of EEG's high temporal
resolution and fMRI's deep-brain spatial coverage, CineBrain provides
approximately six hours of narrative-driven content from the popular television
series The Big Bang Theory for each of six participants. Building upon this
unique dataset, we propose CineSync, an innovative multimodal decoding
framework integrates a Multi-Modal Fusion Encoder with a diffusion-based Neural
Latent Decoder. Our approach effectively fuses EEG and fMRI signals,
significantly improving the reconstruction quality of complex audiovisual
stimuli. To facilitate rigorous evaluation, we introduce Cine-Benchmark, a
comprehensive evaluation protocol that assesses reconstructions across semantic
and perceptual dimensions. Experimental results demonstrate that CineSync
achieves state-of-the-art video reconstruction performance and highlight our
initial success in combining fMRI and EEG for reconstructing both video and
audio stimuli. Project Page: https://jianxgao.github.io/CineBrain.Summary
AI-Generated Summary