ChatPaper.aiChatPaper

fMRI-3D: fMRI 기반 3D 재구성을 향상시키는 포괄적인 데이터셋

fMRI-3D: A Comprehensive Dataset for Enhancing fMRI-based 3D Reconstruction

September 17, 2024
저자: Jianxiong Gao, Yuqian Fu, Yun Wang, Xuelin Qian, Jianfeng Feng, Yanwei Fu
cs.AI

초록

기능 자기 공명 영상(fMRI) 데이터에서 3D 시각을 재구성하는 것은 우리의 학회 논문에서 Recon3DMind로 소개되어 있으며, 인지 신경과학과 컴퓨터 비전에 큰 관심을 끌고 있습니다. 이 작업을 발전시키기 위해, 우리는 15명의 참가자 데이터를 포함하고 총 4768개의 3D 객체를 보여주는 fMRI-3D 데이터셋을 제시합니다. 이 데이터셋은 fMRI-Shape와 fMRI-Objaverse 두 구성 요소로 이루어져 있습니다. fMRI-Shape은 이전에 소개되었으며 https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape에서 접근할 수 있습니다. 반면, fMRI-Objaverse는 본 논문에서 제안되었으며 https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse에서 이용할 수 있습니다. fMRI-Objaverse에는 5명의 참가자 데이터가 포함되어 있으며, 그 중 4명은 fMRI-Shape의 핵심 집합에 속하며, 각 참가자는 117가지 범주를 가진 3142개의 3D 객체를 보고 있으며, 각각의 객체는 텍스트 캡션과 함께 제공됩니다. 이는 데이터셋의 다양성과 잠재적인 응용 가능성을 크게 향상시킵니다. 게다가, 우리는 fMRI 신호로부터 3D 시각 정보를 해독하기 위해 설계된 새로운 프레임워크인 MinD-3D를 제안합니다. 이 프레임워크는 먼저 신경-융합 인코더를 사용하여 fMRI 데이터에서 특징을 추출하고 집계한 다음, 특징-브릿지 확산 모델을 활용하여 시각적 특징을 생성하고 마지막으로 생성적 트랜스포머 디코더를 사용하여 3D 객체를 재구성합니다. 우리는 모델 성능을 평가하기 위해 의미론적 및 구조적 수준에서 메트릭을 설계하여 새로운 기준을 설정합니다. 더불어, 우리는 Out-of-Distribution 환경에서 모델의 효과성을 평가하고 추출된 특징과 fMRI 신호의 시각적 ROI의 기여를 분석합니다. 우리의 실험은 MinD-3D가 높은 의미론적 및 공간적 정확도로 3D 객체를 재구성할 뿐만 아니라 인간 뇌가 3D 시각 정보를 처리하는 방식에 대한 이해를 깊이 있게 함을 보여줍니다. 프로젝트 페이지: https://jianxgao.github.io/MinD-3D.
English
Reconstructing 3D visuals from functional Magnetic Resonance Imaging (fMRI) data, introduced as Recon3DMind in our conference work, is of significant interest to both cognitive neuroscience and computer vision. To advance this task, we present the fMRI-3D dataset, which includes data from 15 participants and showcases a total of 4768 3D objects. The dataset comprises two components: fMRI-Shape, previously introduced and accessible at https://huggingface.co/datasets/Fudan-fMRI/fMRI-Shape, and fMRI-Objaverse, proposed in this paper and available at https://huggingface.co/datasets/Fudan-fMRI/fMRI-Objaverse. fMRI-Objaverse includes data from 5 subjects, 4 of whom are also part of the Core set in fMRI-Shape, with each subject viewing 3142 3D objects across 117 categories, all accompanied by text captions. This significantly enhances the diversity and potential applications of the dataset. Additionally, we propose MinD-3D, a novel framework designed to decode 3D visual information from fMRI signals. The framework first extracts and aggregates features from fMRI data using a neuro-fusion encoder, then employs a feature-bridge diffusion model to generate visual features, and finally reconstructs the 3D object using a generative transformer decoder. We establish new benchmarks by designing metrics at both semantic and structural levels to evaluate model performance. Furthermore, we assess our model's effectiveness in an Out-of-Distribution setting and analyze the attribution of the extracted features and the visual ROIs in fMRI signals. Our experiments demonstrate that MinD-3D not only reconstructs 3D objects with high semantic and spatial accuracy but also deepens our understanding of how human brain processes 3D visual information. Project page at: https://jianxgao.github.io/MinD-3D.

Summary

AI-Generated Summary

PDF21November 16, 2024