친구-MMC: 다중 모달 다자간 대화를 위한 데이터셋
Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding
December 23, 2024
저자: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Qun Liu, Dongyan Zhao
cs.AI
초록
멀티모달 멀티파티 대화(MMC)는 조금 더 연구되지 않았지만 중요한 주제로, 실제 시나리오에 잘 맞아 널리 사용되는 응용 프로그램을 가지고 있기 때문에 연구가 필요합니다. 전통적인 멀티모달 대화와 비교하면 MMC는 시각적 및 텍스트 컨텍스트에서 많은 상대방이 나타나므로 보다 강력한 캐릭터 중심의 이해 능력이 필요합니다. 본 논문에서는 이 문제의 연구를 촉진하기 위해 24,000개 이상의 고유 발화와 비디오 컨텍스트가 함께 제공되는 Friends-MMC 데이터셋을 제시합니다. 대화의 캐릭터 중심 이해를 탐구하기 위해 각 발화의 화자, 비디오에 나타나는 얼굴의 이름 및 경계 상자도 주석을 달았습니다. Friends-MMC 데이터셋을 기반으로 대화 화자 식별 및 대화 응답 예측이라는 두 가지 기본 MMC 작업을 더 연구했습니다. 이 두 작업은 비디오나 이미지를 시각적 컨텍스트로 가지는 멀티파티 특성을 가지고 있습니다. 대화 화자 식별 작업에서는 사전 훈련된 모델과 같은 기존 방법의 비효율성을 보여주며, 두 모달리티의 컨텍스트를 활용하여 성능을 향상시키기 위해 최적화 솔버를 활용하는 간단하면서 효과적인 기본선 방법을 제안합니다. 대화 응답 예측에서는 Friend-MMC에서 생성 대화 모델을 세밀하게 조정하고 화자 정보의 이점을 분석했습니다. 코드와 데이터셋은 https://github.com/yellow-binary-tree/Friends-MMC에서 공개적으로 이용 가능하며, 대화를 이해할 때 화자 정보 모델링에 더 많은 관심을 촉구합니다.
English
Multi-modal multi-party conversation (MMC) is a less studied yet important
topic of research due to that it well fits real-world scenarios and thus
potentially has more widely-used applications. Compared with the traditional
multi-modal conversations, MMC requires stronger character-centered
understanding abilities as there are many interlocutors appearing in both the
visual and textual context. To facilitate the study of this problem, we present
Friends-MMC in this paper, an MMC dataset that contains 24,000+ unique
utterances paired with video context. To explore the character-centered
understanding of the dialogue, we also annotate the speaker of each utterance,
the names and bounding bboxes of faces that appear in the video. Based on this
Friends-MMC dataset, we further study two fundamental MMC tasks: conversation
speaker identification and conversation response prediction, both of which have
the multi-party nature with the video or image as visual context. For
conversation speaker identification, we demonstrate the inefficiencies of
existing methods such as pre-trained models, and propose a simple yet effective
baseline method that leverages an optimization solver to utilize the context of
two modalities to achieve better performance. For conversation response
prediction, we fine-tune generative dialogue models on Friend-MMC, and analyze
the benefits of speaker information. The code and dataset is publicly available
at https://github.com/yellow-binary-tree/Friends-MMC and thus we call for more
attention on modeling speaker information when understanding conversations.