Friends-MMC: Um Conjunto de Dados para Compreensão de Conversas Multi-modais e Multi-participantes
Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding
December 23, 2024
Autores: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Qun Liu, Dongyan Zhao
cs.AI
Resumo
A conversa multi-modal multi-partes (MMC) é um tópico de pesquisa menos estudado, porém importante, devido ao fato de se adequar bem a cenários do mundo real e, portanto, potencialmente ter aplicações mais amplamente utilizadas. Comparado às conversas multi-modais tradicionais, a MMC requer habilidades de compreensão centradas nos personagens mais fortes, uma vez que há muitos interlocutores aparecendo tanto no contexto visual quanto textual. Para facilitar o estudo desse problema, apresentamos neste artigo o Friends-MMC, um conjunto de dados MMC que contém 24.000+ enunciados únicos pareados com contexto de vídeo. Para explorar a compreensão centrada nos personagens do diálogo, também anotamos o falante de cada enunciado, os nomes e as bounding boxes dos rostos que aparecem no vídeo. Com base neste conjunto de dados Friends-MMC, estudamos ainda duas tarefas fundamentais de MMC: identificação do falante na conversa e previsão de resposta na conversa, ambas com natureza multi-partes com o vídeo ou imagem como contexto visual. Para a identificação do falante na conversa, demonstramos as ineficiências dos métodos existentes, como modelos pré-treinados, e propomos um método básico, porém eficaz, que utiliza um otimizador para aproveitar o contexto de duas modalidades e obter melhor desempenho. Para a previsão de resposta na conversa, ajustamos modelos de diálogo generativos no Friend-MMC e analisamos os benefícios da informação do falante. O código e o conjunto de dados estão disponíveis publicamente em https://github.com/yellow-binary-tree/Friends-MMC e, portanto, solicitamos mais atenção para a modelagem da informação do falante ao compreender conversas.
English
Multi-modal multi-party conversation (MMC) is a less studied yet important
topic of research due to that it well fits real-world scenarios and thus
potentially has more widely-used applications. Compared with the traditional
multi-modal conversations, MMC requires stronger character-centered
understanding abilities as there are many interlocutors appearing in both the
visual and textual context. To facilitate the study of this problem, we present
Friends-MMC in this paper, an MMC dataset that contains 24,000+ unique
utterances paired with video context. To explore the character-centered
understanding of the dialogue, we also annotate the speaker of each utterance,
the names and bounding bboxes of faces that appear in the video. Based on this
Friends-MMC dataset, we further study two fundamental MMC tasks: conversation
speaker identification and conversation response prediction, both of which have
the multi-party nature with the video or image as visual context. For
conversation speaker identification, we demonstrate the inefficiencies of
existing methods such as pre-trained models, and propose a simple yet effective
baseline method that leverages an optimization solver to utilize the context of
two modalities to achieve better performance. For conversation response
prediction, we fine-tune generative dialogue models on Friend-MMC, and analyze
the benefits of speaker information. The code and dataset is publicly available
at https://github.com/yellow-binary-tree/Friends-MMC and thus we call for more
attention on modeling speaker information when understanding conversations.Summary
AI-Generated Summary