Friends-MMC: un insieme di dati per la comprensione delle conversazioni multi-modalità e multi-partecipanti.
Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding
December 23, 2024
Autori: Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Qun Liu, Dongyan Zhao
cs.AI
Abstract
La conversazione multi-modale multi-partecipante (MMC) è un argomento di ricerca meno studiato ma importante poiché si adatta bene a scenari reali e potenzialmente ha applicazioni più ampie. Rispetto alle conversazioni multi-modali tradizionali, la MMC richiede capacità di comprensione dei personaggi più forti in quanto vi sono molti interlocutori che compaiono sia nel contesto visivo che testuale. Per facilitare lo studio di questo problema, presentiamo in questo articolo Friends-MMC, un dataset MMC che contiene oltre 24.000 enunciati unici abbinati al contesto video. Per esplorare la comprensione centrata sul personaggio del dialogo, annotiamo anche il locutore di ciascun enunciato, i nomi e i bounding box dei volti che appaiono nel video. Basandoci su questo dataset Friends-MMC, studiamo ulteriormente due compiti fondamentali della MMC: l'identificazione del locutore della conversazione e la previsione della risposta alla conversazione, entrambi con natura multi-partecipante con il contesto visivo o dell'immagine. Per l'identificazione del locutore della conversazione, dimostriamo le inefficienze dei metodi esistenti come i modelli pre-addestrati e proponiamo un metodo di base semplice ma efficace che sfrutta un risolutore di ottimizzazione per utilizzare il contesto delle due modalità per ottenere migliori prestazioni. Per la previsione della risposta alla conversazione, raffiniamo i modelli di dialogo generativi su Friend-MMC e analizziamo i benefici delle informazioni sul locutore. Il codice e il dataset sono pubblicamente disponibili su https://github.com/yellow-binary-tree/Friends-MMC e quindi chiediamo maggiore attenzione nella modellazione delle informazioni sul locutore per la comprensione delle conversazioni.
English
Multi-modal multi-party conversation (MMC) is a less studied yet important
topic of research due to that it well fits real-world scenarios and thus
potentially has more widely-used applications. Compared with the traditional
multi-modal conversations, MMC requires stronger character-centered
understanding abilities as there are many interlocutors appearing in both the
visual and textual context. To facilitate the study of this problem, we present
Friends-MMC in this paper, an MMC dataset that contains 24,000+ unique
utterances paired with video context. To explore the character-centered
understanding of the dialogue, we also annotate the speaker of each utterance,
the names and bounding bboxes of faces that appear in the video. Based on this
Friends-MMC dataset, we further study two fundamental MMC tasks: conversation
speaker identification and conversation response prediction, both of which have
the multi-party nature with the video or image as visual context. For
conversation speaker identification, we demonstrate the inefficiencies of
existing methods such as pre-trained models, and propose a simple yet effective
baseline method that leverages an optimization solver to utilize the context of
two modalities to achieve better performance. For conversation response
prediction, we fine-tune generative dialogue models on Friend-MMC, and analyze
the benefits of speaker information. The code and dataset is publicly available
at https://github.com/yellow-binary-tree/Friends-MMC and thus we call for more
attention on modeling speaker information when understanding conversations.Summary
AI-Generated Summary