Friends-MMC: un insieme di dati per la comprensione delle conversazioni multi-modalità e multi-partecipanti.

Abstract

La conversazione multi-modale multi-partecipante (MMC) è un argomento di ricerca meno studiato ma importante poiché si adatta bene a scenari reali e potenzialmente ha applicazioni più ampie. Rispetto alle conversazioni multi-modali tradizionali, la MMC richiede capacità di comprensione dei personaggi più forti in quanto vi sono molti interlocutori che compaiono sia nel contesto visivo che testuale. Per facilitare lo studio di questo problema, presentiamo in questo articolo Friends-MMC, un dataset MMC che contiene oltre 24.000 enunciati unici abbinati al contesto video. Per esplorare la comprensione centrata sul personaggio del dialogo, annotiamo anche il locutore di ciascun enunciato, i nomi e i bounding box dei volti che appaiono nel video. Basandoci su questo dataset Friends-MMC, studiamo ulteriormente due compiti fondamentali della MMC: l'identificazione del locutore della conversazione e la previsione della risposta alla conversazione, entrambi con natura multi-partecipante con il contesto visivo o dell'immagine. Per l'identificazione del locutore della conversazione, dimostriamo le inefficienze dei metodi esistenti come i modelli pre-addestrati e proponiamo un metodo di base semplice ma efficace che sfrutta un risolutore di ottimizzazione per utilizzare il contesto delle due modalità per ottenere migliori prestazioni. Per la previsione della risposta alla conversazione, raffiniamo i modelli di dialogo generativi su Friend-MMC e analizziamo i benefici delle informazioni sul locutore. Il codice e il dataset sono pubblicamente disponibili su https://github.com/yellow-binary-tree/Friends-MMC e quindi chiediamo maggiore attenzione nella modellazione delle informazioni sul locutore per la comprensione delle conversazioni.

English

Multi-modal multi-party conversation (MMC) is a less studied yet important topic of research due to that it well fits real-world scenarios and thus potentially has more widely-used applications. Compared with the traditional multi-modal conversations, MMC requires stronger character-centered understanding abilities as there are many interlocutors appearing in both the visual and textual context. To facilitate the study of this problem, we present Friends-MMC in this paper, an MMC dataset that contains 24,000+ unique utterances paired with video context. To explore the character-centered understanding of the dialogue, we also annotate the speaker of each utterance, the names and bounding bboxes of faces that appear in the video. Based on this Friends-MMC dataset, we further study two fundamental MMC tasks: conversation speaker identification and conversation response prediction, both of which have the multi-party nature with the video or image as visual context. For conversation speaker identification, we demonstrate the inefficiencies of existing methods such as pre-trained models, and propose a simple yet effective baseline method that leverages an optimization solver to utilize the context of two modalities to achieve better performance. For conversation response prediction, we fine-tune generative dialogue models on Friend-MMC, and analyze the benefits of speaker information. The code and dataset is publicly available at https://github.com/yellow-binary-tree/Friends-MMC and thus we call for more attention on modeling speaker information when understanding conversations.

Friends-MMC: un insieme di dati per la comprensione delle conversazioni multi-modalità e multi-partecipanti.

Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding

Abstract

Support