InternLM-XComposer2.5-OmniLive: Un sistema multimodale completo per interazioni audio e video in streaming a lungo termine
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
December 12, 2024
Autori: Pan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang
cs.AI
Abstract
La creazione di sistemi di intelligenza artificiale in grado di interagire con gli ambienti per lunghi periodi, simili alla cognizione umana, è un obiettivo di ricerca di lunga data. I recenti progressi nei modelli di linguaggio multimodali di grandi dimensioni (MLLM) hanno compiuto significativi passi avanti nella comprensione del mondo aperto. Tuttavia, la sfida della percezione, memoria e ragionamento in streaming continuo e simultaneo rimane in gran parte inesplorata. Gli attuali MLLM sono vincolati dalla loro architettura sequenza-su-sequenza, che limita la loro capacità di elaborare input e generare risposte contemporaneamente, simile a non poter pensare mentre si percepisce. Inoltre, fare affidamento su contesti lunghi per memorizzare dati storici risulta impraticabile per interazioni a lungo termine, poiché mantenere tutte le informazioni diventa costoso ed inefficiente. Pertanto, anziché fare affidamento su un singolo modello di base per svolgere tutte le funzioni, questo progetto trae ispirazione dal concetto di Intelligenza Artificiale Generalista Specializzata e introduce meccanismi di percezione, ragionamento e memoria in streaming disaccoppiati, consentendo l'interazione in tempo reale con input video e audio in streaming. Il framework proposto InternLM-XComposer2.5-OmniLive (IXC2.5-OL) è composto da tre moduli chiave: (1) Modulo di Percezione in Streaming: Elabora informazioni multimodali in tempo reale, memorizzando dettagli chiave in memoria e attivando il ragionamento in risposta alle richieste dell'utente. (2) Modulo di Memoria Lunga Multimodale: Integra memoria a breve e lungo termine, comprimendo le memorie a breve termine in quelle a lungo termine per un recupero efficiente e una maggiore precisione. (3) Modulo di Ragionamento: Risponde alle richieste ed esegue compiti di ragionamento, coordinandosi con i moduli di percezione e memoria. Questo progetto simula una cognizione simile a quella umana, consentendo ai modelli di linguaggio multimodali di grandi dimensioni di fornire un servizio continuo e adattivo nel tempo.
English
Creating AI systems that can interact with environments over long periods,
similar to human cognition, has been a longstanding research goal. Recent
advancements in multimodal large language models (MLLMs) have made significant
strides in open-world understanding. However, the challenge of continuous and
simultaneous streaming perception, memory, and reasoning remains largely
unexplored. Current MLLMs are constrained by their sequence-to-sequence
architecture, which limits their ability to process inputs and generate
responses simultaneously, akin to being unable to think while perceiving.
Furthermore, relying on long contexts to store historical data is impractical
for long-term interactions, as retaining all information becomes costly and
inefficient. Therefore, rather than relying on a single foundation model to
perform all functions, this project draws inspiration from the concept of the
Specialized Generalist AI and introduces disentangled streaming perception,
reasoning, and memory mechanisms, enabling real-time interaction with streaming
video and audio input. The proposed framework InternLM-XComposer2.5-OmniLive
(IXC2.5-OL) consists of three key modules: (1) Streaming Perception Module:
Processes multimodal information in real-time, storing key details in memory
and triggering reasoning in response to user queries. (2) Multi-modal Long
Memory Module: Integrates short-term and long-term memory, compressing
short-term memories into long-term ones for efficient retrieval and improved
accuracy. (3) Reasoning Module: Responds to queries and executes reasoning
tasks, coordinating with the perception and memory modules. This project
simulates human-like cognition, enabling multimodal large language models to
provide continuous and adaptive service over time.Summary
AI-Generated Summary