InternLM-XComposer2.5-OmniLive: Un sistema multimodale completo per interazioni audio e video in streaming a lungo termine

Abstract

La creazione di sistemi di intelligenza artificiale in grado di interagire con gli ambienti per lunghi periodi, simili alla cognizione umana, è un obiettivo di ricerca di lunga data. I recenti progressi nei modelli di linguaggio multimodali di grandi dimensioni (MLLM) hanno compiuto significativi passi avanti nella comprensione del mondo aperto. Tuttavia, la sfida della percezione, memoria e ragionamento in streaming continuo e simultaneo rimane in gran parte inesplorata. Gli attuali MLLM sono vincolati dalla loro architettura sequenza-su-sequenza, che limita la loro capacità di elaborare input e generare risposte contemporaneamente, simile a non poter pensare mentre si percepisce. Inoltre, fare affidamento su contesti lunghi per memorizzare dati storici risulta impraticabile per interazioni a lungo termine, poiché mantenere tutte le informazioni diventa costoso ed inefficiente. Pertanto, anziché fare affidamento su un singolo modello di base per svolgere tutte le funzioni, questo progetto trae ispirazione dal concetto di Intelligenza Artificiale Generalista Specializzata e introduce meccanismi di percezione, ragionamento e memoria in streaming disaccoppiati, consentendo l'interazione in tempo reale con input video e audio in streaming. Il framework proposto InternLM-XComposer2.5-OmniLive (IXC2.5-OL) è composto da tre moduli chiave: (1) Modulo di Percezione in Streaming: Elabora informazioni multimodali in tempo reale, memorizzando dettagli chiave in memoria e attivando il ragionamento in risposta alle richieste dell'utente. (2) Modulo di Memoria Lunga Multimodale: Integra memoria a breve e lungo termine, comprimendo le memorie a breve termine in quelle a lungo termine per un recupero efficiente e una maggiore precisione. (3) Modulo di Ragionamento: Risponde alle richieste ed esegue compiti di ragionamento, coordinandosi con i moduli di percezione e memoria. Questo progetto simula una cognizione simile a quella umana, consentendo ai modelli di linguaggio multimodali di grandi dimensioni di fornire un servizio continuo e adattivo nel tempo.

English

Creating AI systems that can interact with environments over long periods, similar to human cognition, has been a longstanding research goal. Recent advancements in multimodal large language models (MLLMs) have made significant strides in open-world understanding. However, the challenge of continuous and simultaneous streaming perception, memory, and reasoning remains largely unexplored. Current MLLMs are constrained by their sequence-to-sequence architecture, which limits their ability to process inputs and generate responses simultaneously, akin to being unable to think while perceiving. Furthermore, relying on long contexts to store historical data is impractical for long-term interactions, as retaining all information becomes costly and inefficient. Therefore, rather than relying on a single foundation model to perform all functions, this project draws inspiration from the concept of the Specialized Generalist AI and introduces disentangled streaming perception, reasoning, and memory mechanisms, enabling real-time interaction with streaming video and audio input. The proposed framework InternLM-XComposer2.5-OmniLive (IXC2.5-OL) consists of three key modules: (1) Streaming Perception Module: Processes multimodal information in real-time, storing key details in memory and triggering reasoning in response to user queries. (2) Multi-modal Long Memory Module: Integrates short-term and long-term memory, compressing short-term memories into long-term ones for efficient retrieval and improved accuracy. (3) Reasoning Module: Responds to queries and executes reasoning tasks, coordinating with the perception and memory modules. This project simulates human-like cognition, enabling multimodal large language models to provide continuous and adaptive service over time.

InternLM-XComposer2.5-OmniLive: Un sistema multimodale completo per interazioni audio e video in streaming a lungo termine

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

Abstract

Support