SRMT: Gedeeld Geheugen voor Multi-agent Levenslang Padvinden
SRMT: Shared Memory for Multi-agent Lifelong Pathfinding
January 22, 2025
Auteurs: Alsu Sagirova, Yuri Kuratov, Mikhail Burtsev
cs.AI
Samenvatting
Multi-agent reinforcement learning (MARL) toont aanzienlijke vooruitgang in het oplossen van samenwerkings- en competitieve multi-agent problemen in verschillende omgevingen. Een van de belangrijkste uitdagingen in MARL is de noodzaak voor een expliciete voorspelling van het gedrag van de agenten om samenwerking te bereiken. Om dit probleem op te lossen, stellen we de Gedeelde Recurrente Geheugen Transformer (SRMT) voor, die geheugen transformers uitbreidt naar multi-agent omgevingen door individuele werkgeheugens samen te voegen en wereldwijd uit te zenden, waardoor agenten informatie impliciet kunnen uitwisselen en hun acties kunnen coördineren. We evalueren SRMT op het Gedeeltelijk Waarneembare Multi-Agent Padvindingsprobleem in een speelgoedflessenhalsnavigatietaak waarbij agenten door een smalle gang moeten gaan en op een POGEMA benchmarkset van taken. In de Flessenhals taak presteert SRMT consequent beter dan verschillende reinforcement learning baselines, vooral bij schaarse beloningen, en generaliseert effectief naar langere gangen dan die tijdens de training zijn gezien. Op POGEMA-kaarten, waaronder Doolhoven, Willekeurig en MovingAI, is SRMT concurrerend met recente MARL, hybride en op planning gebaseerde algoritmen. Deze resultaten suggereren dat het opnemen van gedeeld recurrent geheugen in op transformer gebaseerde architecturen de coördinatie in gedecentraliseerde multi-agent systemen kan verbeteren. De broncode voor training en evaluatie is beschikbaar op GitHub: https://github.com/Aloriosa/srmt.
English
Multi-agent reinforcement learning (MARL) demonstrates significant progress
in solving cooperative and competitive multi-agent problems in various
environments. One of the principal challenges in MARL is the need for explicit
prediction of the agents' behavior to achieve cooperation. To resolve this
issue, we propose the Shared Recurrent Memory Transformer (SRMT) which extends
memory transformers to multi-agent settings by pooling and globally
broadcasting individual working memories, enabling agents to exchange
information implicitly and coordinate their actions. We evaluate SRMT on the
Partially Observable Multi-Agent Pathfinding problem in a toy Bottleneck
navigation task that requires agents to pass through a narrow corridor and on a
POGEMA benchmark set of tasks. In the Bottleneck task, SRMT consistently
outperforms a variety of reinforcement learning baselines, especially under
sparse rewards, and generalizes effectively to longer corridors than those seen
during training. On POGEMA maps, including Mazes, Random, and MovingAI, SRMT is
competitive with recent MARL, hybrid, and planning-based algorithms. These
results suggest that incorporating shared recurrent memory into the
transformer-based architectures can enhance coordination in decentralized
multi-agent systems. The source code for training and evaluation is available
on GitHub: https://github.com/Aloriosa/srmt.Summary
AI-Generated Summary