오프라인 다중 에이전트 강화 학습에서 데이터를 중심에 두기
Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning
September 18, 2024
저자: Claude Formanek, Louise Beyers, Callum Rhys Tilbury, Jonathan P. Shock, Arnu Pretorius
cs.AI
초록
오프라인 다중 에이전트 강화 학습(MARL)은 정적 데이터셋을 사용하여 다중 에이전트 시스템에 대한 최적 제어 정책을 찾는 흥미로운 연구 방향입니다. 이 분야는 본질적으로 데이터 주도적이지만, 현재까지 데이터를 무시하고 최첨단 결과를 달성하려는 노력이 소홀했습니다. 우리는 먼저 문헌 조사를 통해 이 주장을 입증하고, 작업의 대부분이 일관된 방법론 없이 자체 데이터셋을 생성하고 이러한 데이터셋의 특성에 대한 정보를 제공하지 않는 것을 보여줍니다. 그런 다음 데이터의 본질을 무시하는 것이 왜 문제인지를 보여주며, 알고리즘 성능이 사용된 데이터셋과 밀접하게 연결되어 있어 실험을 위한 공통 기반이 필요하다는 중요한 예시를 제시합니다. 이에 대응하여, 우리는 오프라인 MARL에서 데이터 사용과 데이터 인식을 개선하기 위한 큰 한걸음을 내딛었으며, 이는 세 가지 주요 기여를 포함합니다: (1) 새로운 데이터셋 생성을 위한 명확한 지침; (2) 일관된 저장 형식과 사용하기 쉬운 API를 사용하여 공개적으로 제공되는 저장소에 호스팅된 80개 이상의 기존 데이터셋의 표준화; 그리고 (3) 이러한 데이터셋을 더 잘 이해할 수 있도록 도와주는 분석 도구 모음을 제공합니다.
English
Offline multi-agent reinforcement learning (MARL) is an exciting direction of
research that uses static datasets to find optimal control policies for
multi-agent systems. Though the field is by definition data-driven, efforts
have thus far neglected data in their drive to achieve state-of-the-art
results. We first substantiate this claim by surveying the literature, showing
how the majority of works generate their own datasets without consistent
methodology and provide sparse information about the characteristics of these
datasets. We then show why neglecting the nature of the data is problematic,
through salient examples of how tightly algorithmic performance is coupled to
the dataset used, necessitating a common foundation for experiments in the
field. In response, we take a big step towards improving data usage and data
awareness in offline MARL, with three key contributions: (1) a clear guideline
for generating novel datasets; (2) a standardisation of over 80 existing
datasets, hosted in a publicly available repository, using a consistent storage
format and easy-to-use API; and (3) a suite of analysis tools that allow us to
understand these datasets better, aiding further development.Summary
AI-Generated Summary