ATTENTION-GUIDED CONTRASTIVE ROLE REPRESENTATIONS FOR MULTI-AGENT REINFORCEMENT LEARNING

摘要: 1、受角色与智能体行为模式之间相关性的启发,我们提出了一种名为 Attention-guided COntrastive Role representation learning for MARL(ACORM)的新型框架


2、引入互信息最大化来形式化角色表示学习,推导出一个对比学习目标,并简洁地近似负样本的分布


3、利用注意力机制提示全局状态关注价值分解中学习到的角色表示,隐式地引导智能体在技能型角色空间中进行协调,以产生更具表现力的信用分配。


引言

1、主要思想是学习一个紧凑的角色表征,以捕捉智能体的复杂行为模式,并使用该角色表征来促进智能体之间的行为异质性、知识迁移和熟练协调。首先,我们将学习目标形式化为角色与其表征之间的互信息最大化,以在给定智能体行为的情况下最大限度地减少角色不确定性,同时最大限度地保留与角色无关的信息。我们引入了一种对比学习方法来优化 infoNCE 损失,即互信息的下界。为了简洁地近似负样本的分布,我们通过将智能体的轨迹编码到潜在空间中来提取智能体行为,并定期根据其潜在嵌入将所有智能体划分为几个集群,来自不同集群的点被配对为负样本。其次,在集中式训练期间,我们采用注意力机制来提示全局状态关注价值分解中学习到的角色表征。 注意力机制在技能角色空间中隐式地指导智能体协调,从而在角色出现时产生更丰富的信用分配。