TRPO
一、背景知识
在介绍TRPO算法之前,先问一个问题:TRPO是在什么背景下衍生出来的?为了回答这个问题,需要先介绍策略梯度思想(Policy Gradient,PG)。
多智能体强化学习系统特点
智能体数量非单个
智能体之间存在一定联系:合作、对抗、合作+对抗(多智能体多动机)
智能体不仅需要考虑到环境,还需要考虑到其他智能体的行动
学习环境动态变化
摘要: 1、受角色与智能体行为模式之间相关性的启发,我们提出了一种名为 Attention-guided COntrastive Role representation learning for MARL(ACORM)的新型框架
本片文章主要是依据历史经验来判断出干扰者,目标是合作方在最坏对抗干扰下,寻求最优策略
我们研究了具有单个联合奖励信号的协作式多智能体强化学习问题。这类学习问题很困难,因为通常有很大的动作和观察组合空间。在完全集中式和去中心化的方法中,我们发现了虚假奖励的问题和一种我们称之为 “惰性代理” 问题的现象,这是由于部分可观察性而出现的。我们通过使用一种新的价值分解网络架构来训练单个代理来解决这些问题,该架构学习将团队价值函数分解为代理价值函数。我们在一系列部分可观察的多智能体领域进行了实验评估,并表明学习这种价值分解会带来卓越的结果,特别是当与权重共享、角色信息和信息通道相结合时。
通信是协调多个智能体行为、拓宽它们对环境的认识以及支持它们协作的有效机制。在多智能体深度强化学习(MADRL)领域,智能体可以通过通信来提高整体学习性能并实现其目标。智能体可以与所有智能体或特定智能体组通信,或者根据特定约束条件进行通信。随着 MADRL 通信(Comm-MADRL)研究工作的不断增多,目前缺乏一种系统性和结构化的方法来区分和分类现有的 Comm-MADRL 方法。在本文中,我们回顾了 Comm-MADRL 领域的最新研究成果,并考虑了在设计和开发多智能体强化学习系统中可能发挥作用的通信的各个方面。考虑到这些方面,我们提出了 9 个维度,沿着这些维度可以对 Comm-MADRL 方法进行分析、开发和比较。通过将现有工作投射到多维空间中,我们发现了一些有趣的趋势。 我们还通过探索可能性的组合,提出了一些设计未来 Comm-MADRL 系统的创新方向。
在深度强化学习中,(_{S}[V(S, )]) 表示对状态 (S) 的期望值。虽然 (S) 是状态,具体理解上可以这样考虑:
状态的分布:在强化学习中,状态 (S) 是随机变量,它遵循一个分布 (p(S)),该分布反映了状态在环境中的出现概率。这个分布可以是初始状态分布,也可以是策略执行时经过各个状态的访问分布。我们可以理解为期望值 (_{S}[V(S, )]) 是对状态分布 (p(S)) 的加权平均。
求期望的含义:当我们求 (_{S}[V(S, )]) 时,实际上是在所有可能的状态上计算一个加权平均值,即把每个状态的价值函数 (V(S, )) 按其出现的概率 (p(S)) 来进行加权。这种期望值通常用于估计模型在整个状态空间上的表现。
样本估计:在实际中,这种期望值可以通过采样实现,比如通过从 (p(S)) 中采样得到一系列状态 ({S_i}),然后计算这些状态上 (V(S, )) 的平均值来逼近 (_{S}[V(S, )])。
综上,(_{S}[V(S, )]) 是对状态空间中的每个状态价值的加权平均,权重来自状态的分布 (p(S))。这种方法在强化学习中帮助我们通过全局状态分布来评估价值函数,从而更有效地训练模型。
一、Zookeeper特点 1) Zookeeper:一个领导者(Leader),多个跟随者(Follower)组成的集群。 2)集群中只要有半数以上节点存活,Zookeeper集群就能正常服务。所以Zookeeper适合安装奇数台服务器。 3)全局数据一致:每个Server保存一份相同的数据副本, Client无论连接到哪个Server,数据都是一致的。 4)更新请求顺序执行,来自同一个Client的更新请求按其发送顺序依次执行。 5)数据更新原子性,一次数据更新要么成功,要么失败。 6)实时性,在一定时间范围内,Client能读到最新数据。