DRL Algorithms

在深度强化学习中,(_{S}[V(S, )]) 表示对状态 (S) 的期望值。虽然 (S) 是状态,具体理解上可以这样考虑:

  1. 状态的分布:在强化学习中,状态 (S) 是随机变量,它遵循一个分布 (p(S)),该分布反映了状态在环境中的出现概率。这个分布可以是初始状态分布,也可以是策略执行时经过各个状态的访问分布。我们可以理解为期望值 (_{S}[V(S, )]) 是对状态分布 (p(S)) 的加权平均。

  2. 求期望的含义:当我们求 (_{S}[V(S, )]) 时,实际上是在所有可能的状态上计算一个加权平均值,即把每个状态的价值函数 (V(S, )) 按其出现的概率 (p(S)) 来进行加权。这种期望值通常用于估计模型在整个状态空间上的表现。

  3. 样本估计:在实际中,这种期望值可以通过采样实现,比如通过从 (p(S)) 中采样得到一系列状态 ({S_i}),然后计算这些状态上 (V(S, )) 的平均值来逼近 (_{S}[V(S, )])。

综上,(_{S}[V(S, )]) 是对状态空间中的每个状态价值的加权平均,权重来自状态的分布 (p(S))。这种方法在强化学习中帮助我们通过全局状态分布来评估价值函数,从而更有效地训练模型。

随机梯度是对期望的蒙特卡洛近似

image-20241030002933171

通常来说,J()是一个很复杂的函数,而L(| _{old})是一个相对简单的函数

构建L的方法多种多样,可以是J的二阶泰勒展开,也可以是J的蒙特卡洛近似

要maximization,即相当于求解一个带置信域约束的最优化问题,求解速度没有梯度上升和随机梯度上升算法快

但置信域算法强在比这两种算法表现稳定,哪怕最优化问题求解不是很准确。

image-20241030003652735

J() = E_{S}[V_{}(S)]中对S求期望,相当于消除了S,只剩下策略网络参数

image-20241030004813870
image-20241030005237667
image-20241030005401769
image-20241030010211366
image-20241030010802155

第四步需要内层循环求解最大化问题,第四步两个超参数,一个,一个学习步长。