DRL Algorithms

Posted on 2024-10-30 Edited on 2025-07-07

在深度强化学习中，(_{S}[V(S, )]) 表示对状态 (S) 的期望值。虽然 (S) 是状态，具体理解上可以这样考虑：

状态的分布：在强化学习中，状态 (S) 是随机变量，它遵循一个分布 (p(S))，该分布反映了状态在环境中的出现概率。这个分布可以是初始状态分布，也可以是策略执行时经过各个状态的访问分布。我们可以理解为期望值 (_{S}[V(S, )]) 是对状态分布 (p(S)) 的加权平均。
求期望的含义：当我们求 (_{S}[V(S, )]) 时，实际上是在所有可能的状态上计算一个加权平均值，即把每个状态的价值函数 (V(S, )) 按其出现的概率 (p(S)) 来进行加权。这种期望值通常用于估计模型在整个状态空间上的表现。
样本估计：在实际中，这种期望值可以通过采样实现，比如通过从 (p(S)) 中采样得到一系列状态 ({S_i})，然后计算这些状态上 (V(S, )) 的平均值来逼近 (_{S}[V(S, )])。

综上，(_{S}[V(S, )]) 是对状态空间中的每个状态价值的加权平均，权重来自状态的分布 (p(S))。这种方法在强化学习中帮助我们通过全局状态分布来评估价值函数，从而更有效地训练模型。

随机梯度是对期望的蒙特卡洛近似