diff --git a/docs/10.md b/docs/10.md index 519c336a6d0733650bd9a500a3ea8a9809f5230b..d38e6355c467f248e64200063c6a47a2e659a74e 100644 --- a/docs/10.md +++ b/docs/10.md @@ -104,4 +104,12 @@ $$ $$ \nabla_{theta}J(\theta) = \sum_{i=1}^{N} \nabla_{\theta}\log P(y_i|x_i)。 -$$ \ No newline at end of file +$$ + +与策略梯度推导相比,关键的差别在于奖励的累加。我们甚至可以将 MLE 视为回报都为 1 的策略梯度。尽管这一差异看起来很小,它会使得问题变得更加困难,特别是,将奖励累加会大大增加方差。因此,在一节中,我们将讨论两种减小方差的方法。 + +## 2. 在策略梯度中减小方差(Reducing Variance in Policy Gradient) + +### 2.1 因果关系(Causality) + +首先我们注意到在时间 $t'$ 采取动作不会影响到 时间 $t$ 的奖励,对于所有的 $t < t'$ 而言,这就是所谓的因果关系,因为我们现在做的事不会影响到过去。因此,我们可以将奖励的累加 $\sum_{t=1}^{T}\gamma^{t}r(s_{i,t},a_{i,t})$ 改为 $\hat{Q}_ {i,t}=\sum_{t'=t}^{T}\gamma^{t'}r(s_{i,t'},a_{i,t'})$。 \ No newline at end of file