test

5dde6310 · xiaowei_xing · 5ccee5d5 · 5dde6310
隐藏空白更改
内联并排

Showing with 9 addition and 1 deletion

docs/10.md docs/10.md +9 -1

未找到文件。
--- a/docs/10.md
+++ b/docs/10.md
@@ -104,4 +104,12 @@ $$

 $$
 \nabla_{theta}J(\theta) = \sum_{i=1}^{N} \nabla_{\theta}\log P(y_i|x_i)。
-$$
\ No newline at end of file
+$$
+
+与策略梯度推导相比，关键的差别在于奖励的累加。我们甚至可以将 MLE 视为回报都为 1 的策略梯度。尽管这一差异看起来很小，它会使得问题变得更加困难，特别是，将奖励累加会大大增加方差。因此，在一节中，我们将讨论两种减小方差的方法。
+
+## 2. 在策略梯度中减小方差（Reducing Variance in Policy Gradient）
+
+### 2.1 因果关系（Causality）
+
+首先我们注意到在时间 $t'$ 采取动作不会影响到 时间 $t$ 的奖励，对于所有的 $t < t'$ 而言，这就是所谓的因果关系，因为我们现在做的事不会影响到过去。因此，我们可以将奖励的累加 $\sum_{t=1}^{T}\gamma^{t}r(s_{i,t},a_{i,t})$ 改为 $\hat{Q}_ {i,t}=\sum_{t'=t}^{T}\gamma^{t'}r(s_{i,t'},a_{i,t'})$。
\ No newline at end of file