test

b750da01 · xiaowei_xing · 0c0140f8 · b750da01
隐藏空白更改
内联并排

Showing with 24 addition and 1 deletion

docs/8&9.md docs/8&9.md +24 -1

未找到文件。
--- a/docs/8&9.md
+++ b/docs/8&9.md
@@ -279,5 +279,28 @@ r_1(\nabla_{\theta} \log\pi_{\theta}(a_0|s_0) + \nabla_{\theta} \log\pi_{\theta}
 $$

 $$
-r_2(\nabla_{\theta} \log\pi_{\theta}(a_0|s_0) + \nabla_{\theta} \log\pi_{\theta}(a_1|s_1) + \nabla_{\theta} \log\pi_{\theta}(a_2|s_2))]
+r_2(\nabla_{\theta} \log\pi_{\theta}(a_0|s_0) + \nabla_{\theta} \log\pi_{\theta}(a_1|s_1) + \nabla_{\theta} \log\pi_{\theta}(a_2|s_2))]。
+$$
+
+重新组合这些项，我们可以得到：
+
+$$
+\nabla_{\theta} V(\theta) = \mathbb{E}_ {\pi_{\theta}}[\nabla_{\theta} \log\pi_{\theta}(a_0|s_0) (r_0+r_1+r_2) +
+$$
+
+$$
+\nabla_{\theta} \log\pi_{\theta}(a_1|s_1) (r_1+r_2) +
+$$
+
+$$
+\nabla_{\theta} \log\pi_{\theta}(a_2|s_2) (r_2)]，
+$$
+
+也就是说，式（13）成立。其主要思想是，策略在特定时间步 $t$ 的选择仅影响在这个片段中的后续时间步获得的奖励，而不会影响先前时间步获得的奖励。式（11）中的原始表达式并没有考虑这一点。
+
+我们将要在下一节的策略梯度算法中使用的表达式为：
+
+$$
+\nabla_{\theta} V(\theta) = \nabla_{\theta} \mathbb{E}_ {\tau \sim \pi_{\theta}}[R(\tau)] \approx \frac{1}{m}\sum_{i=1}^{m}\sum_{t=0}^{T-1}G_t^{(i)} \nabla_{\theta} \log \pi_{\theta}(a_t^{(i)}|s_t^{(i)})
+\tag{15}
 $$
\ No newline at end of file