test

16f9377e · xiaowei_xing · ee480612 · 16f9377e
显示空白变更内容
内联并排

Showing with 1 addition and 1 deletion

docs/8&9.md docs/8&9.md +1 -1

未找到文件。
--- a/docs/8&9.md
+++ b/docs/8&9.md
@@ -248,7 +248,7 @@ $$
 这样，我们可以用推导式（11）的同样的方法来推导单个奖励 $r_{t'}$ 的梯度估计：

 $$
-\nabla_{\theta} \mathbb{E}_ {\pi_{\theta}}[r_{t'}]=\mathbb_{\pi_{\theta}}[r_{t'}\sum_{t=0}^{t'} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t)]。
+\nabla_{\theta} \mathbb{E}_ {\pi_{\theta}}[r_{t'}] = \mathbb{E}_ {\pi_{\theta}}[r_{t'}\sum_{t=0}^{t'} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t)]。
 $$

 由于 $\sum_{t'=t}^{T-1}r_{t'}^{(i)}$ 就是回报 $G_t^{(i)}$，
\ No newline at end of file