提交 16f9377e 编写于 作者: X xiaowei_xing

test

上级 ee480612
......@@ -248,7 +248,7 @@ $$
这样,我们可以用推导式(11)的同样的方法来推导单个奖励 $r_{t'}$ 的梯度估计:
$$
\nabla_{\theta} \mathbb{E}_ {\pi_{\theta}}[r_{t'}]=\mathbb_{\pi_{\theta}}[r_{t'}\sum_{t=0}^{t'} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t)]。
\nabla_{\theta} \mathbb{E}_ {\pi_{\theta}}[r_{t'}] = \mathbb{E}_ {\pi_{\theta}}[r_{t'}\sum_{t=0}^{t'} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t)]。
$$
由于 $\sum_{t'=t}^{T-1}r_{t'}^{(i)}$ 就是回报 $G_t^{(i)}$,
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册