提交 8470d9ee 编写于 作者: X xiaowei_xing

test

上级 bcb23bce
......@@ -237,4 +237,16 @@ $$
$$
\nabla_{\theta}V(\theta) = \nabla_{\theta} \mathbb{E}_ {\tau \sim \pi_{\theta}}[R(\tau)] = \mathbb{E}_ {\tau \sim \pi_{\theta}}[R(\tau)\sum_{t=0}^{T-1}\nabla_{\theta}\log \pi_{\theta}(a_t|s_t)]。
\tag{11}
$$
注意,这里奖励 $R(\tau^{(i)}$ 为整个轨迹 $\tau^{(i)}$ 的函数,我们可以将其拆分为轨迹中得到的所有奖励的和:
$$
R(\tau) = \sum_{t=1}^{T-1}R(s_t,a_t)。
$$
这样,我们可以用推导式(11)的同样的方法来推导单个奖励 $r_{t'}$ 的梯度估计:
$$
\nabla_{\theta} \mathbb{E}_ {\pi_{\theta}}[r_{t'}]=\mathbb_{\pi_{\theta}}[r_{t'}\sum_{t=0}^{t'}\nabla_{\theta}\log\pi_{\theta}(a_t|s_t)]。
$$
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册