提交 775ef939 编写于 作者: X xiaowei_xing

test

上级 acd55c95
......@@ -266,4 +266,10 @@ $$
$$
= \mathbb{E}_ {\pi_{\theta}}[\sum_{t=0}^{T-1} G_t \nabla_{\theta} \log \pi_{\theta}(a_t|s_t)]。
\tag{14}
$$
由于从式(12)到式(13)可能并不显而易见,所以我们来举个简单的例子。假设有一个包括三个时间步的轨迹,那么式(12)就变成了:
$$
\nabla_{\theta} V(\theta) = \mathbb{E}_ {\pi_{\theta}}[r_0 \nabla_{\theta} \log\pi_{\theta}(a_0|s_0) +
$$
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册