提交 2a1c0e55 编写于 作者: X xiaowei_xing

test

上级 b89f702c
......@@ -32,4 +32,9 @@ $$
\theta^* = \mathop{\arg\max}_\theta J(\theta)
$$
我们定义 $P_\theta(s,a)$ 为 $(s,a)$ 出现在轨迹中的概率。注意,若时间步无穷大而且状态的平稳分布存在时,我们可以将 $P_\theta(s,a)$ 写为 $P_\theta(s,a)=d^{\pi_{\theta}}(s)\pi_{\theta}(a|s)$,这里 $d^{\pi_{\theta}}(s)$ 为遵照策略 $\pi_{\theta}$ 时的状态的平稳分布。
\ No newline at end of file
我们定义 $P_\theta(s,a)$ 为 $(s,a)$ 出现在轨迹中的概率。注意,若时间步无穷大而且状态的平稳分布存在时,我们可以将 $P_\theta(s,a)$ 写为 $P_\theta(s,a)=d^{\pi_{\theta}}(s)\pi_{\theta}(a|s)$,这里 $d^{\pi_{\theta}}(s)$ 为遵照策略 $\pi_{\theta}$ 时的状态的平稳分布。
在无穷时间步的情况下,我们有:
$$
\theta^{*} = \mathop{\arg\max}_{\theta}\sum _{t=1}^{\inf} \mathbb{E} _{(s,a) \sim P _{\theta}(s,a)[\gamma^t r(s,a)]}
$$
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册