test

2a1c0e55 · xiaowei_xing · b89f702c · 2a1c0e55
隐藏空白更改
内联并排

Showing with 6 addition and 1 deletion

docs/10.md docs/10.md +6 -1

未找到文件。
--- a/docs/10.md
+++ b/docs/10.md
@@ -32,4 +32,9 @@ $$
 \theta^* = \mathop{\arg\max}_\theta J(\theta)
 $$

-我们定义 $P_\theta(s,a)$ 为 $(s,a)$ 出现在轨迹中的概率。注意，若时间步无穷大而且状态的平稳分布存在时，我们可以将 $P_\theta(s,a)$ 写为 $P_\theta(s,a)=d^{\pi_{\theta}}(s)\pi_{\theta}(a|s)$，这里 $d^{\pi_{\theta}}(s)$ 为遵照策略 $\pi_{\theta}$ 时的状态的平稳分布。
\ No newline at end of file
+我们定义 $P_\theta(s,a)$ 为 $(s,a)$ 出现在轨迹中的概率。注意，若时间步无穷大而且状态的平稳分布存在时，我们可以将 $P_\theta(s,a)$ 写为 $P_\theta(s,a)=d^{\pi_{\theta}}(s)\pi_{\theta}(a|s)$，这里 $d^{\pi_{\theta}}(s)$ 为遵照策略 $\pi_{\theta}$ 时的状态的平稳分布。
+
+在无穷时间步的情况下，我们有：
+$$
+\theta^{*} = \mathop{\arg\max}_{\theta}\sum _{t=1}^{\inf} \mathbb{E} _{(s,a) \sim P _{\theta}(s,a)[\gamma^t r(s,a)]}
+$$
\ No newline at end of file