diff --git a/docs/10.md b/docs/10.md index eb8ed8ec09abba38c673ac6ef428f151233b10a0..b5cce06fe5451364ba174466520e65a1d248ba67 100644 --- a/docs/10.md +++ b/docs/10.md @@ -32,4 +32,9 @@ $$ \theta^* = \mathop{\arg\max}_\theta J(\theta) $$ -我们定义 $P_\theta(s,a)$ 为 $(s,a)$ 出现在轨迹中的概率。注意,若时间步无穷大而且状态的平稳分布存在时,我们可以将 $P_\theta(s,a)$ 写为 $P_\theta(s,a)=d^{\pi_{\theta}}(s)\pi_{\theta}(a|s)$,这里 $d^{\pi_{\theta}}(s)$ 为遵照策略 $\pi_{\theta}$ 时的状态的平稳分布。 \ No newline at end of file +我们定义 $P_\theta(s,a)$ 为 $(s,a)$ 出现在轨迹中的概率。注意,若时间步无穷大而且状态的平稳分布存在时,我们可以将 $P_\theta(s,a)$ 写为 $P_\theta(s,a)=d^{\pi_{\theta}}(s)\pi_{\theta}(a|s)$,这里 $d^{\pi_{\theta}}(s)$ 为遵照策略 $\pi_{\theta}$ 时的状态的平稳分布。 + +在无穷时间步的情况下,我们有: +$$ +\theta^{*} = \mathop{\arg\max}_{\theta}\sum _{t=1}^{\inf} \mathbb{E} _{(s,a) \sim P _{\theta}(s,a)[\gamma^t r(s,a)]} +$$ \ No newline at end of file