diff --git a/docs/10.md b/docs/10.md
index eb8ed8ec09abba38c673ac6ef428f151233b10a0..b5cce06fe5451364ba174466520e65a1d248ba67 100644
--- a/docs/10.md
+++ b/docs/10.md
@@ -32,4 +32,9 @@ $$
 \theta^* = \mathop{\arg\max}_\theta J(\theta)
 $$
 
-我们定义 $P_\theta(s,a)$ 为 $(s,a)$ 出现在轨迹中的概率。注意，若时间步无穷大而且状态的平稳分布存在时，我们可以将 $P_\theta(s,a)$ 写为 $P_\theta(s,a)=d^{\pi_{\theta}}(s)\pi_{\theta}(a|s)$，这里 $d^{\pi_{\theta}}(s)$ 为遵照策略 $\pi_{\theta}$ 时的状态的平稳分布。
\ No newline at end of file
+我们定义 $P_\theta(s,a)$ 为 $(s,a)$ 出现在轨迹中的概率。注意，若时间步无穷大而且状态的平稳分布存在时，我们可以将 $P_\theta(s,a)$ 写为 $P_\theta(s,a)=d^{\pi_{\theta}}(s)\pi_{\theta}(a|s)$，这里 $d^{\pi_{\theta}}(s)$ 为遵照策略 $\pi_{\theta}$ 时的状态的平稳分布。
+
+在无穷时间步的情况下，我们有：
+$$
+\theta^{*} = \mathop{\arg\max}_{\theta}\sum _{t=1}^{\inf} \mathbb{E} _{(s,a) \sim P _{\theta}(s,a)[\gamma^t r(s,a)]}
+$$
\ No newline at end of file