diff --git a/docs/10.md b/docs/10.md
index d45c379854ad4c4631c1ee5e1a0960858a81f053..dba415f1e1c1dc2135dd8229b280cdab7f80a3ae 100644
--- a/docs/10.md
+++ b/docs/10.md
@@ -388,4 +388,16 @@ V^{\pi}(s) = \frac{1}{1-\gamma} (\mathbb{E}_ {s\sim d^{\pi},a\sim\pi(\cdot|s),s'
 \tag{5}
 $$
 
-这可以被看作奖励改变的一种形式，改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{\pi}(s)$，那么我们就得到了优势函数。
\ No newline at end of file
+这可以被看作奖励改变的一种形式，改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{\pi}(s)$，那么我们就得到了优势函数。
+
+### 5.2 状态分布差异限制（Bounding Difference in State Distributions）
+
+在更新 $\pi\to\pi'$ 时，我们有不同的衰减状态访问分布 $d^{\pi}$ 和 $d^{\pi'}$，现在我们来限制它们之间的差异。
+
+**引理 5.1**
+
+$$
+\lVert d^{\pi'}-d^{\pi} \rVert_1 \leq \frac{2\gamma}{1-\gamma} (\mathbb{E}_ {s\sim d^{\pi}} [D_{TV}(\pi'\lVert \pi)[s]])
+$$
+
+这一引理的证明可以参见 [4] 以及附录 A.1。
\ No newline at end of file