diff --git a/docs/10.md b/docs/10.md index d45c379854ad4c4631c1ee5e1a0960858a81f053..dba415f1e1c1dc2135dd8229b280cdab7f80a3ae 100644 --- a/docs/10.md +++ b/docs/10.md @@ -388,4 +388,16 @@ V^{\pi}(s) = \frac{1}{1-\gamma} (\mathbb{E}_ {s\sim d^{\pi},a\sim\pi(\cdot|s),s' \tag{5} $$ -这可以被看作奖励改变的一种形式,改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{\pi}(s)$,那么我们就得到了优势函数。 \ No newline at end of file +这可以被看作奖励改变的一种形式,改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{\pi}(s)$,那么我们就得到了优势函数。 + +### 5.2 状态分布差异限制(Bounding Difference in State Distributions) + +在更新 $\pi\to\pi'$ 时,我们有不同的衰减状态访问分布 $d^{\pi}$ 和 $d^{\pi'}$,现在我们来限制它们之间的差异。 + +**引理 5.1** + +$$ +\lVert d^{\pi'}-d^{\pi} \rVert_1 \leq \frac{2\gamma}{1-\gamma} (\mathbb{E}_ {s\sim d^{\pi}} [D_{TV}(\pi'\lVert \pi)[s]]) +$$ + +这一引理的证明可以参见 [4] 以及附录 A.1。 \ No newline at end of file