From 7173da1e5758a988a027a64cbf88fbbb6282f242 Mon Sep 17 00:00:00 2001
From: xiaowei_xing <997427575@qq.com>
Date: Tue, 26 Nov 2019 16:25:46 +0900
Subject: [PATCH] test

---
 docs/10.md | 20 ++++++++++++++++++--
 1 file changed, 18 insertions(+), 2 deletions(-)

diff --git a/docs/10.md b/docs/10.md
index 38f6c9f..6f8561c 100644
--- a/docs/10.md
+++ b/docs/10.md
@@ -492,7 +492,23 @@ $$
 不幸的是，解决这个优化问题会导致非常小的步长。在 [5] 中，在实现实用的算法时，作者将该优化问题转化为一个有约束优化问题来增大步长。具体来说，优化问题变为如下形式：
 
 $$
-\mathop{\max}_ {\pi'} L_{\pi}(\pi') \quad \text{s.t.} \quad \alpha^2 \leq \delta，
+\mathop{\max}_ {\pi'} L_{\pi}(\pi')
 $$
 
-这里 $\delta$ 为超参数。
\ No newline at end of file
+$$
+\text{s.t.} \quad \alpha^2 \leq \delta，
+$$
+
+这里 $\delta$ 为超参数。
+
+由于存在大量的状态，$alpha$ 的最大约束无法求解。因此在 [5] 中，作者使用了仅考虑平均 KL 散度的启发式近似。这样近似是有用的，因为我们可以用样本来近似期望而无法用样本来近似最大值。因此我们有：
+
+$$
+\mathop{\max}_ {\pi'} L_{\pi}(\pi')
+$$
+
+$$
+\text{s.t.} \quad \overline{D}_{KL}(\pi,pi') \leq \delta，
+$$
+
+这里 $\overline{D}_ {KL}(\pi,pi') = \mathbb{E}_ {s\sim d^{\pi}[D_{TV}(\pi\lVert \pi')[s]]$。
\ No newline at end of file
-- 
GitLab