From 461faaf1b6e2933ef1f85fb7bc99b922b31a8e79 Mon Sep 17 00:00:00 2001
From: xiaowei_xing <997427575@qq.com>
Date: Fri, 6 Dec 2019 13:58:24 +0900
Subject: [PATCH] test

---
 docs/10.md | 16 +++++++++++-----
 1 file changed, 11 insertions(+), 5 deletions(-)

diff --git a/docs/10.md b/docs/10.md
index f277021..d6a15a4 100644
--- a/docs/10.md
+++ b/docs/10.md
@@ -331,7 +331,7 @@ $$
 
 TRPO [3] 的关键思想是定义一个限制策略更新的信任区域。这个约束在策略空间中而不是在参数空间中，并且称为算法的新步长。通过这种方式，我们可以大致确保策略更新后的新策略比旧策略表现得更好。
 
-### 5.1 问题设定
+### 5.1 问题设定（Problem Setup）
 
 考虑一个有限状态和动作的 MDP，$\cal{M}=(S,A,M,R,\gamma)$，这里 $M$ 为状态转移函数。在这一节中，我们假设 $|S|$ 和 $|A|$ 都是有限的，并且假设 $0<\gamma<1$。尽管推导是基于有限状态和动作的，但算法对连续状态和动作同样有效。我们定义
 
@@ -370,7 +370,7 @@ $$
 
 第二个等号是因为 $\rho_{\pi}^{t}=P_{\pi}\rho_{\pi}^{t-1}$，第三个等号可以由几何级数推导得到。
 
-我们的证明的目的是给出 $V^{\pi'}-V^{\pi}$ 的下界。我们从一个关于奖励改变的引理开始证明。
+我们的证明的目的是给出 $V^{\pi'}-V^{\pi}$ 的下界。我们从一个关于奖励调整的引理开始证明。
 
 **引理 5.1** 对于任意函数 $f:S\mapsto\mathbb{E}$ 和任意策略 $\pi$，我们有：
 
@@ -388,7 +388,7 @@ V^{\pi}(s) = \frac{1}{1-\gamma} (\mathbb{E}_ {s\sim d^{\pi},a\sim\pi(\cdot|s),s'
 \tag{5}
 $$
 
-这可以被看作奖励改变的一种形式，改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{\pi}(s)$，那么我们就得到了优势函数。
+这可以被看作奖励调整的一种形式，改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{\pi}(s)$，那么我们就得到了优势函数。
 
 ### 5.2 状态分布差异限制（Bounding Difference in State Distributions）
 
@@ -554,7 +554,7 @@ $$
 
 **练习 6.7** 这里是对离散动作空间使用自动微分来执行最大似然估计的伪代码。
 
-$\text{logits = policy.predictions(states)}$
+`\text{logits = policy.predictions(states)}`
 
 $\text{negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(}$
 
@@ -596,4 +596,10 @@ $\text{gradients = loss.gradients(loss, variables)}$
 
 4. J. Achiam, D. Held, A. Tamar, and P. Abbeel, "Constrained policy optimization," *ICML*, 2017.
 
-5. J. Schulman et al, "Trust region policy optimization," *ICML*, 2015.
\ No newline at end of file
+5. J. Schulman et al, "Trust region policy optimization," *ICML*, 2015.
+
+## A TRPO 证明（TRPO Proofs）
+
+### A.1 奖励调整（Reward Shaping）
+
+这里我们证明引理 5.1。
\ No newline at end of file
-- 
GitLab