test

461faaf1 · xiaowei_xing · e6a8ec27 · 461faaf1
隐藏空白更改
内联并排

Showing with 11 addition and 5 deletion

docs/10.md docs/10.md +11 -5

未找到文件。
--- a/docs/10.md
+++ b/docs/10.md
@@ -331,7 +331,7 @@ $$

 TRPO [3] 的关键思想是定义一个限制策略更新的信任区域。这个约束在策略空间中而不是在参数空间中，并且称为算法的新步长。通过这种方式，我们可以大致确保策略更新后的新策略比旧策略表现得更好。

-### 5.1 问题设定
+### 5.1 问题设定（Problem Setup）

 考虑一个有限状态和动作的 MDP，$\cal{M}=(S,A,M,R,\gamma)$，这里 $M$ 为状态转移函数。在这一节中，我们假设 $|S|$ 和 $|A|$ 都是有限的，并且假设 $0<\gamma<1$。尽管推导是基于有限状态和动作的，但算法对连续状态和动作同样有效。我们定义

@@ -370,7 +370,7 @@ $$

 第二个等号是因为 $\rho_{\pi}^{t}=P_{\pi}\rho_{\pi}^{t-1}$，第三个等号可以由几何级数推导得到。

-我们的证明的目的是给出 $V^{\pi'}-V^{\pi}$ 的下界。我们从一个关于奖励改变的引理开始证明。
+我们的证明的目的是给出 $V^{\pi'}-V^{\pi}$ 的下界。我们从一个关于奖励调整的引理开始证明。

 **引理 5.1** 对于任意函数 $f:S\mapsto\mathbb{E}$ 和任意策略 $\pi$，我们有：

@@ -388,7 +388,7 @@ V^{\pi}(s) = \frac{1}{1-\gamma} (\mathbb{E}_ {s\sim d^{\pi},a\sim\pi(\cdot|s),s'
 \tag{5}
 $$

-这可以被看作奖励改变的一种形式，改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{\pi}(s)$，那么我们就得到了优势函数。
+这可以被看作奖励调整的一种形式，改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{\pi}(s)$，那么我们就得到了优势函数。

 ### 5.2 状态分布差异限制（Bounding Difference in State Distributions）

@@ -554,7 +554,7 @@ $$

 **练习 6.7** 这里是对离散动作空间使用自动微分来执行最大似然估计的伪代码。

-$\text{logits = policy.predictions(states)}$
+`\text{logits = policy.predictions(states)}`

 $\text{negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(}$

@@ -596,4 +596,10 @@ $\text{gradients = loss.gradients(loss, variables)}$

 4. J. Achiam, D. Held, A. Tamar, and P. Abbeel, "Constrained policy optimization," *ICML*, 2017.

-5. J. Schulman et al, "Trust region policy optimization," *ICML*, 2015.
\ No newline at end of file
+5. J. Schulman et al, "Trust region policy optimization," *ICML*, 2015.
+
+## A TRPO 证明（TRPO Proofs）
+
+### A.1 奖励调整（Reward Shaping）
+
+这里我们证明引理 5.1。
\ No newline at end of file