From 461faaf1b6e2933ef1f85fb7bc99b922b31a8e79 Mon Sep 17 00:00:00 2001 From: xiaowei_xing <997427575@qq.com> Date: Fri, 6 Dec 2019 13:58:24 +0900 Subject: [PATCH] test --- docs/10.md | 16 +++++++++++----- 1 file changed, 11 insertions(+), 5 deletions(-) diff --git a/docs/10.md b/docs/10.md index f277021..d6a15a4 100644 --- a/docs/10.md +++ b/docs/10.md @@ -331,7 +331,7 @@ $$ TRPO [3] 的关键思想是定义一个限制策略更新的信任区域。这个约束在策略空间中而不是在参数空间中,并且称为算法的新步长。通过这种方式,我们可以大致确保策略更新后的新策略比旧策略表现得更好。 -### 5.1 问题设定 +### 5.1 问题设定(Problem Setup) 考虑一个有限状态和动作的 MDP,$\cal{M}=(S,A,M,R,\gamma)$,这里 $M$ 为状态转移函数。在这一节中,我们假设 $|S|$ 和 $|A|$ 都是有限的,并且假设 $0<\gamma<1$。尽管推导是基于有限状态和动作的,但算法对连续状态和动作同样有效。我们定义 @@ -370,7 +370,7 @@ $$ 第二个等号是因为 $\rho_{\pi}^{t}=P_{\pi}\rho_{\pi}^{t-1}$,第三个等号可以由几何级数推导得到。 -我们的证明的目的是给出 $V^{\pi'}-V^{\pi}$ 的下界。我们从一个关于奖励改变的引理开始证明。 +我们的证明的目的是给出 $V^{\pi'}-V^{\pi}$ 的下界。我们从一个关于奖励调整的引理开始证明。 **引理 5.1** 对于任意函数 $f:S\mapsto\mathbb{E}$ 和任意策略 $\pi$,我们有: @@ -388,7 +388,7 @@ V^{\pi}(s) = \frac{1}{1-\gamma} (\mathbb{E}_ {s\sim d^{\pi},a\sim\pi(\cdot|s),s' \tag{5} $$ -这可以被看作奖励改变的一种形式,改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{\pi}(s)$,那么我们就得到了优势函数。 +这可以被看作奖励调整的一种形式,改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{\pi}(s)$,那么我们就得到了优势函数。 ### 5.2 状态分布差异限制(Bounding Difference in State Distributions) @@ -554,7 +554,7 @@ $$ **练习 6.7** 这里是对离散动作空间使用自动微分来执行最大似然估计的伪代码。 -$\text{logits = policy.predictions(states)}$ +`\text{logits = policy.predictions(states)}` $\text{negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(}$ @@ -596,4 +596,10 @@ $\text{gradients = loss.gradients(loss, variables)}$ 4. J. Achiam, D. Held, A. Tamar, and P. Abbeel, "Constrained policy optimization," *ICML*, 2017. -5. J. Schulman et al, "Trust region policy optimization," *ICML*, 2015. \ No newline at end of file +5. J. Schulman et al, "Trust region policy optimization," *ICML*, 2015. + +## A TRPO 证明(TRPO Proofs) + +### A.1 奖励调整(Reward Shaping) + +这里我们证明引理 5.1。 \ No newline at end of file -- GitLab