提交 461faaf1 编写于 作者: X xiaowei_xing

test

上级 e6a8ec27
......@@ -331,7 +331,7 @@ $$
TRPO [3] 的关键思想是定义一个限制策略更新的信任区域。这个约束在策略空间中而不是在参数空间中,并且称为算法的新步长。通过这种方式,我们可以大致确保策略更新后的新策略比旧策略表现得更好。
### 5.1 问题设定
### 5.1 问题设定(Problem Setup)
考虑一个有限状态和动作的 MDP,$\cal{M}=(S,A,M,R,\gamma)$,这里 $M$ 为状态转移函数。在这一节中,我们假设 $|S|$ 和 $|A|$ 都是有限的,并且假设 $0<\gamma<1$。尽管推导是基于有限状态和动作的,但算法对连续状态和动作同样有效。我们定义
......@@ -370,7 +370,7 @@ $$
第二个等号是因为 $\rho_{\pi}^{t}=P_{\pi}\rho_{\pi}^{t-1}$,第三个等号可以由几何级数推导得到。
我们的证明的目的是给出 $V^{\pi'}-V^{\pi}$ 的下界。我们从一个关于奖励改变的引理开始证明。
我们的证明的目的是给出 $V^{\pi'}-V^{\pi}$ 的下界。我们从一个关于奖励调整的引理开始证明。
**引理 5.1** 对于任意函数 $f:S\mapsto\mathbb{E}$ 和任意策略 $\pi$,我们有:
......@@ -388,7 +388,7 @@ V^{\pi}(s) = \frac{1}{1-\gamma} (\mathbb{E}_ {s\sim d^{\pi},a\sim\pi(\cdot|s),s'
\tag{5}
$$
这可以被看作奖励改变的一种形式,改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{\pi}(s)$,那么我们就得到了优势函数。
这可以被看作奖励调整的一种形式,改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{\pi}(s)$,那么我们就得到了优势函数。
### 5.2 状态分布差异限制(Bounding Difference in State Distributions)
......@@ -554,7 +554,7 @@ $$
**练习 6.7** 这里是对离散动作空间使用自动微分来执行最大似然估计的伪代码。
$\text{logits = policy.predictions(states)}$
`\text{logits = policy.predictions(states)}`
$\text{negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(}$
......@@ -596,4 +596,10 @@ $\text{gradients = loss.gradients(loss, variables)}$
4. J. Achiam, D. Held, A. Tamar, and P. Abbeel, "Constrained policy optimization," *ICML*, 2017.
5. J. Schulman et al, "Trust region policy optimization," *ICML*, 2015.
\ No newline at end of file
5. J. Schulman et al, "Trust region policy optimization," *ICML*, 2015.
## A TRPO 证明(TRPO Proofs)
### A.1 奖励调整(Reward Shaping)
这里我们证明引理 5.1。
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册