提交 8b3ae012 编写于 作者: X xiaowei_xing

updated

上级 8ab0c195
...@@ -296,9 +296,37 @@ $$ ...@@ -296,9 +296,37 @@ $$
因此,我们有: 因此,我们有:
$$ $$
\mathop{\max}_ {\pi'} J(\pi') = \mathop{\max}_{\pi'} J(\pi')-J(\pi) \mathop{\max}_ {\pi'} J(\pi') = \mathop{\max}_{\pi'} (J(\pi')-J(\pi))
$$ $$
$$ $$
= \mathop{\max}_ {\pi'} \mathbb{E}_ {\tau\sim\pi'}[\sum_{t=0}^{\infty}\gamma^{t} A^{\pi}(s_t,a_t)]。 = \mathop{\max}_ {\pi'} \mathbb{E}_ {\tau\sim\pi'}[\sum_{t=0}^{\infty}\gamma^{t} A^{\pi}(s_t,a_t)]。
$$ $$
\ No newline at end of file
上述表达式需要根据 $\pi'$ 的轨迹,然而我们还没有 $\pi'$,这就导致无法进行优化。我们再一次使用可能性来规避这个问题。
$$
J(\pi')-J(\pi) = \mathbb{E}_ {\tau\sim\pi'}[\sum_{t=0}^{\infty}\gamma^{t} A^{\pi}(s_t,a_t)]
$$
$$
= \frac{1}{1-\gamma} \mathbb{E}_ {s\sim d^{\pi'},a\sim\pi'}[A^{\pi}(s,a)]
$$
$$
= \frac{1}{1-\gamma} \mathbb{E}_ {s\sim d^{\pi'},a\sim\pi} [\frac{\pi'(a|s)}{\pi(a|s)}A^{\pi}(s,a)]
$$
$$
\approx \frac{1}{1-\gamma} \mathbb{E}_ {s\sim d^{\pi},a\sim\pi} [\frac{\pi'(a|s)}{\pi(a|s)}A^{\pi}(s,a)]
$$
$$
= \frac{1}{1-\gamma} L_{\pi}(\pi')。
$$
我们称 $L_{\pi}(\pi')$ 为替代目标。一个关键问题是什么时候我们可以做出上述近似。显然,当 $\pi=\pi'$ 时,近似变成了相等。然而这并不是有用的,因为我们希望将当前的策略 $\pi$ 改进为更好的策略 $\pi'$。在下面的信任区域策略优化(TRPO)的推导中,我们给出做出近似的界。
## 5. 信任区域策略优化(Trust Region Policy Optimization)
TRPO [3] 的关键思想是定义一个限制策略更新的信任区域。这个约束在策略空间中而不是在参数空间中,并且称为算法的新步长。通过这种方式,我们可以大致确保策略更新后的新策略比旧策略表现得更好。
\ No newline at end of file
...@@ -81,7 +81,9 @@ $$ ...@@ -81,7 +81,9 @@ $$
$$ $$
第一个等式是因为我们根据策略 $\pi_{i+1}$ 生成第一个动作,然后根据策略 $\pi_{i}$ 生成之后的动作。第四个等式是因为 $1-\epsilon = \sum_{a}[\pi_{i}(a|s)-\frac{\epsilon}{|A|}]$。 第一个等式是因为我们根据策略 $\pi_{i+1}$ 生成第一个动作,然后根据策略 $\pi_{i}$ 生成之后的动作。第四个等式是因为 $1-\epsilon = \sum_{a}[\pi_{i}(a|s)-\frac{\epsilon}{|A|}]$。
根据策略提升定理,我们知道 $Q^{\pi_i}(s,\pi_{i+1}(s)) \geq V^{\pi_{i}}(s)$ 意味着对于所有状态 $s$,$V^{\pi_{i+1}}(s) \geq V^{\pi_{i}}(s)$。证明完毕。$\diamondsuit$ 根据策略提升定理,我们知道 $Q^{\pi_i}(s,\pi_{i+1}(s)) \geq V^{\pi_{i}}(s)$ 意味着对于所有状态 $s$,$V^{\pi_{i+1}}(s) \geq V^{\pi_{i}}(s)$。
证明完毕。$\diamondsuit$
因此,如果我们基于当前的 $\epsilon$-贪婪策略进行 $\epsilon$-贪婪动作,我们的策略实际上是提升的。 因此,如果我们基于当前的 $\epsilon$-贪婪策略进行 $\epsilon$-贪婪动作,我们的策略实际上是提升的。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册