提交 47ceb8de 编写于 作者: X xiaowei_xing

test

上级 74e73ca8
......@@ -59,7 +59,11 @@ $$
### 2.2 网格世界(Aliased Gridworld)
# 图1
<div align=center><img src="img/fig8&9_1.png"/></div>
<div align=center>
图 1:在这个部分可观测的网格环境中,行为体无法区分灰色状态。
</div>
在图 1 的网格世界环境中,假设行为体可以向四个基本的方向移动,即动作空间为 $A={N,S,E,W}$。假设它只能感知当前位置周围的墙,具体而言,它观察每个方向的以下形式的特征:
$$
......@@ -68,11 +72,19 @@ $$
注意,它的观测结果并不能完全代表环境,因为它不能区分两个灰色的方块,这也意味着它的域不是马尔可夫的。因此,确定性策略必须要么学会在灰色方块中一直向左走,要么一直向右走。由于行为体可能陷在环境中的某个角落,所以这两种策略都不是最优的:
# 图2
<div align=center><img src="img/fig8&9_2.png"/></div>
<div align=center>
图 2:对于这个确定性策略,行为体无法“逃离”左上的两个状态。
</div>
而随机策略则可以学习在灰色的状态下随机选择一个方向,从而保证对于任何起始位置,它最终都能获得奖励。一般来说,随机策略有助于克服对抗或非平稳域(adversarial or non-stationary domain)以及状态表示为非马尔可夫的情况。
# 图3
<div align=center><img src="img/fig8&9_3.png"/></div>
<div align=center>
图 3:在灰色状态下以等概率采取动作 $E$ 或 $W$ 的随即策略将在几个时间步内以高概率到达目标处。
</div>
# 3. 策略优化(Policy Optimization)
......@@ -309,7 +321,7 @@ $$
在前面的部分中,我们已经完成了第一个策略梯度算法的大部分工作,该算法对遵循策略 $\pi_{\theta}$ 的多个轨迹采样,同时根据式(15)的梯度估计更新 $\theta$。
# 算法1
<div align=center><img src="img/fig8&9_alg_1.png"/></div>
# 6. 可导策略类(Differentiable Policy Classes)
......@@ -421,7 +433,7 @@ $$
使用前面讨论的基准,这里我们介绍普通策略梯度(vanilla policy gradient)算法。假设基准函数的参数为 $\mathbf{w}$。
# 算法2
<div align=center><img src="img/fig8&9_alg_2.png"/></div>
状态值函数是基准的一个很自然的选择,$b(s_t)=V(s_t)$,这时优势函数为 $A^{\pi}(s,a)=Q^{\pi}(s,a)-V^{\pi}(s)$。然而,由于我们不知道真实的状态值,因此我们使用估计值 $\hat{V}(s_t;\mathbf{w})$ 来代替,这里 $\mathbf{w}$ 为权重向量。我们可以通过蒙特卡洛轨迹采样来同时学习基准函数(状态值函数)的权重向量 $\mathbf{w}$ 和策略的参数 $\theta$。
......@@ -447,17 +459,14 @@ $$
\hat{G}_t^{(1)} = r_t + \gamma V(s_{t+1})
$$
$$
\hat{G}_t^{(2)} = r_t + \gamma r_{t+1} + \gamma^2 V(s_{t+2})
$$
$$
...
$$
$$
\hat{G}_t^{(\text{inf})} = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + ...,
$$
......@@ -468,17 +477,14 @@ $$
\hat{A}_t^{(1)} = r_t + \gamma V(s_{t+1}) - V(s_t)
$$
$$
\hat{A}_t^{(2)} = r_t + \gamma r_{t+1} + \gamma^2 V(s_{t+2}) - V(s_t)
$$
$$
...
$$
$$
\hat{A}_t^{(\text{inf})} = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} - V(s_t),
$$
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册