test

47ceb8de · xiaowei_xing · 74e73ca8 · 47ceb8de · 47ceb8de · 47ceb8de
6 changed file
--- a/docs/8&9.md
+++ b/docs/8&9.md
@@ -59,7 +59,11 @@ $$

 ### 2.2 网格世界（Aliased Gridworld）

-# 图1
+<div align=center><img src="img/fig8&9_1.png"/></div>
+
+<div align=center>
+图 1：在这个部分可观测的网格环境中，行为体无法区分灰色状态。
+</div>

 在图 1 的网格世界环境中，假设行为体可以向四个基本的方向移动，即动作空间为 $A={N,S,E,W}$。假设它只能感知当前位置周围的墙，具体而言，它观察每个方向的以下形式的特征：
 $$
@@ -68,11 +72,19 @@ $$

 注意，它的观测结果并不能完全代表环境，因为它不能区分两个灰色的方块，这也意味着它的域不是马尔可夫的。因此，确定性策略必须要么学会在灰色方块中一直向左走，要么一直向右走。由于行为体可能陷在环境中的某个角落，所以这两种策略都不是最优的：

-# 图2
+<div align=center><img src="img/fig8&9_2.png"/></div>
+
+<div align=center>
+图 2：对于这个确定性策略，行为体无法“逃离”左上的两个状态。
+</div>

 而随机策略则可以学习在灰色的状态下随机选择一个方向，从而保证对于任何起始位置，它最终都能获得奖励。一般来说，随机策略有助于克服对抗或非平稳域（adversarial or non-stationary domain）以及状态表示为非马尔可夫的情况。

-# 图3
+<div align=center><img src="img/fig8&9_3.png"/></div>
+
+<div align=center>
+图 3：在灰色状态下以等概率采取动作 $E$ 或 $W$ 的随即策略将在几个时间步内以高概率到达目标处。
+</div>

 # 3. 策略优化（Policy Optimization）

@@ -309,7 +321,7 @@ $$

 在前面的部分中，我们已经完成了第一个策略梯度算法的大部分工作，该算法对遵循策略 $\pi_{\theta}$ 的多个轨迹采样，同时根据式（15）的梯度估计更新 $\theta$。

-# 算法1
+<div align=center><img src="img/fig8&9_alg_1.png"/></div>

 # 6. 可导策略类（Differentiable Policy Classes)

@@ -421,7 +433,7 @@ $$

 使用前面讨论的基准，这里我们介绍普通策略梯度（vanilla policy gradient）算法。假设基准函数的参数为 $\mathbf{w}$。

-# 算法2
+<div align=center><img src="img/fig8&9_alg_2.png"/></div>

 状态值函数是基准的一个很自然的选择，$b(s_t)=V(s_t)$，这时优势函数为 $A^{\pi}(s,a)=Q^{\pi}(s,a)-V^{\pi}(s)$。然而，由于我们不知道真实的状态值，因此我们使用估计值 $\hat{V}(s_t;\mathbf{w})$ 来代替，这里 $\mathbf{w}$ 为权重向量。我们可以通过蒙特卡洛轨迹采样来同时学习基准函数（状态值函数）的权重向量 $\mathbf{w}$ 和策略的参数 $\theta$。

@@ -447,17 +459,14 @@ $$
 \hat{G}_t^{(1)} = r_t + \gamma V(s_{t+1})
 $$

-
 $$
 \hat{G}_t^{(2)} = r_t + \gamma r_{t+1} + \gamma^2 V(s_{t+2})
 $$

-
 $$
 ...
 $$

-
 $$
 \hat{G}_t^{(\text{inf})} = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + ...，
 $$
@@ -468,17 +477,14 @@ $$
 \hat{A}_t^{(1)} = r_t + \gamma V(s_{t+1}) - V(s_t)
 $$

-
 $$
 \hat{A}_t^{(2)} = r_t + \gamma r_{t+1} + \gamma^2 V(s_{t+2}) - V(s_t)
 $$

-
 $$
 ...
 $$

-
 $$
 \hat{A}_t^{(\text{inf})} = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} - V(s_t)，
 $$

--- a/docs/img/fig8&9_1.png
+++ b/docs/img/fig8&9_1.png
--- a/docs/img/fig8&9_2.png
+++ b/docs/img/fig8&9_2.png
--- a/docs/img/fig8&9_3.png
+++ b/docs/img/fig8&9_3.png
--- a/docs/img/fig8&9_alg_1.png
+++ b/docs/img/fig8&9_alg_1.png
--- a/docs/img/fig8&9_alg_2.png
+++ b/docs/img/fig8&9_alg_2.png