2021-01-22 22:33:10

b82c71c5 · wizardforcel · 003f6430 · b82c71c5
隐藏空白更改
内联并排

Showing with 8 addition and 8 deletion

new/rl-tf/05.md new/rl-tf/05.md +8 -8

未找到文件。
--- a/new/rl-tf/05.md
+++ b/new/rl-tf/05.md
@@ -59,11 +59,11 @@ DeepMind 在研究期刊 **Nature** 上发表了他们的论文[《通过深度

 # 蒙特卡洛学习

-蒙特卡洛（Monte Carlo）是用于模型免费学习的最简单方法，在该方法中，代理会观察情节中前进的所有步骤（即前瞻）的回报。 因此，在时间`t`时的总估计报酬为![](img/3dc9f398-49e4-4d6c-9ad4-35090d9306ff.png)：
+蒙特卡洛（Monte Carlo）是用于模型免费学习的最简单方法，在该方法中，代理会观察情节中前进的所有步骤（即前瞻）的回报。 因此，在时间`t`时的总估计报酬为`R[t]`：

 ![](img/142010fa-0c37-4b54-b47d-e27ca48bd3d6.png)

-这里，![](img/c80dd93d-7873-4467-8c24-8eedb1e0075a.png)是折扣因子，`T`是情节结束的时间步长。 我们可以使用以下代码初始化蒙特卡洛学习技术：
+这里，`γ`是折扣因子，`T`是情节结束的时间步长。 我们可以使用以下代码初始化蒙特卡洛学习技术：

 ```py
 Initialize:
@@ -191,7 +191,7 @@ Q 学习可以轻松地应用于具有离散状态空间和动作的环境，但

 终端状态条件：

-*   **剧集**在位置![](img/b3a4291b-84d5-499b-a1ca-0a266d37c608.png) 0.6 结束
+*   **剧集**在大于等于 0.6 的位置结束

 正如我们现在看到的 Q 学习的参数一样，我们现在将研究解决山地车问题的 Q 学习的实现。

@@ -699,14 +699,14 @@ Episode 10 with Reward : 38.7923903502 at epsilon 0.9002 in steps 126
 车杆环境中的状态是一个 4 维连续空间，其中每个维如下：

 *   `x`：表示购物车位置（最小值为 -2.4，最大值为 2.4）
-*   `x_dot`：表示推车速度（最小值=-![](img/f0d92660-1037-45a4-a905-f22cb45fe740.png)，最大值= ![](img/ec6de968-7ab1-4b6f-878f-fb54e27d6c45.png)）
-*   `theta`：显示以弧度为单位的角度（最小值= -0.73，最大值= 0.73）
-*   `theta_dot`：显示角速度（最小值=-![](img/7de21974-59ca-4569-a5f7-e9fb9b9166f1.png)，最大值= ![](img/53b0fcd2-43c7-4b95-a66c-c5822cc6b7ef.png)）
+*   `x_dot`：表示推车速度（最小值为`-∞`）
+*   `theta`：显示以弧度为单位的角度（最小值为 -0.73，最大值为 0.73）
+*   `theta_dot`：显示角速度（最小值为`-∞`，最大值为`∞`）

 在给定状态下的每一步，都有两种可能的动作，即推车可以向左或向右移动，并且每一步收到的奖励为 1。这里，只要杆子靠近 垂直，购物车在边界内。 如果发生以下情况，则情节被视为结束：

-*   极点下降超过某个角度，即超过![](img/76201eae-2461-41ea-8feb-b04379d77fd2.png) 0.20944 弧度
-*   推车超出框架左侧或右侧太远，即超出![](img/21a1066b-d92d-4739-8441-f366541c8b73.png) 2.4
+*   极点下降超过某个角度，即超过 ±0.20944 弧度
+*   推车超出框架左侧或右侧太远，即超出 ±2.4

 因此，该问题的目的是将杆保持在接近垂直的位置，而推车不会越过边界越长。