提交 b82c71c5 编写于 作者: W wizardforcel

2021-01-22 22:33:10

上级 003f6430
......@@ -59,11 +59,11 @@ DeepMind 在研究期刊 **Nature** 上发表了他们的论文[《通过深度
# 蒙特卡洛学习
蒙特卡洛(Monte Carlo)是用于模型免费学习的最简单方法,在该方法中,代理会观察情节中前进的所有步骤(即前瞻)的回报。 因此,在时间`t`时的总估计报酬为![](img/3dc9f398-49e4-4d6c-9ad4-35090d9306ff.png)
蒙特卡洛(Monte Carlo)是用于模型免费学习的最简单方法,在该方法中,代理会观察情节中前进的所有步骤(即前瞻)的回报。 因此,在时间`t`时的总估计报酬为`R[t]`
![](img/142010fa-0c37-4b54-b47d-e27ca48bd3d6.png)
这里,![](img/c80dd93d-7873-4467-8c24-8eedb1e0075a.png)是折扣因子,`T`是情节结束的时间步长。 我们可以使用以下代码初始化蒙特卡洛学习技术:
这里,`γ`是折扣因子,`T`是情节结束的时间步长。 我们可以使用以下代码初始化蒙特卡洛学习技术:
```py
Initialize:
......@@ -191,7 +191,7 @@ Q 学习可以轻松地应用于具有离散状态空间和动作的环境,但
终端状态条件:
* **剧集**位置![](img/b3a4291b-84d5-499b-a1ca-0a266d37c608.png) 0.6 结束
* **剧集**大于等于 0.6 的位置结束
正如我们现在看到的 Q 学习的参数一样,我们现在将研究解决山地车问题的 Q 学习的实现。
......@@ -699,14 +699,14 @@ Episode 10 with Reward : 38.7923903502 at epsilon 0.9002 in steps 126
车杆环境中的状态是一个 4 维连续空间,其中每个维如下:
* `x`:表示购物车位置(最小值为 -2.4,最大值为 2.4)
* `x_dot`:表示推车速度(最小值=-![](img/f0d92660-1037-45a4-a905-f22cb45fe740.png),最大值= ![](img/ec6de968-7ab1-4b6f-878f-fb54e27d6c45.png)
* `theta`:显示以弧度为单位的角度(最小值= -0.73,最大值= 0.73)
* `theta_dot`:显示角速度(最小值=-![](img/7de21974-59ca-4569-a5f7-e9fb9b9166f1.png),最大值= ![](img/53b0fcd2-43c7-4b95-a66c-c5822cc6b7ef.png)
* `x_dot`:表示推车速度(最小值`-∞`
* `theta`:显示以弧度为单位的角度(最小值为 -0.73,最大值为 0.73)
* `theta_dot`:显示角速度(最小值`-∞`,最大值为`∞`
在给定状态下的每一步,都有两种可能的动作,即推车可以向左或向右移动,并且每一步收到的奖励为 1。这里,只要杆子靠近 垂直,购物车在边界内。 如果发生以下情况,则情节被视为结束:
* 极点下降超过某个角度,即超过![](img/76201eae-2461-41ea-8feb-b04379d77fd2.png) 0.20944 弧度
* 推车超出框架左侧或右侧太远,即超出![](img/21a1066b-d92d-4739-8441-f366541c8b73.png) 2.4
* 极点下降超过某个角度,即超过 ±0.20944 弧度
* 推车超出框架左侧或右侧太远,即超出 ±2.4
因此,该问题的目的是将杆保持在接近垂直的位置,而推车不会越过边界越长。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册