Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
大唐爆破僧
apachecn-dl-zh
提交
b82c71c5
A
apachecn-dl-zh
项目概览
大唐爆破僧
/
apachecn-dl-zh
与 Fork 源项目一致
Fork自
OpenDocCN / apachecn-dl-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-dl-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
b82c71c5
编写于
1月 22, 2021
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2021-01-22 22:33:10
上级
003f6430
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
8 addition
and
8 deletion
+8
-8
new/rl-tf/05.md
new/rl-tf/05.md
+8
-8
未找到文件。
new/rl-tf/05.md
浏览文件 @
b82c71c5
...
...
@@ -59,11 +59,11 @@ DeepMind 在研究期刊 **Nature** 上发表了他们的论文[《通过深度
# 蒙特卡洛学习
蒙特卡洛(Monte Carlo)是用于模型免费学习的最简单方法,在该方法中,代理会观察情节中前进的所有步骤(即前瞻)的回报。 因此,在时间
`t`
时的总估计报酬为
!
[](
img/3dc9f398-49e4-4d6c-9ad4-35090d9306ff.png
)
:
蒙特卡洛(Monte Carlo)是用于模型免费学习的最简单方法,在该方法中,代理会观察情节中前进的所有步骤(即前瞻)的回报。 因此,在时间
`t`
时的总估计报酬为
`R[t]`
:
![](
img/142010fa-0c37-4b54-b47d-e27ca48bd3d6.png
)
这里,
!
[](
img/c80dd93d-7873-4467-8c24-8eedb1e0075a.png
)
是折扣因子,
`T`
是情节结束的时间步长。 我们可以使用以下代码初始化蒙特卡洛学习技术:
这里,
`γ`
是折扣因子,
`T`
是情节结束的时间步长。 我们可以使用以下代码初始化蒙特卡洛学习技术:
```
py
Initialize
:
...
...
@@ -191,7 +191,7 @@ Q 学习可以轻松地应用于具有离散状态空间和动作的环境,但
终端状态条件:
*
**剧集**
在
位置!
[](
img/b3a4291b-84d5-499b-a1ca-0a266d37c608.png
)
0.6
结束
*
**剧集**
在
大于等于 0.6 的位置
结束
正如我们现在看到的 Q 学习的参数一样,我们现在将研究解决山地车问题的 Q 学习的实现。
...
...
@@ -699,14 +699,14 @@ Episode 10 with Reward : 38.7923903502 at epsilon 0.9002 in steps 126
车杆环境中的状态是一个 4 维连续空间,其中每个维如下:
*
`x`
:表示购物车位置(最小值为 -2.4,最大值为 2.4)
*
`x_dot`
:表示推车速度(最小值
=-!
[](
img/f0d92660-1037-45a4-a905-f22cb45fe740.png
)
,最大值= !
[](
img/ec6de968-7ab1-4b6f-878f-fb54e27d6c45.png
)
)
*
`theta`
:显示以弧度为单位的角度(最小值
= -0.73,最大值=
0.73)
*
`theta_dot`
:显示角速度(最小值
=-!
[](
img/7de21974-59ca-4569-a5f7-e9fb9b9166f1.png
)
,最大值= !
[](
img/53b0fcd2-43c7-4b95-a66c-c5822cc6b7ef.png
)
)
*
`x_dot`
:表示推车速度(最小值
为
`-∞`
)
*
`theta`
:显示以弧度为单位的角度(最小值
为 -0.73,最大值为
0.73)
*
`theta_dot`
:显示角速度(最小值
为
`-∞`
,最大值为
`∞`
)
在给定状态下的每一步,都有两种可能的动作,即推车可以向左或向右移动,并且每一步收到的奖励为 1。这里,只要杆子靠近 垂直,购物车在边界内。 如果发生以下情况,则情节被视为结束:
*
极点下降超过某个角度,即超过
!
[](
img/76201eae-2461-41ea-8feb-b04379d77fd2.png
)
0.20944 弧度
*
推车超出框架左侧或右侧太远,即超出
!
[](
img/21a1066b-d92d-4739-8441-f366541c8b73.png
)
2.4
*
极点下降超过某个角度,即超过
±
0.20944 弧度
*
推车超出框架左侧或右侧太远,即超出
±
2.4
因此,该问题的目的是将杆保持在接近垂直的位置,而推车不会越过边界越长。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录