Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
大唐爆破僧
apachecn-dl-zh
提交
0be53cd3
A
apachecn-dl-zh
项目概览
大唐爆破僧
/
apachecn-dl-zh
与 Fork 源项目一致
Fork自
OpenDocCN / apachecn-dl-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-dl-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
0be53cd3
编写于
1月 18, 2021
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2021-01-18 17:45:12
上级
1ae9eb06
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
3 addition
and
3 deletion
+3
-3
new/pt-dl-handson/7.md
new/pt-dl-handson/7.md
+3
-3
未找到文件。
new/pt-dl-handson/7.md
浏览文件 @
0be53cd3
...
...
@@ -184,7 +184,7 @@ MDP 定义有五件事:
这里要注意的一件事是,我们将使用相同的 ε 贪婪策略在“步骤 6”中选择动作,并在“步骤 8”中更新相同的策略。 这种算法称为策略上算法。 从某种意义上讲,这是很好的,因为在我们观察和更新同一策略时,将更快地学习该策略。 它收敛非常快。 它也有一些缺点,即所学习的策略和用于决策的策略彼此紧密地联系在一起。 如果我们想要一个更具探索性的策略,以便在“步骤 6”中选择观察结果,并在“步骤 8”中更新更优化的策略,该怎么办? 这样的算法被称为非策略算法。
Q 学习是一种非策略算法,因此,在 Q 学习中,我们将有两个策略。 我们用来推断动作的策略将是 ε 贪婪策略,并且我们将其称为策略网络。 我们将使用更新步骤更新的网络将是我们的目标网络。 那只能由一个贪婪的策略来控制,这意味着我们将始终选择
epsilon
等于零的最大值。 我们不会对此策略采取随机措施。 我们这样做是为了使我们更快地朝着更高的价值前进。 我们将通过不时复制策略网的权重(例如每隔一集一次)来更新目标网的权重。
Q 学习是一种非策略算法,因此,在 Q 学习中,我们将有两个策略。 我们用来推断动作的策略将是 ε 贪婪策略,并且我们将其称为策略网络。 我们将使用更新步骤更新的网络将是我们的目标网络。 那只能由一个贪婪的策略来控制,这意味着我们将始终选择
`ε`
等于零的最大值。 我们不会对此策略采取随机措施。 我们这样做是为了使我们更快地朝着更高的价值前进。 我们将通过不时复制策略网的权重(例如每隔一集一次)来更新目标网的权重。
其背后的想法是不追逐一个移动的目标。 让我们举个例子:假设您想训练一头驴走路。 如果您坐在驴上并在其嘴前悬挂胡萝卜,驴可能会向前走,胡萝卜仍与驴保持相同的距离。 但是,与普遍的看法相反,这并不那么有效。 胡萝卜可能会随机反弹,并可能使驴远离其路径。 取而代之的是,通过从驴上下来并站在要驴来的地方使驴和胡萝卜脱钩,这似乎是一个更好的选择。 它提供了一个更稳定的学习环境。
...
...
@@ -434,7 +434,7 @@ def optimize_model():
现在我们有了状态动作对,以及与之相关的值。 这对应于实际的 Q 函数。
接下来,我们需要找到期望的 Q 函数。 我们创建一个由 0 和 1 组成的掩码,将非 0 状态映射为 1,将 0 状态(终端状态)映射为 0。通过算法的设计,我们知道终端状态将始终具有值 0。
state
的值为正,但终端状态的值为 0。掩码如下所示:
接下来,我们需要找到期望的 Q 函数。 我们创建一个由 0 和 1 组成的掩码,将非 0 状态映射为 1,将 0 状态(终端状态)映射为 0。通过算法的设计,我们知道终端状态将始终具有值 0。
状态
的值为正,但终端状态的值为 0。掩码如下所示:
![
Gym
](
img/B09475_07_09.jpg
)
...
...
@@ -442,7 +442,7 @@ def optimize_model():
![
Gym
](
img/B09475_07_10.jpg
)
最后,我们计算期望的 Q 函数。 根据我们先前的讨论,它将是
R +伽玛
(下一个状态值)。 然后,我们根据实际 Q 函数和预期 Q 函数计算损失,然后将错误反向传播到策略网络(请记住
`target_net`
处于
`eval`
模式)。 我们还使用梯度钳制来确保梯度较小且不会转移得太远。
最后,我们计算期望的 Q 函数。 根据我们先前的讨论,它将是
`R + Gamma`
(下一个状态值)。 然后,我们根据实际 Q 函数和预期 Q 函数计算损失,然后将错误反向传播到策略网络(请记住
`target_net`
处于
`eval`
模式)。 我们还使用梯度钳制来确保梯度较小且不会转移得太远。
训练神经网络将花费一些时间,因为该过程将渲染每个帧并计算该错误。 我们本可以使用一种更简单的方法,直接获取速度和位置来表示损失函数,并且由于不需要渲染每一帧,因此可以花费更少的时间进行训练。 它只会直接从
`env.state`
接受输入。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录