Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
大唐爆破僧
apachecn-dl-zh
提交
a40a0472
A
apachecn-dl-zh
项目概览
大唐爆破僧
/
apachecn-dl-zh
与 Fork 源项目一致
Fork自
OpenDocCN / apachecn-dl-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-dl-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
a40a0472
编写于
1月 17, 2021
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2021-01-17 20:52:49
上级
72531951
变更
3
展开全部
隐藏空白更改
内联
并排
Showing
3 changed file
with
36 addition
and
36 deletion
+36
-36
new/pt-ai-fund/7.md
new/pt-ai-fund/7.md
+2
-2
new/pt-dl-handson/7.md
new/pt-dl-handson/7.md
+1
-1
new/rl-tf/05.md
new/rl-tf/05.md
+33
-33
未找到文件。
new/pt-ai-fund/7.md
浏览文件 @
a40a0472
...
@@ -191,7 +191,7 @@ def cartpole_model(observation_space, action_space):
...
@@ -191,7 +191,7 @@ def cartpole_model(observation_space, action_space):
# 实施 DQN 类
# 实施 DQN 类
在本食谱中,我们将使用神经网络完成 DQN。 为此,我们将执行一些关键任务,包括创建目标和策略网络,损失函数和网络优化器,存储学习过程的状态和奖励,预测行为,
体验重播
以及控制学习过程。 勘探率。
在本食谱中,我们将使用神经网络完成 DQN。 为此,我们将执行一些关键任务,包括创建目标和策略网络,损失函数和网络优化器,存储学习过程的状态和奖励,预测行为,
经验回放
以及控制学习过程。 勘探率。
# 做好准备
# 做好准备
...
@@ -400,7 +400,7 @@ if terminal:
...
@@ -400,7 +400,7 @@ if terminal:
break
break
```
```
8.
接下来,我们需要执行一次
体验重播
:
8.
接下来,我们需要执行一次
经验回放
:
```
py
```
py
dqn
.
experience_replay
()
dqn
.
experience_replay
()
...
...
new/pt-dl-handson/7.md
浏览文件 @
a40a0472
...
@@ -188,7 +188,7 @@ Q 学习是一种非策略算法,因此,在 Q 学习中,我们将有两个
...
@@ -188,7 +188,7 @@ Q 学习是一种非策略算法,因此,在 Q 学习中,我们将有两个
其背后的想法是不追逐一个移动的目标。 让我们举个例子:假设您想训练一头驴走路。 如果您坐在驴上并在其嘴前悬挂胡萝卜,驴可能会向前走,胡萝卜仍与驴保持相同的距离。 但是,与普遍的看法相反,这并不那么有效。 胡萝卜可能会随机反弹,并可能使驴远离其路径。 取而代之的是,通过从驴上下来并站在要驴来的地方使驴和胡萝卜脱钩,这似乎是一个更好的选择。 它提供了一个更稳定的学习环境。
其背后的想法是不追逐一个移动的目标。 让我们举个例子:假设您想训练一头驴走路。 如果您坐在驴上并在其嘴前悬挂胡萝卜,驴可能会向前走,胡萝卜仍与驴保持相同的距离。 但是,与普遍的看法相反,这并不那么有效。 胡萝卜可能会随机反弹,并可能使驴远离其路径。 取而代之的是,通过从驴上下来并站在要驴来的地方使驴和胡萝卜脱钩,这似乎是一个更好的选择。 它提供了一个更稳定的学习环境。
###
体验重播
###
经验回放
我们可以对算法进行的另一项改进是添加有限的经验和已保存交易记录。 每笔交易都包含学习某些东西所需的所有相关信息。 它是状态,执行的动作,随后的下一个状态以及对该动作给予的奖励的元组。
我们可以对算法进行的另一项改进是添加有限的经验和已保存交易记录。 每笔交易都包含学习某些东西所需的所有相关信息。 它是状态,执行的动作,随后的下一个状态以及对该动作给予的奖励的元组。
...
...
new/rl-tf/05.md
浏览文件 @
a40a0472
此差异已折叠。
点击以展开。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录