Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
白麟_嗷呜
apachecn-dl-zh
提交
b4368435
A
apachecn-dl-zh
项目概览
白麟_嗷呜
/
apachecn-dl-zh
与 Fork 源项目一致
Fork自
OpenDocCN / apachecn-dl-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-dl-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
b4368435
编写于
12月 21, 2020
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2020-12-21 23:21:32
上级
c3d8b02c
变更
3
隐藏空白更改
内联
并排
Showing
3 changed file
with
21 addition
and
21 deletion
+21
-21
new/handson-rl-py/08.md
new/handson-rl-py/08.md
+1
-1
new/handson-rl-py/12.md
new/handson-rl-py/12.md
+1
-1
new/handson-rl-py/14.md
new/handson-rl-py/14.md
+19
-19
未找到文件。
new/handson-rl-py/08.md
浏览文件 @
b4368435
...
...
@@ -406,7 +406,7 @@ with tf.Session() as sess:
# 优先体验重播
在 DQN 架构中,我们使用经验重播来消除训练样本之间的相关性。 但是,从
重播存储器
中均匀采样过渡不是最佳方法。 相反,我们可以确定转换的优先级并根据优先级进行采样。 优先安排过渡有助于网络快速有效地学习。 我们如何确定过渡的优先级? 我们优先考虑具有较高 TD 错误的转换。 我们知道,TD 误差指定了估计的 Q 值和实际 Q 值之间的差。 因此,具有较高 TD 误差的过渡是我们必须关注和学习的过渡,因为这些过渡与我们的估计背道而驰。 凭直觉,让我们说您尝试解决一系列问题,但是您无法解决其中两个问题。 然后,您仅将这两个问题放在首位,以专注于问题所在并尝试解决该问题:
在 DQN 架构中,我们使用经验重播来消除训练样本之间的相关性。 但是,从
记忆重放
中均匀采样过渡不是最佳方法。 相反,我们可以确定转换的优先级并根据优先级进行采样。 优先安排过渡有助于网络快速有效地学习。 我们如何确定过渡的优先级? 我们优先考虑具有较高 TD 错误的转换。 我们知道,TD 误差指定了估计的 Q 值和实际 Q 值之间的差。 因此,具有较高 TD 误差的过渡是我们必须关注和学习的过渡,因为这些过渡与我们的估计背道而驰。 凭直觉,让我们说您尝试解决一系列问题,但是您无法解决其中两个问题。 然后,您仅将这两个问题放在首位,以专注于问题所在并尝试解决该问题:
![](
img/00272.gif
)
...
...
new/handson-rl-py/12.md
浏览文件 @
b4368435
...
...
@@ -526,7 +526,7 @@ def train(self):
self
.
qnet
.
copy_to
(
self
.
target_qnet
)
```
重播存储器
中的示例体验:
记忆重放
中的示例体验:
```
py
minibatch
=
self
.
experience_replay
.
sample
()
...
...
new/handson-rl-py/14.md
浏览文件 @
b4368435
...
...
@@ -9,7 +9,7 @@
5.
在基于模型的代理中,使用以前的经验,而在无模型的学习中,则不会有任何以前的经验。
6.
确定性的,随机的,完全可观察的,部分可观察的,离散的连续的,事件的和非事件的。
7.
OpenAI Universe 为培训 RL 代理提供了丰富的环境。
8.
请参阅 RL 的
*部分。*
8.
请参阅 RL 的
“应用”部分。
# 第 2 章
...
...
@@ -28,30 +28,30 @@
1.
马尔可夫性质指出,未来仅取决于现在而不是过去。
2.
MDP 是马尔可夫链的延伸。 它提供了用于建模决策情况的数学框架。 几乎所有的 RL 问题都可以建模为 MDP。
3.
请参阅
*折扣系数*
部分。
3.
请参阅
“折扣系数”
部分。
4.
折扣系数决定了我们对未来奖励和即时奖励的重视程度。
5.
我们使用 Bellman 函数求解 MDP。
6.
有关值和 Q 函数的信息,请参见
*部分的推导 Bellman 方程。*
6.
有关值和 Q 函数的信息,请参见
“推导 Bellman 方程”部分。
7.
值函数指定状态的优劣,而 Q 函数指定状态下的行为的优劣。
8.
请参阅
*值迭代*
和
*策略迭代*
部分。
8.
请参阅
“值迭代”和“策略迭代”
部分。
# 第四章
1.
当环境模型未知时,在 RL 中使用
Monte Carlo
算法。
2.
请参阅
*部分,使用蒙特卡洛*
估算 pi 的值
。
1.
当环境模型未知时,在 RL 中使用
蒙特卡洛
算法。
2.
请参阅
“使用蒙特卡洛估算
`pi`
的值”部分
。
3.
在蒙特卡洛预测中,我们通过取均值回报而不是期望回报来近似值函数。
4.
在蒙特卡洛的每次访问中,我们平均将情节中每次访问州的收益均值化。 但是在首次访问 MC 方法中,我们仅在情节中首次访问状态时才对返回值进行平均。
5.
请参阅
*蒙特卡洛控制*
部分。
6.
请参阅
*上策略的蒙特卡洛控制*
和
*上的策略外的蒙特卡洛控制*
部分
7.
请参阅
*部分,让我们和 Monte Carlo*
一起玩二十一点
。
5.
请参阅
“蒙特卡洛控制”
部分。
6.
请参阅
“策略上的蒙特卡洛控制”和“策略外的蒙特卡洛控制”
部分
7.
请参阅
“让我们使用蒙特卡洛玩二十一点”部分
。
# 第五章
1.
蒙特卡罗方法仅适用于情节任务,而 TD 学习可应用于情节任务和非情节任务
2.
实际值与预测值之差称为 TD 误差
3.
请参阅
*TD 预测*
和
*TD 控制*
部分
4.
请参阅
*部分,使用 Q 学习*
解决滑行问题
3.
请参阅
“TD 预测”和“TD 控制”
部分
4.
请参阅
“使用 Q 学习解决滑行问题”部分
5.
在 Q 学习中,我们使用 epsilon-greedy 策略采取行动,并且在更新 Q 值的同时,我们仅采取最大行动。 在 SARSA 中,我们使用 epsilon-greedy 策略采取措施,并且在更新 Q 值的同时,我们使用 epsilon-greedy 策略采取措施。
# 第六章
...
...
@@ -65,7 +65,7 @@
# 第七章
1.
在神经元中,我们通过应用称为激活或传递函数的函数
*f()*
将非线性引入结果
`z`
。 请参阅
*人工神经元*
部分。
1.
在神经元中,我们通过应用称为激活或传递函数的函数
`f()`
将非线性引入结果
`z`
。 请参阅“人工神经元”
部分。
2.
激活函数用于引入非线性。
3.
我们计算成本函数相对于权重的梯度以最小化误差。
4.
RNN 不仅基于当前输入,而且还基于先前的隐藏状态来预测输出。
...
...
@@ -87,7 +87,7 @@
1.
DRQN 利用
**递归神经网络**
(
**RNN**
),其中 DQN 利用香草神经网络。
2.
当可以部分观察 MDP 时,不使用 DQN。
3.
请参阅
*带有 DRQN*
的厄运
部分。
3.
请参阅
“DRQN 的厄运”
部分。
4.
与 DRQN 不同,DARQN 利用注意力机制。
5.
DARQN 用于理解和专注于游戏屏幕的特定区域,这一点更为重要。
6.
软硬注意。
...
...
@@ -100,7 +100,7 @@
3.
与 DQN 相比,A3C 需要更少的计算能力和训练时间。
4.
所有代理(员工)都在环境副本中工作,然后全球网络汇总他们的经验。
5.
熵用于确保足够的探索。
6.
请参阅
*部分,A3C 的工作方式*
。
6.
请参阅
“A3C 的工作方式”部分
。
# 第十一章
...
...
@@ -108,19 +108,19 @@
2.
策略梯度是有效的,因为我们无需计算 Q 函数即可找到最佳策略。
3.
Actor 网络的作用是通过调整参数来确定状态中的最佳动作,而 Critic 的作用是评估 Actor 产生的动作。
4.
请参阅
*部分,信任区域策略优化*
4.
请参阅
“信任区域策略优化”部分
5.
我们迭代地改进了该策略,并施加了一个约束,即旧策略和新策略之间的
**Kullback-Leibler**
(
**KL**
)差异要小于某个常数。 该约束称为信任区域约束。
6.
PPO 通过将约束更改为惩罚项来修改 TRPO 的目标函数,因此我们不想执行共轭梯度。
# 第十二章
1.
DQN 直接计算 Q 值,而决斗 DQN 将 Q 值计算分解为值函数和优势函数。
2.
请参阅
*重播存储器*
部分。
2.
请参阅
“记忆重放”
部分。
3.
当我们使用同一网络来预测目标值和预测值时,会有很多差异,因此我们使用单独的目标网络。
4.
请参阅
*重播存储器*
部分。
5.
请参阅
*决斗网络部分。*
4.
请参阅
“记忆重放”
部分。
5.
请参阅
“决斗网络”部分。
6.
决斗 DQN 将 Q 值计算分解为值函数和优势函数,而双 DQN 使用两个 Q 函数来避免高估。
7.
请参阅“决斗
*网络*
”部分。
7.
请参阅“决斗
网络
”部分。
# 第十三章
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录