提交 b4368435 编写于 作者: W wizardforcel

2020-12-21 23:21:32

上级 c3d8b02c
......@@ -406,7 +406,7 @@ with tf.Session() as sess:
# 优先体验重播
在 DQN 架构中,我们使用经验重播来消除训练样本之间的相关性。 但是,从重播存储器中均匀采样过渡不是最佳方法。 相反,我们可以确定转换的优先级并根据优先级进行采样。 优先安排过渡有助于网络快速有效地学习。 我们如何确定过渡的优先级? 我们优先考虑具有较高 TD 错误的转换。 我们知道,TD 误差指定了估计的 Q 值和实际 Q 值之间的差。 因此,具有较高 TD 误差的过渡是我们必须关注和学习的过渡,因为这些过渡与我们的估计背道而驰。 凭直觉,让我们说您尝试解决一系列问题,但是您无法解决其中两个问题。 然后,您仅将这两个问题放在首位,以专注于问题所在并尝试解决该问题:
在 DQN 架构中,我们使用经验重播来消除训练样本之间的相关性。 但是,从记忆重放中均匀采样过渡不是最佳方法。 相反,我们可以确定转换的优先级并根据优先级进行采样。 优先安排过渡有助于网络快速有效地学习。 我们如何确定过渡的优先级? 我们优先考虑具有较高 TD 错误的转换。 我们知道,TD 误差指定了估计的 Q 值和实际 Q 值之间的差。 因此,具有较高 TD 误差的过渡是我们必须关注和学习的过渡,因为这些过渡与我们的估计背道而驰。 凭直觉,让我们说您尝试解决一系列问题,但是您无法解决其中两个问题。 然后,您仅将这两个问题放在首位,以专注于问题所在并尝试解决该问题:
![](img/00272.gif)
......
......@@ -526,7 +526,7 @@ def train(self):
self.qnet.copy_to(self.target_qnet)
```
重播存储器中的示例体验:
记忆重放中的示例体验:
```py
minibatch = self.experience_replay.sample()
......
......@@ -9,7 +9,7 @@
5. 在基于模型的代理中,使用以前的经验,而在无模型的学习中,则不会有任何以前的经验。
6. 确定性的,随机的,完全可观察的,部分可观察的,离散的连续的,事件的和非事件的。
7. OpenAI Universe 为培训 RL 代理提供了丰富的环境。
8. 请参阅 RL 的*部分。*
8. 请参阅 RL 的“应用”部分。
# 第 2 章
......@@ -28,30 +28,30 @@
1. 马尔可夫性质指出,未来仅取决于现在而不是过去。
2. MDP 是马尔可夫链的延伸。 它提供了用于建模决策情况的数学框架。 几乎所有的 RL 问题都可以建模为 MDP。
3. 请参阅*折扣系数*部分。
3. 请参阅“折扣系数”部分。
4. 折扣系数决定了我们对未来奖励和即时奖励的重视程度。
5. 我们使用 Bellman 函数求解 MDP。
6. 有关值和 Q 函数的信息,请参见*部分的推导 Bellman 方程。*
6. 有关值和 Q 函数的信息,请参见“推导 Bellman 方程”部分。
7. 值函数指定状态的优劣,而 Q 函数指定状态下的行为的优劣。
8. 请参阅*值迭代**策略迭代*部分。
8. 请参阅“值迭代”和“策略迭代”部分。
# 第四章
1. 当环境模型未知时,在 RL 中使用 Monte Carlo 算法。
2. 请参阅*部分,使用蒙特卡洛*估算 pi 的值
1. 当环境模型未知时,在 RL 中使用蒙特卡洛算法。
2. 请参阅“使用蒙特卡洛估算`pi`的值”部分
3. 在蒙特卡洛预测中,我们通过取均值回报而不是期望回报来近似值函数。
4. 在蒙特卡洛的每次访问中,我们平均将情节中每次访问州的收益均值化。 但是在首次访问 MC 方法中,我们仅在情节中首次访问状态时才对返回值进行平均。
5. 请参阅*蒙特卡洛控制*部分。
6. 请参阅*上策略的蒙特卡洛控制**上的策略外的蒙特卡洛控制*部分
7. 请参阅*部分,让我们和 Monte Carlo* 一起玩二十一点
5. 请参阅“蒙特卡洛控制”部分。
6. 请参阅“策略上的蒙特卡洛控制”和“策略外的蒙特卡洛控制”部分
7. 请参阅“让我们使用蒙特卡洛玩二十一点”部分
# 第五章
1. 蒙特卡罗方法仅适用于情节任务,而 TD 学习可应用于情节任务和非情节任务
2. 实际值与预测值之差称为 TD 误差
3. 请参阅 *TD 预测**TD 控制*部分
4. 请参阅*部分,使用 Q 学习*解决滑行问题
3. 请参阅“TD 预测”和“TD 控制”部分
4. 请参阅“使用 Q 学习解决滑行问题”部分
5. 在 Q 学习中,我们使用 epsilon-greedy 策略采取行动,并且在更新 Q 值的同时,我们仅采取最大行动。 在 SARSA 中,我们使用 epsilon-greedy 策略采取措施,并且在更新 Q 值的同时,我们使用 epsilon-greedy 策略采取措施。
# 第六章
......@@ -65,7 +65,7 @@
# 第七章
1. 在神经元中,我们通过应用称为激活或传递函数的函数 *f()*将非线性引入结果`z`。 请参阅*人工神经元*部分。
1. 在神经元中,我们通过应用称为激活或传递函数的函数`f()`将非线性引入结果`z`。 请参阅“人工神经元”部分。
2. 激活函数用于引入非线性。
3. 我们计算成本函数相对于权重的梯度以最小化误差。
4. RNN 不仅基于当前输入,而且还基于先前的隐藏状态来预测输出。
......@@ -87,7 +87,7 @@
1. DRQN 利用**递归神经网络****RNN**),其中 DQN 利用香草神经网络。
2. 当可以部分观察 MDP 时,不使用 DQN。
3. 请参阅*带有 DRQN* 的厄运部分。
3. 请参阅“DRQN 的厄运”部分。
4. 与 DRQN 不同,DARQN 利用注意力机制。
5. DARQN 用于理解和专注于游戏屏幕的特定区域,这一点更为重要。
6. 软硬注意。
......@@ -100,7 +100,7 @@
3. 与 DQN 相比,A3C 需要更少的计算能力和训练时间。
4. 所有代理(员工)都在环境副本中工作,然后全球网络汇总他们的经验。
5. 熵用于确保足够的探索。
6. 请参阅*部分,A3C 的工作方式*
6. 请参阅“A3C 的工作方式”部分
# 第十一章
......@@ -108,19 +108,19 @@
2. 策略梯度是有效的,因为我们无需计算 Q 函数即可找到最佳策略。
3. Actor 网络的作用是通过调整参数来确定状态中的最佳动作,而 Critic 的作用是评估 Actor 产生的动作。
4. 请参阅*部分,信任区域策略优化*
4. 请参阅“信任区域策略优化”部分
5. 我们迭代地改进了该策略,并施加了一个约束,即旧策略和新策略之间的 **Kullback-Leibler****KL**)差异要小于某个常数。 该约束称为信任区域约束。
6. PPO 通过将约束更改为惩罚项来修改 TRPO 的目标函数,因此我们不想执行共轭梯度。
# 第十二章
1. DQN 直接计算 Q 值,而决斗 DQN 将 Q 值计算分解为值函数和优势函数。
2. 请参阅*重播存储器*部分。
2. 请参阅“记忆重放”部分。
3. 当我们使用同一网络来预测目标值和预测值时,会有很多差异,因此我们使用单独的目标网络。
4. 请参阅*重播存储器*部分。
5. 请参阅*决斗网络部分。*
4. 请参阅“记忆重放”部分。
5. 请参阅“决斗网络”部分。
6. 决斗 DQN 将 Q 值计算分解为值函数和优势函数,而双 DQN 使用两个 Q 函数来避免高估。
7. 请参阅“决斗*网络*”部分。
7. 请参阅“决斗网络”部分。
# 第十三章
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册