2020-12-21 23:21:32

b4368435 · wizardforcel · c3d8b02c · b4368435 · b4368435 · b4368435
隐藏空白更改
内联并排

Showing with 21 addition and 21 deletion

new/handson-rl-py/08.md new/handson-rl-py/08.md +1 -1

new/handson-rl-py/12.md new/handson-rl-py/12.md +1 -1

new/handson-rl-py/14.md new/handson-rl-py/14.md +19 -19

未找到文件。
--- a/new/handson-rl-py/08.md
+++ b/new/handson-rl-py/08.md
@@ -406,7 +406,7 @@ with tf.Session() as sess:

 # 优先体验重播

-在 DQN 架构中，我们使用经验重播来消除训练样本之间的相关性。 但是，从重播存储器中均匀采样过渡不是最佳方法。 相反，我们可以确定转换的优先级并根据优先级进行采样。 优先安排过渡有助于网络快速有效地学习。 我们如何确定过渡的优先级？ 我们优先考虑具有较高 TD 错误的转换。 我们知道，TD 误差指定了估计的 Q 值和实际 Q 值之间的差。 因此，具有较高 TD 误差的过渡是我们必须关注和学习的过渡，因为这些过渡与我们的估计背道而驰。 凭直觉，让我们说您尝试解决一系列问题，但是您无法解决其中两个问题。 然后，您仅将这两个问题放在首位，以专注于问题所在并尝试解决该问题：
+在 DQN 架构中，我们使用经验重播来消除训练样本之间的相关性。 但是，从记忆重放中均匀采样过渡不是最佳方法。 相反，我们可以确定转换的优先级并根据优先级进行采样。 优先安排过渡有助于网络快速有效地学习。 我们如何确定过渡的优先级？ 我们优先考虑具有较高 TD 错误的转换。 我们知道，TD 误差指定了估计的 Q 值和实际 Q 值之间的差。 因此，具有较高 TD 误差的过渡是我们必须关注和学习的过渡，因为这些过渡与我们的估计背道而驰。 凭直觉，让我们说您尝试解决一系列问题，但是您无法解决其中两个问题。 然后，您仅将这两个问题放在首位，以专注于问题所在并尝试解决该问题：

 ![](img/00272.gif)


--- a/new/handson-rl-py/12.md
+++ b/new/handson-rl-py/12.md
@@ -526,7 +526,7 @@ def train(self):
            self.qnet.copy_to(self.target_qnet)
 ```

-重播存储器中的示例体验：
+记忆重放中的示例体验：

 ```py
        minibatch = self.experience_replay.sample()

--- a/new/handson-rl-py/14.md
+++ b/new/handson-rl-py/14.md
@@ -9,7 +9,7 @@
 5.  在基于模型的代理中，使用以前的经验，而在无模型的学习中，则不会有任何以前的经验。
 6.  确定性的，随机的，完全可观察的，部分可观察的，离散的连续的，事件的和非事件的。
 7.  OpenAI Universe 为培训 RL 代理提供了丰富的环境。
-8.  请参阅 RL 的*部分。*
+8.  请参阅 RL 的“应用”部分。

 # 第 2 章

@@ -28,30 +28,30 @@

 1.  马尔可夫性质指出，未来仅取决于现在而不是过去。
 2.  MDP 是马尔可夫链的延伸。 它提供了用于建模决策情况的数学框架。 几乎所有的 RL 问题都可以建模为 MDP。
-3.  请参阅*折扣系数*部分。
+3.  请参阅“折扣系数”部分。
 4.  折扣系数决定了我们对未来奖励和即时奖励的重视程度。
 5.  我们使用 Bellman 函数求解 MDP。
-6.  有关值和 Q 函数的信息，请参见*部分的推导 Bellman 方程。*
+6.  有关值和 Q 函数的信息，请参见“推导 Bellman 方程”部分。
 7.  值函数指定状态的优劣，而 Q 函数指定状态下的行为的优劣。
-8.  请参阅*值迭代*和*策略迭代*部分。
+8.  请参阅“值迭代”和“策略迭代”部分。

 # 第四章

-1.  当环境模型未知时，在 RL 中使用 Monte Carlo 算法。
-2.  请参阅*部分，使用蒙特卡洛*估算 pi 的值。
+1.  当环境模型未知时，在 RL 中使用蒙特卡洛算法。
+2.  请参阅“使用蒙特卡洛估算`pi`的值”部分。
 3.  在蒙特卡洛预测中，我们通过取均值回报而不是期望回报来近似值函数。
 4.  在蒙特卡洛的每次访问中，我们平均将情节中每次访问州的收益均值化。 但是在首次访问 MC 方法中，我们仅在情节中首次访问状态时才对返回值进行平均。

-5.  请参阅*蒙特卡洛控制*部分。
-6.  请参阅*上策略的蒙特卡洛控制*和*上的策略外的蒙特卡洛控制*部分
-7.  请参阅*部分，让我们和 Monte Carlo* 一起玩二十一点。
+5.  请参阅“蒙特卡洛控制”部分。
+6.  请参阅“策略上的蒙特卡洛控制”和“策略外的蒙特卡洛控制”部分
+7.  请参阅“让我们使用蒙特卡洛玩二十一点”部分。

 # 第五章

 1.  蒙特卡罗方法仅适用于情节任务，而 TD 学习可应用于情节任务和非情节任务
 2.  实际值与预测值之差称为 TD 误差
-3.  请参阅 *TD 预测*和 *TD 控制*部分
-4.  请参阅*部分，使用 Q 学习*解决滑行问题
+3.  请参阅“TD 预测”和“TD 控制”部分
+4.  请参阅“使用 Q 学习解决滑行问题”部分
 5.  在 Q 学习中，我们使用 epsilon-greedy 策略采取行动，并且在更新 Q 值的同时，我们仅采取最大行动。 在 SARSA 中，我们使用 epsilon-greedy 策略采取措施，并且在更新 Q 值的同时，我们使用 epsilon-greedy 策略采取措施。

 # 第六章
@@ -65,7 +65,7 @@

 # 第七章

-1.  在神经元中，我们通过应用称为激活或传递函数的函数 *f（）*将非线性引入结果`z`。 请参阅*人工神经元*部分。
+1.  在神经元中，我们通过应用称为激活或传递函数的函数`f()`将非线性引入结果`z`。 请参阅“人工神经元”部分。
 2.  激活函数用于引入非线性。
 3.  我们计算成本函数相对于权重的梯度以最小化误差。
 4.  RNN 不仅基于当前输入，而且还基于先前的隐藏状态来预测输出。
@@ -87,7 +87,7 @@

 1.  DRQN 利用**递归神经网络**（**RNN**），其中 DQN 利用香草神经网络。
 2.  当可以部分观察 MDP 时，不使用 DQN。
-3.  请参阅*带有 DRQN* 的厄运部分。
+3.  请参阅“DRQN 的厄运”部分。
 4.  与 DRQN 不同，DARQN 利用注意力机制。
 5.  DARQN 用于理解和专注于游戏屏幕的特定区域，这一点更为重要。
 6.  软硬注意。
@@ -100,7 +100,7 @@
 3.  与 DQN 相比，A3C 需要更少的计算能力和训练时间。
 4.  所有代理（员工）都在环境副本中工作，然后全球网络汇总他们的经验。
 5.  熵用于确保足够的探索。
-6.  请参阅*部分，A3C 的工作方式*。
+6.  请参阅“A3C 的工作方式”部分。

 # 第十一章

@@ -108,19 +108,19 @@
 2.  策略梯度是有效的，因为我们无需计算 Q 函数即可找到最佳策略。
 3.  Actor 网络的作用是通过调整参数来确定状态中的最佳动作，而 Critic 的作用是评估 Actor 产生的动作。

-4.  请参阅*部分，信任区域策略优化*
+4.  请参阅“信任区域策略优化”部分
 5.  我们迭代地改进了该策略，并施加了一个约束，即旧策略和新策略之间的 **Kullback-Leibler**（**KL**）差异要小于某个常数。 该约束称为信任区域约束。
 6.  PPO 通过将约束更改为惩罚项来修改 TRPO 的目标函数，因此我们不想执行共轭梯度。

 # 第十二章

 1.  DQN 直接计算 Q 值，而决斗 DQN 将 Q 值计算分解为值函数和优势函数。
-2.  请参阅*重播存储器*部分。
+2.  请参阅“记忆重放”部分。
 3.  当我们使用同一网络来预测目标值和预测值时，会有很多差异，因此我们使用单独的目标网络。
-4.  请参阅*重播存储器*部分。
-5.  请参阅*决斗网络部分。*
+4.  请参阅“记忆重放”部分。
+5.  请参阅“决斗网络”部分。
 6.  决斗 DQN 将 Q 值计算分解为值函数和优势函数，而双 DQN 使用两个 Q 函数来避免高估。
-7.  请参阅“决斗*网络*”部分。
+7.  请参阅“决斗网络”部分。

 # 第十三章