diff --git a/new/handson-rl-py/08.md b/new/handson-rl-py/08.md index ca2d57751943965adb37139107adae27be383aed..2571154bdfe869e0112cba1eb6604deea0647a98 100644 --- a/new/handson-rl-py/08.md +++ b/new/handson-rl-py/08.md @@ -406,7 +406,7 @@ with tf.Session() as sess: # 优先体验重播 -在 DQN 架构中,我们使用经验重播来消除训练样本之间的相关性。 但是,从重播存储器中均匀采样过渡不是最佳方法。 相反,我们可以确定转换的优先级并根据优先级进行采样。 优先安排过渡有助于网络快速有效地学习。 我们如何确定过渡的优先级? 我们优先考虑具有较高 TD 错误的转换。 我们知道,TD 误差指定了估计的 Q 值和实际 Q 值之间的差。 因此,具有较高 TD 误差的过渡是我们必须关注和学习的过渡,因为这些过渡与我们的估计背道而驰。 凭直觉,让我们说您尝试解决一系列问题,但是您无法解决其中两个问题。 然后,您仅将这两个问题放在首位,以专注于问题所在并尝试解决该问题: +在 DQN 架构中,我们使用经验重播来消除训练样本之间的相关性。 但是,从记忆重放中均匀采样过渡不是最佳方法。 相反,我们可以确定转换的优先级并根据优先级进行采样。 优先安排过渡有助于网络快速有效地学习。 我们如何确定过渡的优先级? 我们优先考虑具有较高 TD 错误的转换。 我们知道,TD 误差指定了估计的 Q 值和实际 Q 值之间的差。 因此,具有较高 TD 误差的过渡是我们必须关注和学习的过渡,因为这些过渡与我们的估计背道而驰。 凭直觉,让我们说您尝试解决一系列问题,但是您无法解决其中两个问题。 然后,您仅将这两个问题放在首位,以专注于问题所在并尝试解决该问题: ![](img/00272.gif) diff --git a/new/handson-rl-py/12.md b/new/handson-rl-py/12.md index e54b86125cf24458050a3aee16d6951ad5bcc4d1..30c91845ee2a7678d58cfa1935e37fae8c15e8cc 100644 --- a/new/handson-rl-py/12.md +++ b/new/handson-rl-py/12.md @@ -526,7 +526,7 @@ def train(self): self.qnet.copy_to(self.target_qnet) ``` -重播存储器中的示例体验: +记忆重放中的示例体验: ```py minibatch = self.experience_replay.sample() diff --git a/new/handson-rl-py/14.md b/new/handson-rl-py/14.md index 5ee99174a78e4ee4386573e9cd0c8671f68290de..43f0aff161be0205fc56860d6820499bfe53d70c 100644 --- a/new/handson-rl-py/14.md +++ b/new/handson-rl-py/14.md @@ -9,7 +9,7 @@ 5. 在基于模型的代理中,使用以前的经验,而在无模型的学习中,则不会有任何以前的经验。 6. 确定性的,随机的,完全可观察的,部分可观察的,离散的连续的,事件的和非事件的。 7. OpenAI Universe 为培训 RL 代理提供了丰富的环境。 -8. 请参阅 RL 的*部分。* +8. 请参阅 RL 的“应用”部分。 # 第 2 章 @@ -28,30 +28,30 @@ 1. 马尔可夫性质指出,未来仅取决于现在而不是过去。 2. MDP 是马尔可夫链的延伸。 它提供了用于建模决策情况的数学框架。 几乎所有的 RL 问题都可以建模为 MDP。 -3. 请参阅*折扣系数*部分。 +3. 请参阅“折扣系数”部分。 4. 折扣系数决定了我们对未来奖励和即时奖励的重视程度。 5. 我们使用 Bellman 函数求解 MDP。 -6. 有关值和 Q 函数的信息,请参见*部分的推导 Bellman 方程。* +6. 有关值和 Q 函数的信息,请参见“推导 Bellman 方程”部分。 7. 值函数指定状态的优劣,而 Q 函数指定状态下的行为的优劣。 -8. 请参阅*值迭代*和*策略迭代*部分。 +8. 请参阅“值迭代”和“策略迭代”部分。 # 第四章 -1. 当环境模型未知时,在 RL 中使用 Monte Carlo 算法。 -2. 请参阅*部分,使用蒙特卡洛*估算 pi 的值。 +1. 当环境模型未知时,在 RL 中使用蒙特卡洛算法。 +2. 请参阅“使用蒙特卡洛估算`pi`的值”部分。 3. 在蒙特卡洛预测中,我们通过取均值回报而不是期望回报来近似值函数。 4. 在蒙特卡洛的每次访问中,我们平均将情节中每次访问州的收益均值化。 但是在首次访问 MC 方法中,我们仅在情节中首次访问状态时才对返回值进行平均。 -5. 请参阅*蒙特卡洛控制*部分。 -6. 请参阅*上策略的蒙特卡洛控制*和*上的策略外的蒙特卡洛控制*部分 -7. 请参阅*部分,让我们和 Monte Carlo* 一起玩二十一点。 +5. 请参阅“蒙特卡洛控制”部分。 +6. 请参阅“策略上的蒙特卡洛控制”和“策略外的蒙特卡洛控制”部分 +7. 请参阅“让我们使用蒙特卡洛玩二十一点”部分。 # 第五章 1. 蒙特卡罗方法仅适用于情节任务,而 TD 学习可应用于情节任务和非情节任务 2. 实际值与预测值之差称为 TD 误差 -3. 请参阅 *TD 预测*和 *TD 控制*部分 -4. 请参阅*部分,使用 Q 学习*解决滑行问题 +3. 请参阅“TD 预测”和“TD 控制”部分 +4. 请参阅“使用 Q 学习解决滑行问题”部分 5. 在 Q 学习中,我们使用 epsilon-greedy 策略采取行动,并且在更新 Q 值的同时,我们仅采取最大行动。 在 SARSA 中,我们使用 epsilon-greedy 策略采取措施,并且在更新 Q 值的同时,我们使用 epsilon-greedy 策略采取措施。 # 第六章 @@ -65,7 +65,7 @@ # 第七章 -1. 在神经元中,我们通过应用称为激活或传递函数的函数 *f()*将非线性引入结果`z`。 请参阅*人工神经元*部分。 +1. 在神经元中,我们通过应用称为激活或传递函数的函数`f()`将非线性引入结果`z`。 请参阅“人工神经元”部分。 2. 激活函数用于引入非线性。 3. 我们计算成本函数相对于权重的梯度以最小化误差。 4. RNN 不仅基于当前输入,而且还基于先前的隐藏状态来预测输出。 @@ -87,7 +87,7 @@ 1. DRQN 利用**递归神经网络**(**RNN**),其中 DQN 利用香草神经网络。 2. 当可以部分观察 MDP 时,不使用 DQN。 -3. 请参阅*带有 DRQN* 的厄运部分。 +3. 请参阅“DRQN 的厄运”部分。 4. 与 DRQN 不同,DARQN 利用注意力机制。 5. DARQN 用于理解和专注于游戏屏幕的特定区域,这一点更为重要。 6. 软硬注意。 @@ -100,7 +100,7 @@ 3. 与 DQN 相比,A3C 需要更少的计算能力和训练时间。 4. 所有代理(员工)都在环境副本中工作,然后全球网络汇总他们的经验。 5. 熵用于确保足够的探索。 -6. 请参阅*部分,A3C 的工作方式*。 +6. 请参阅“A3C 的工作方式”部分。 # 第十一章 @@ -108,19 +108,19 @@ 2. 策略梯度是有效的,因为我们无需计算 Q 函数即可找到最佳策略。 3. Actor 网络的作用是通过调整参数来确定状态中的最佳动作,而 Critic 的作用是评估 Actor 产生的动作。 -4. 请参阅*部分,信任区域策略优化* +4. 请参阅“信任区域策略优化”部分 5. 我们迭代地改进了该策略,并施加了一个约束,即旧策略和新策略之间的 **Kullback-Leibler**(**KL**)差异要小于某个常数。 该约束称为信任区域约束。 6. PPO 通过将约束更改为惩罚项来修改 TRPO 的目标函数,因此我们不想执行共轭梯度。 # 第十二章 1. DQN 直接计算 Q 值,而决斗 DQN 将 Q 值计算分解为值函数和优势函数。 -2. 请参阅*重播存储器*部分。 +2. 请参阅“记忆重放”部分。 3. 当我们使用同一网络来预测目标值和预测值时,会有很多差异,因此我们使用单独的目标网络。 -4. 请参阅*重播存储器*部分。 -5. 请参阅*决斗网络部分。* +4. 请参阅“记忆重放”部分。 +5. 请参阅“决斗网络”部分。 6. 决斗 DQN 将 Q 值计算分解为值函数和优势函数,而双 DQN 使用两个 Q 函数来避免高估。 -7. 请参阅“决斗*网络*”部分。 +7. 请参阅“决斗网络”部分。 # 第十三章