2021-01-18 17:45:12

0be53cd3 · wizardforcel · 1ae9eb06 · 0be53cd3
隐藏空白更改
内联并排

Showing with 3 addition and 3 deletion

new/pt-dl-handson/7.md new/pt-dl-handson/7.md +3 -3

未找到文件。
--- a/new/pt-dl-handson/7.md
+++ b/new/pt-dl-handson/7.md
@@ -184,7 +184,7 @@ MDP 定义有五件事：

 这里要注意的一件事是，我们将使用相同的 ε 贪婪策略在“步骤 6”中选择动作，并在“步骤 8”中更新相同的策略。 这种算法称为策略上算法。 从某种意义上讲，这是很好的，因为在我们观察和更新同一策略时，将更快地学习该策略。 它收敛非常快。 它也有一些缺点，即所学习的策略和用于决策的策略彼此紧密地联系在一起。 如果我们想要一个更具探索性的策略，以便在“步骤 6”中选择观察结果，并在“步骤 8”中更新更优化的策略，该怎么办？ 这样的算法被称为非策略算法。

-Q 学习是一种非策略算法，因此，在 Q 学习中，我们将有两个策略。 我们用来推断动作的策略将是 ε 贪婪策略，并且我们将其称为策略网络。 我们将使用更新步骤更新的网络将是我们的目标网络。 那只能由一个贪婪的策略来控制，这意味着我们将始终选择 epsilon 等于零的最大值。 我们不会对此策略采取随机措施。 我们这样做是为了使我们更快地朝着更高的价值前进。 我们将通过不时复制策略网的权重（例如每隔一集一次）来更新目标网的权重。
+Q 学习是一种非策略算法，因此，在 Q 学习中，我们将有两个策略。 我们用来推断动作的策略将是 ε 贪婪策略，并且我们将其称为策略网络。 我们将使用更新步骤更新的网络将是我们的目标网络。 那只能由一个贪婪的策略来控制，这意味着我们将始终选择`ε`等于零的最大值。 我们不会对此策略采取随机措施。 我们这样做是为了使我们更快地朝着更高的价值前进。 我们将通过不时复制策略网的权重（例如每隔一集一次）来更新目标网的权重。

 其背后的想法是不追逐一个移动的目标。 让我们举个例子：假设您想训练一头驴走路。 如果您坐在驴上并在其嘴前悬挂胡萝卜，驴可能会向前走，胡萝卜仍与驴保持相同的距离。 但是，与普遍的看法相反，这并不那么有效。 胡萝卜可能会随机反弹，并可能使驴远离其路径。 取而代之的是，通过从驴上下来并站在要驴来的地方使驴和胡萝卜脱钩，这似乎是一个更好的选择。 它提供了一个更稳定的学习环境。

@@ -434,7 +434,7 @@ def optimize_model():

 现在我们有了状态动作对，以及与之相关的值。 这对应于实际的 Q 函数。

-接下来，我们需要找到期望的 Q 函数。 我们创建一个由 0 和 1 组成的掩码，将非 0 状态映射为 1，将 0 状态（终端状态）映射为 0。通过算法的设计，我们知道终端状态将始终具有值 0。 state 的值为正，但终端状态的值为 0。掩码如下所示：
+接下来，我们需要找到期望的 Q 函数。 我们创建一个由 0 和 1 组成的掩码，将非 0 状态映射为 1，将 0 状态（终端状态）映射为 0。通过算法的设计，我们知道终端状态将始终具有值 0。 状态的值为正，但终端状态的值为 0。掩码如下所示：

 ![Gym](img/B09475_07_09.jpg)

@@ -442,7 +442,7 @@ def optimize_model():

 ![Gym](img/B09475_07_10.jpg)

-最后，我们计算期望的 Q 函数。 根据我们先前的讨论，它将是 R +伽玛（下一个状态值）。 然后，我们根据实际 Q 函数和预期 Q 函数计算损失，然后将错误反向传播到策略网络（请记住`target_net`处于`eval`模式）。 我们还使用梯度钳制来确保梯度较小且不会转移得太远。
+最后，我们计算期望的 Q 函数。 根据我们先前的讨论，它将是`R + Gamma`（下一个状态值）。 然后，我们根据实际 Q 函数和预期 Q 函数计算损失，然后将错误反向传播到策略网络（请记住`target_net`处于`eval`模式）。 我们还使用梯度钳制来确保梯度较小且不会转移得太远。

 训练神经网络将花费一些时间，因为该过程将渲染每个帧并计算该错误。 我们本可以使用一种更简单的方法，直接获取速度和位置来表示损失函数，并且由于不需要渲染每一帧，因此可以花费更少的时间进行训练。 它只会直接从`env.state`接受输入。