提交 0be53cd3 编写于 作者: W wizardforcel

2021-01-18 17:45:12

上级 1ae9eb06
......@@ -184,7 +184,7 @@ MDP 定义有五件事:
这里要注意的一件事是,我们将使用相同的 ε 贪婪策略在“步骤 6”中选择动作,并在“步骤 8”中更新相同的策略。 这种算法称为策略上算法。 从某种意义上讲,这是很好的,因为在我们观察和更新同一策略时,将更快地学习该策略。 它收敛非常快。 它也有一些缺点,即所学习的策略和用于决策的策略彼此紧密地联系在一起。 如果我们想要一个更具探索性的策略,以便在“步骤 6”中选择观察结果,并在“步骤 8”中更新更优化的策略,该怎么办? 这样的算法被称为非策略算法。
Q 学习是一种非策略算法,因此,在 Q 学习中,我们将有两个策略。 我们用来推断动作的策略将是 ε 贪婪策略,并且我们将其称为策略网络。 我们将使用更新步骤更新的网络将是我们的目标网络。 那只能由一个贪婪的策略来控制,这意味着我们将始终选择 epsilon 等于零的最大值。 我们不会对此策略采取随机措施。 我们这样做是为了使我们更快地朝着更高的价值前进。 我们将通过不时复制策略网的权重(例如每隔一集一次)来更新目标网的权重。
Q 学习是一种非策略算法,因此,在 Q 学习中,我们将有两个策略。 我们用来推断动作的策略将是 ε 贪婪策略,并且我们将其称为策略网络。 我们将使用更新步骤更新的网络将是我们的目标网络。 那只能由一个贪婪的策略来控制,这意味着我们将始终选择`ε`等于零的最大值。 我们不会对此策略采取随机措施。 我们这样做是为了使我们更快地朝着更高的价值前进。 我们将通过不时复制策略网的权重(例如每隔一集一次)来更新目标网的权重。
其背后的想法是不追逐一个移动的目标。 让我们举个例子:假设您想训练一头驴走路。 如果您坐在驴上并在其嘴前悬挂胡萝卜,驴可能会向前走,胡萝卜仍与驴保持相同的距离。 但是,与普遍的看法相反,这并不那么有效。 胡萝卜可能会随机反弹,并可能使驴远离其路径。 取而代之的是,通过从驴上下来并站在要驴来的地方使驴和胡萝卜脱钩,这似乎是一个更好的选择。 它提供了一个更稳定的学习环境。
......@@ -434,7 +434,7 @@ def optimize_model():
现在我们有了状态动作对,以及与之相关的值。 这对应于实际的 Q 函数。
接下来,我们需要找到期望的 Q 函数。 我们创建一个由 0 和 1 组成的掩码,将非 0 状态映射为 1,将 0 状态(终端状态)映射为 0。通过算法的设计,我们知道终端状态将始终具有值 0。 state 的值为正,但终端状态的值为 0。掩码如下所示:
接下来,我们需要找到期望的 Q 函数。 我们创建一个由 0 和 1 组成的掩码,将非 0 状态映射为 1,将 0 状态(终端状态)映射为 0。通过算法的设计,我们知道终端状态将始终具有值 0。 状态的值为正,但终端状态的值为 0。掩码如下所示:
![Gym](img/B09475_07_09.jpg)
......@@ -442,7 +442,7 @@ def optimize_model():
![Gym](img/B09475_07_10.jpg)
最后,我们计算期望的 Q 函数。 根据我们先前的讨论,它将是 R +伽玛(下一个状态值)。 然后,我们根据实际 Q 函数和预期 Q 函数计算损失,然后将错误反向传播到策略网络(请记住`target_net`处于`eval`模式)。 我们还使用梯度钳制来确保梯度较小且不会转移得太远。
最后,我们计算期望的 Q 函数。 根据我们先前的讨论,它将是`R + Gamma`(下一个状态值)。 然后,我们根据实际 Q 函数和预期 Q 函数计算损失,然后将错误反向传播到策略网络(请记住`target_net`处于`eval`模式)。 我们还使用梯度钳制来确保梯度较小且不会转移得太远。
训练神经网络将花费一些时间,因为该过程将渲染每个帧并计算该错误。 我们本可以使用一种更简单的方法,直接获取速度和位置来表示损失函数,并且由于不需要渲染每一帧,因此可以花费更少的时间进行训练。 它只会直接从`env.state`接受输入。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册