提交 a40a0472 编写于 作者: W wizardforcel

2021-01-17 20:52:49

上级 72531951
...@@ -191,7 +191,7 @@ def cartpole_model(observation_space, action_space): ...@@ -191,7 +191,7 @@ def cartpole_model(observation_space, action_space):
# 实施 DQN 类 # 实施 DQN 类
在本食谱中,我们将使用神经网络完成 DQN。 为此,我们将执行一些关键任务,包括创建目标和策略网络,损失函数和网络优化器,存储学习过程的状态和奖励,预测行为,体验重播以及控制学习过程。 勘探率。 在本食谱中,我们将使用神经网络完成 DQN。 为此,我们将执行一些关键任务,包括创建目标和策略网络,损失函数和网络优化器,存储学习过程的状态和奖励,预测行为,经验回放以及控制学习过程。 勘探率。
# 做好准备 # 做好准备
...@@ -400,7 +400,7 @@ if terminal: ...@@ -400,7 +400,7 @@ if terminal:
break break
``` ```
8. 接下来,我们需要执行一次体验重播 8. 接下来,我们需要执行一次经验回放
```py ```py
dqn.experience_replay() dqn.experience_replay()
......
...@@ -188,7 +188,7 @@ Q 学习是一种非策略算法,因此,在 Q 学习中,我们将有两个 ...@@ -188,7 +188,7 @@ Q 学习是一种非策略算法,因此,在 Q 学习中,我们将有两个
其背后的想法是不追逐一个移动的目标。 让我们举个例子:假设您想训练一头驴走路。 如果您坐在驴上并在其嘴前悬挂胡萝卜,驴可能会向前走,胡萝卜仍与驴保持相同的距离。 但是,与普遍的看法相反,这并不那么有效。 胡萝卜可能会随机反弹,并可能使驴远离其路径。 取而代之的是,通过从驴上下来并站在要驴来的地方使驴和胡萝卜脱钩,这似乎是一个更好的选择。 它提供了一个更稳定的学习环境。 其背后的想法是不追逐一个移动的目标。 让我们举个例子:假设您想训练一头驴走路。 如果您坐在驴上并在其嘴前悬挂胡萝卜,驴可能会向前走,胡萝卜仍与驴保持相同的距离。 但是,与普遍的看法相反,这并不那么有效。 胡萝卜可能会随机反弹,并可能使驴远离其路径。 取而代之的是,通过从驴上下来并站在要驴来的地方使驴和胡萝卜脱钩,这似乎是一个更好的选择。 它提供了一个更稳定的学习环境。
### 体验重播 ### 经验回放
我们可以对算法进行的另一项改进是添加有限的经验和已保存交易记录。 每笔交易都包含学习某些东西所需的所有相关信息。 它是状态,执行的动作,随后的下一个状态以及对该动作给予的奖励的元组。 我们可以对算法进行的另一项改进是添加有限的经验和已保存交易记录。 每笔交易都包含学习某些东西所需的所有相关信息。 它是状态,执行的动作,随后的下一个状态以及对该动作给予的奖励的元组。
......
此差异已折叠。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册