2021-01-17 20:52:49

a40a0472 · wizardforcel · 72531951 · a40a0472 · a40a0472 · a40a0472
展开全部隐藏空白更改
内联并排

Showing with 36 addition and 36 deletion

new/pt-ai-fund/7.md new/pt-ai-fund/7.md +2 -2

new/pt-dl-handson/7.md new/pt-dl-handson/7.md +1 -1

new/rl-tf/05.md new/rl-tf/05.md +33 -33

未找到文件。
--- a/new/pt-ai-fund/7.md
+++ b/new/pt-ai-fund/7.md
@@ -191,7 +191,7 @@ def cartpole_model(observation_space, action_space):
 # 实施 DQN 类
-在本食谱中，我们将使用神经网络完成 DQN。 为此，我们将执行一些关键任务，包括创建目标和策略网络，损失函数和网络优化器，存储学习过程的状态和奖励，预测行为，体验重播以及控制学习过程。 勘探率。
+在本食谱中，我们将使用神经网络完成 DQN。 为此，我们将执行一些关键任务，包括创建目标和策略网络，损失函数和网络优化器，存储学习过程的状态和奖励，预测行为，经验回放以及控制学习过程。 勘探率。
 # 做好准备
@@ -400,7 +400,7 @@ if terminal:
    break    
 ```
-8.  接下来，我们需要执行一次体验重播：
+8.  接下来，我们需要执行一次经验回放：
 ```py
 dqn.experience_replay()

--- a/new/pt-dl-handson/7.md
+++ b/new/pt-dl-handson/7.md
@@ -188,7 +188,7 @@ Q 学习是一种非策略算法，因此，在 Q 学习中，我们将有两个
 其背后的想法是不追逐一个移动的目标。 让我们举个例子：假设您想训练一头驴走路。 如果您坐在驴上并在其嘴前悬挂胡萝卜，驴可能会向前走，胡萝卜仍与驴保持相同的距离。 但是，与普遍的看法相反，这并不那么有效。 胡萝卜可能会随机反弹，并可能使驴远离其路径。 取而代之的是，通过从驴上下来并站在要驴来的地方使驴和胡萝卜脱钩，这似乎是一个更好的选择。 它提供了一个更稳定的学习环境。
-### 体验重播
+### 经验回放
 我们可以对算法进行的另一项改进是添加有限的经验和已保存交易记录。 每笔交易都包含学习某些东西所需的所有相关信息。 它是状态，执行的动作，随后的下一个状态以及对该动作给予的奖励的元组。

--- a/new/rl-tf/05.md
+++ b/new/rl-tf/05.md