2021-01-22 10:58:57

152315b0 · wizardforcel · 91ae0187 · 152315b0
隐藏空白更改
内联并排

Showing with 5 addition and 5 deletion

new/pt-dl-handson/7.md new/pt-dl-handson/7.md +5 -5

未找到文件。
--- a/new/pt-dl-handson/7.md
+++ b/new/pt-dl-handson/7.md
@@ -85,10 +85,10 @@
 MDP 定义有五件事：

 *   有限状态集
-*   一组有限的动作
-*   有限的奖励
+*   有限动作集
+*   有限奖励集
 *   折扣率
-*   环境的一站式动态
+*   环境的单步动态

 我们已经了解了如何指定状态，操作，奖励和折扣率。 让我们找出如何指定环境的一步式动态。

@@ -173,8 +173,8 @@ MDP 定义有五件事：
 我们的代码的训练循环如下所示：

 *   随机初始化`w`![Deep Q-learning](img/B09475_07_007.jpg)
-*   -贪婪
-*   对于所有情节：
+*   ε 贪婪
+*   对于所有剧集：
    *   观察`S`
    *   虽然`S`并非在每个时间步都是终端：
    *   使用![Deep Q-learning](img/B09475_07_008.jpg)从`S`中选择`A`