提交 152315b0 编写于 作者: W wizardforcel

2021-01-22 10:58:57

上级 91ae0187
......@@ -85,10 +85,10 @@
MDP 定义有五件事:
* 有限状态集
* 一组有限的动作
* 有限的奖励
* 有限动作集
* 有限奖励集
* 折扣率
* 环境的一站式动态
* 环境的单步动态
我们已经了解了如何指定状态,操作,奖励和折扣率。 让我们找出如何指定环境的一步式动态。
......@@ -173,8 +173,8 @@ MDP 定义有五件事:
我们的代码的训练循环如下所示:
* 随机初始化`w`![Deep Q-learning](img/B09475_07_007.jpg)
* -贪婪
* 对于所有情节
* ε 贪婪
* 对于所有剧集
* 观察`S`
* 虽然`S`并非在每个时间步都是终端:
* 使用![Deep Q-learning](img/B09475_07_008.jpg)`S`中选择`A`
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册