其中,![](img/adb4cb12-b671-4248-8b74-0dc2b334b995.png)是即时奖励,![](img/c41ab863-e019-4bc7-ad8d-7530f9e0190b.png)是来自未来的奖励,也就是说,如果采取行动 a,代理可以从给定的 s 状态到达的 s 状态的贴现效用。
其中,![](img/adb4cb12-b671-4248-8b74-0dc2b334b995.png)是即时奖励,![](img/c41ab863-e019-4bc7-ad8d-7530f9e0190b.png)是来自未来的奖励,也就是说,如果采取行动 a,代理可以从给定的 s 状态到达的 s 状态的贴现效用。
# 解决 Bellman 方程以找到政策
# 解决 Bellman 方程以找到策略
假设在给定的环境中我们有`n`个状态,如果我们看到 Bellman 方程,
假设在给定的环境中我们有`n`个状态,如果我们看到 Bellman 方程,
...
@@ -578,7 +578,7 @@ After learning completion printing the utilities for each states below from stat
...
@@ -578,7 +578,7 @@ After learning completion printing the utilities for each states below from stat