提交 59172a1b 编写于 作者: X xiaowei_xing

test

上级 3bbf1008
......@@ -10,4 +10,8 @@
## 2. 模型学习(Model Learning)
我们用 $<S,A,R,T,\gamma>$ 来表示一个 MDP 的模型,由 $\mu$ 参数化。
\ No newline at end of file
我们用 $<S,A,R,T,\gamma>$ 来表示一个 MDP 的模型,由 $\mu$ 参数化。在模型学习中,我们假设状态空间 $S$ 和 动作空间 $A$ 已知,并且通常还假设状态转移与奖励是相互独立的,即
$$
P[s_{t+1},r_{t+1}|s_t,a_t] = P[s_{t+1}|s_t,a_t]P[r_{t+1}|s_t,a_t]。
$$
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册