test

59172a1b · xiaowei_xing · 3bbf1008 · 59172a1b
隐藏空白更改
内联并排

Showing with 5 addition and 1 deletion

docs/14.md docs/14.md +5 -1

未找到文件。
--- a/docs/14.md
+++ b/docs/14.md
@@ -10,4 +10,8 @@

 ## 2. 模型学习（Model Learning）

-我们用 $<S,A,R,T,\gamma>$ 来表示一个 MDP 的模型，由 $\mu$ 参数化。
\ No newline at end of file
+我们用 $<S,A,R,T,\gamma>$ 来表示一个 MDP 的模型，由 $\mu$ 参数化。在模型学习中，我们假设状态空间 $S$ 和 动作空间 $A$ 已知，并且通常还假设状态转移与奖励是相互独立的，即
+
+$$
+P[s_{t+1},r_{t+1}|s_t,a_t] = P[s_{t+1}|s_t,a_t]P[r_{t+1}|s_t,a_t]。
+$$
\ No newline at end of file