From 59172a1b3dbe4acda416af01531c85b5a07424dc Mon Sep 17 00:00:00 2001 From: xiaowei_xing <997427575@qq.com> Date: Fri, 17 Jan 2020 17:35:02 +0900 Subject: [PATCH] test --- docs/14.md | 6 +++++- 1 file changed, 5 insertions(+), 1 deletion(-) diff --git a/docs/14.md b/docs/14.md index eccb734..22adf97 100644 --- a/docs/14.md +++ b/docs/14.md @@ -10,4 +10,8 @@ ## 2. 模型学习(Model Learning) -我们用 $$ 来表示一个 MDP 的模型,由 $\mu$ 参数化。 \ No newline at end of file +我们用 $$ 来表示一个 MDP 的模型,由 $\mu$ 参数化。在模型学习中,我们假设状态空间 $S$ 和 动作空间 $A$ 已知,并且通常还假设状态转移与奖励是相互独立的,即 + +$$ +P[s_{t+1},r_{t+1}|s_t,a_t] = P[s_{t+1}|s_t,a_t]P[r_{t+1}|s_t,a_t]。 +$$ \ No newline at end of file -- GitLab