From 59172a1b3dbe4acda416af01531c85b5a07424dc Mon Sep 17 00:00:00 2001
From: xiaowei_xing <997427575@qq.com>
Date: Fri, 17 Jan 2020 17:35:02 +0900
Subject: [PATCH] test

---
 docs/14.md | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/docs/14.md b/docs/14.md
index eccb734..22adf97 100644
--- a/docs/14.md
+++ b/docs/14.md
@@ -10,4 +10,8 @@
 
 ## 2. 模型学习（Model Learning）
 
-我们用 $<S,A,R,T,\gamma>$ 来表示一个 MDP 的模型，由 $\mu$ 参数化。
\ No newline at end of file
+我们用 $<S,A,R,T,\gamma>$ 来表示一个 MDP 的模型，由 $\mu$ 参数化。在模型学习中，我们假设状态空间 $S$ 和 动作空间 $A$ 已知，并且通常还假设状态转移与奖励是相互独立的，即
+
+$$
+P[s_{t+1},r_{t+1}|s_t,a_t] = P[s_{t+1}|s_t,a_t]P[r_{t+1}|s_t,a_t]。
+$$
\ No newline at end of file
-- 
GitLab