From 25c94b7de5449b3633b5dbef0af32a8ddf3f28af Mon Sep 17 00:00:00 2001
From: xiaowei_xing <997427575@qq.com>
Date: Thu, 16 Jan 2020 21:27:56 +0900
Subject: [PATCH] test

---
 docs/11&12.md | 24 +++++++++++++++++++++++-
 1 file changed, 23 insertions(+), 1 deletion(-)

diff --git a/docs/11&12.md b/docs/11&12.md
index 1747691..96b2906 100644
--- a/docs/11&12.md
+++ b/docs/11&12.md
@@ -223,4 +223,26 @@ $$
 $$
 \pi(a|h_t) = P[Q(s,a)>Q(s,a'),\forall a'\neq a|h_t]。
 \tag{13}
-$$
\ No newline at end of file
+$$
+
+我们可以利用贝叶斯定律来计算后验 $P[P,R|h_t]$，然后从该分布中采样一个 MDP，用规划算法求解并据此采取动作。
+
+### 4.4 信息状态搜索（Information State Search）
+
+与 MAB 情况一样，我们可以构造一个附加了 MDP 信息状态的扩展 MDP，从而得到一个扩展的状态空间来得到贝叶斯自适应 MDP。解决这个问题将给我们带来最优的探索/利用权衡。然而，状态空间的大小限制了们只能使用基于仿真的搜索方法。
+
+## 5. 结论（Conclusion）
+
+总的来说，有几种不同的探索方法，有些比其他的更有原则性。
+
+$\bullet$ 普通的探索方法：$\epsilon$-贪婪方法
+
+$\bullet$ 乐观初始化：想法很简单但通常效果很好
+
+$\bullet$ 乐观面对不确定性：偏好价值不确定的动作，如 UCB
+
+$\bullet$ 概率匹配：选择有最大概率是最优的动作，如 汤普森采样
+
+$\bullet$ 信息状态空间：建立并解决扩展 MDP，因此直接包含了信息的价值
+
+## 参考文献
\ No newline at end of file
-- 
GitLab