test

25c94b7d · xiaowei_xing · a4da9a4b · 25c94b7d
隐藏空白更改
内联并排

Showing with 23 addition and 1 deletion

docs/11&12.md docs/11&12.md +23 -1

未找到文件。
--- a/docs/11&12.md
+++ b/docs/11&12.md
@@ -223,4 +223,26 @@ $$
 $$
 \pi(a|h_t) = P[Q(s,a)>Q(s,a'),\forall a'\neq a|h_t]。
 \tag{13}
-$$
\ No newline at end of file
+$$
+
+我们可以利用贝叶斯定律来计算后验 $P[P,R|h_t]$，然后从该分布中采样一个 MDP，用规划算法求解并据此采取动作。
+
+### 4.4 信息状态搜索（Information State Search）
+
+与 MAB 情况一样，我们可以构造一个附加了 MDP 信息状态的扩展 MDP，从而得到一个扩展的状态空间来得到贝叶斯自适应 MDP。解决这个问题将给我们带来最优的探索/利用权衡。然而，状态空间的大小限制了们只能使用基于仿真的搜索方法。
+
+## 5. 结论（Conclusion）
+
+总的来说，有几种不同的探索方法，有些比其他的更有原则性。
+
+$\bullet$ 普通的探索方法：$\epsilon$-贪婪方法
+
+$\bullet$ 乐观初始化：想法很简单但通常效果很好
+
+$\bullet$ 乐观面对不确定性：偏好价值不确定的动作，如 UCB
+
+$\bullet$ 概率匹配：选择有最大概率是最优的动作，如 汤普森采样
+
+$\bullet$ 信息状态空间：建立并解决扩展 MDP，因此直接包含了信息的价值
+
+## 参考文献
\ No newline at end of file