From 25c94b7de5449b3633b5dbef0af32a8ddf3f28af Mon Sep 17 00:00:00 2001 From: xiaowei_xing <997427575@qq.com> Date: Thu, 16 Jan 2020 21:27:56 +0900 Subject: [PATCH] test --- docs/11&12.md | 24 +++++++++++++++++++++++- 1 file changed, 23 insertions(+), 1 deletion(-) diff --git a/docs/11&12.md b/docs/11&12.md index 1747691..96b2906 100644 --- a/docs/11&12.md +++ b/docs/11&12.md @@ -223,4 +223,26 @@ $$ $$ \pi(a|h_t) = P[Q(s,a)>Q(s,a'),\forall a'\neq a|h_t]。 \tag{13} -$$ \ No newline at end of file +$$ + +我们可以利用贝叶斯定律来计算后验 $P[P,R|h_t]$,然后从该分布中采样一个 MDP,用规划算法求解并据此采取动作。 + +### 4.4 信息状态搜索(Information State Search) + +与 MAB 情况一样,我们可以构造一个附加了 MDP 信息状态的扩展 MDP,从而得到一个扩展的状态空间来得到贝叶斯自适应 MDP。解决这个问题将给我们带来最优的探索/利用权衡。然而,状态空间的大小限制了们只能使用基于仿真的搜索方法。 + +## 5. 结论(Conclusion) + +总的来说,有几种不同的探索方法,有些比其他的更有原则性。 + +$\bullet$ 普通的探索方法:$\epsilon$-贪婪方法 + +$\bullet$ 乐观初始化:想法很简单但通常效果很好 + +$\bullet$ 乐观面对不确定性:偏好价值不确定的动作,如 UCB + +$\bullet$ 概率匹配:选择有最大概率是最优的动作,如 汤普森采样 + +$\bullet$ 信息状态空间:建立并解决扩展 MDP,因此直接包含了信息的价值 + +## 参考文献 \ No newline at end of file -- GitLab