提交 25c94b7d 编写于 作者: X xiaowei_xing

test

上级 a4da9a4b
......@@ -223,4 +223,26 @@ $$
$$
\pi(a|h_t) = P[Q(s,a)>Q(s,a'),\forall a'\neq a|h_t]。
\tag{13}
$$
\ No newline at end of file
$$
我们可以利用贝叶斯定律来计算后验 $P[P,R|h_t]$,然后从该分布中采样一个 MDP,用规划算法求解并据此采取动作。
### 4.4 信息状态搜索(Information State Search)
与 MAB 情况一样,我们可以构造一个附加了 MDP 信息状态的扩展 MDP,从而得到一个扩展的状态空间来得到贝叶斯自适应 MDP。解决这个问题将给我们带来最优的探索/利用权衡。然而,状态空间的大小限制了们只能使用基于仿真的搜索方法。
## 5. 结论(Conclusion)
总的来说,有几种不同的探索方法,有些比其他的更有原则性。
$\bullet$ 普通的探索方法:$\epsilon$-贪婪方法
$\bullet$ 乐观初始化:想法很简单但通常效果很好
$\bullet$ 乐观面对不确定性:偏好价值不确定的动作,如 UCB
$\bullet$ 概率匹配:选择有最大概率是最优的动作,如 汤普森采样
$\bullet$ 信息状态空间:建立并解决扩展 MDP,因此直接包含了信息的价值
## 参考文献
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册