From 43e3be5217e4c8eb6d4ad4a19088448b55df859b Mon Sep 17 00:00:00 2001 From: xiaowei_xing <997427575@qq.com> Date: Thu, 16 Jan 2020 16:24:44 +0900 Subject: [PATCH] test --- docs/11&12.md | 14 +++++++++++++- 1 file changed, 13 insertions(+), 1 deletion(-) diff --git a/docs/11&12.md b/docs/11&12.md index 5d1e115..9e4e048 100644 --- a/docs/11&12.md +++ b/docs/11&12.md @@ -172,4 +172,16 @@ $$ 上面讨论的方法都试图达到用 $T$ 表示的遗憾界限,但这并不能让我们了解到算法所犯的错误类型,它可能不经常犯大错误,也可能经常犯小错误。在许多应用中,我们可能会关心限制大错误的数量。 -通常,PAC 算法选择一个值为 $\epsilon$-最优的动作,即对于除了一个多项式的数(通常以 $\epsilon$,$\delta$,$N$)的时间步外,$Q(a)\geq Q(a_{\ast})-\epsilon$ 的概率至少为 $1-\delta$。在不确定情况下和汤普森采样情况下,有应用了这种 PAC 保证的乐观初始化方法的变体。 \ No newline at end of file +通常,PAC 算法选择一个值为 $\epsilon$-最优的动作,即对于除了一个多项式的数(通常以 $\epsilon$,$\delta$,$N$)的时间步外,$Q(a)\geq Q(a_{\ast})-\epsilon$ 的概率至少为 $1-\delta$。在不确定情况下和汤普森采样情况下,有应用了这种 PAC 保证的乐观初始化方法的变体。 + +## 3. 信息状态搜索(Information State Search) + +探索与利用之间的根本冲突源于这样一个事实,即探索获得的信息可能有助于未来,但此刻来看是次优的。如果我们能量化这种“信息的价值(value of information)”,即我们应该准备为这些信息支付多少报酬,那么我们就能更有效地平衡探索与利用。作为一个具体的例子,请参考幻灯片中的地震学家的例子。 + +### 3.1 信息状态空间(Information State Space) + +到目前为止,我们将 MAB 视作有一个状态的完全可观测的 MDP。 + +主要思路:将 MAB 问题定义为一个部分可观测的 MDP (partially observable MDP),其中隐藏状态是每个动作的实际奖励,动作仍像以前一样对应于拉动手臂,我们得到的观测量为从隐藏状态中采样的奖励。因此,该 POMDP 的最优策略即为最优 bandit 算法,也就是说,MAB 可以简化为 POMDP 规划。 + +POMDP 规划的一个主要思想是置信状态(belief state)$\tilde{s}$,它可以被看作我们上下文中的信息状态,这是 POMDP 隐藏状态的后验,即真实的平均回报。$\tilde{s}$ 是一个使用历史计算得到的统计值,即 $\tilde{s}_ {t}=f(h_{t})$。在信息(置信)状态空间中,每个动作及其相应的观测(奖励)都会导致状态以某个概率转移到一个新的状态 $\tilde{s}_ {t+1}$。这样的结果是扩充信息状态空间上的 MDP。 \ No newline at end of file -- GitLab