Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
stanford-cs234-notes-zh
提交
43e3be52
S
stanford-cs234-notes-zh
项目概览
OpenDocCN
/
stanford-cs234-notes-zh
通知
8
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
stanford-cs234-notes-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
43e3be52
编写于
1月 16, 2020
作者:
X
xiaowei_xing
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
test
上级
df98d03f
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
13 addition
and
1 deletion
+13
-1
docs/11&12.md
docs/11&12.md
+13
-1
未找到文件。
docs/11&12.md
浏览文件 @
43e3be52
...
@@ -173,3 +173,15 @@ $$
...
@@ -173,3 +173,15 @@ $$
上面讨论的方法都试图达到用 $T$ 表示的遗憾界限,但这并不能让我们了解到算法所犯的错误类型,它可能不经常犯大错误,也可能经常犯小错误。在许多应用中,我们可能会关心限制大错误的数量。
上面讨论的方法都试图达到用 $T$ 表示的遗憾界限,但这并不能让我们了解到算法所犯的错误类型,它可能不经常犯大错误,也可能经常犯小错误。在许多应用中,我们可能会关心限制大错误的数量。
通常,PAC 算法选择一个值为 $
\e
psilon$-最优的动作,即对于除了一个多项式的数(通常以 $
\e
psilon$,$
\d
elta$,$N$)的时间步外,$Q(a)
\g
eq Q(a_{
\a
st})-
\e
psilon$ 的概率至少为 $1-
\d
elta$。在不确定情况下和汤普森采样情况下,有应用了这种 PAC 保证的乐观初始化方法的变体。
通常,PAC 算法选择一个值为 $
\e
psilon$-最优的动作,即对于除了一个多项式的数(通常以 $
\e
psilon$,$
\d
elta$,$N$)的时间步外,$Q(a)
\g
eq Q(a_{
\a
st})-
\e
psilon$ 的概率至少为 $1-
\d
elta$。在不确定情况下和汤普森采样情况下,有应用了这种 PAC 保证的乐观初始化方法的变体。
## 3. 信息状态搜索(Information State Search)
探索与利用之间的根本冲突源于这样一个事实,即探索获得的信息可能有助于未来,但此刻来看是次优的。如果我们能量化这种“信息的价值(value of information)”,即我们应该准备为这些信息支付多少报酬,那么我们就能更有效地平衡探索与利用。作为一个具体的例子,请参考幻灯片中的地震学家的例子。
### 3.1 信息状态空间(Information State Space)
到目前为止,我们将 MAB 视作有一个状态的完全可观测的 MDP。
主要思路:将 MAB 问题定义为一个部分可观测的 MDP (partially observable MDP),其中隐藏状态是每个动作的实际奖励,动作仍像以前一样对应于拉动手臂,我们得到的观测量为从隐藏状态中采样的奖励。因此,该 POMDP 的最优策略即为最优 bandit 算法,也就是说,MAB 可以简化为 POMDP 规划。
POMDP 规划的一个主要思想是置信状态(belief state)$
\t
ilde{s}$,它可以被看作我们上下文中的信息状态,这是 POMDP 隐藏状态的后验,即真实的平均回报。$
\t
ilde{s}$ 是一个使用历史计算得到的统计值,即 $
\t
ilde{s}_ {t}=f(h_{t})$。在信息(置信)状态空间中,每个动作及其相应的观测(奖励)都会导致状态以某个概率转移到一个新的状态 $
\t
ilde{s}_ {t+1}$。这样的结果是扩充信息状态空间上的 MDP。
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录