Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
stanford-cs234-notes-zh
提交
54f1cd0d
S
stanford-cs234-notes-zh
项目概览
OpenDocCN
/
stanford-cs234-notes-zh
通知
8
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
stanford-cs234-notes-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
54f1cd0d
编写于
12月 11, 2019
作者:
X
xiaowei_xing
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
test
上级
92b1add3
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
6 addition
and
2 deletion
+6
-2
docs/11&12.md
docs/11&12.md
+6
-2
未找到文件。
docs/11&12.md
浏览文件 @
54f1cd0d
...
...
@@ -25,6 +25,10 @@ $$
一个简单的基于 $
\e
psilon$-贪婪算法的方法是乐观初始化(optimistic initialization),它讲所有 $a
\i
n A$ 的 $
\h
at{Q}_ {0}(a)$ 初始化为大于真值 $Q(a)$ 的某个值,也就是说,我们开始时对所有的动作选择“非常乐观”。在每一步我们可以使用贪婪(或 $
\e
psilon$-贪婪)的方法来选择动作,由于真正的奖励都低于我们的初始估计,所以被采用过的动作的估计值 $
\h
at{Q}$ 就会减小,这就鼓励了行为体对那些未被采用过的、$
\h
at{Q}$ 值仍旧大的动作进行探索。因此,所有的动作都会被至少尝试一次,可能多次。此外,我们可以初始化 $N_{0}(a)>0$ 以调整乐观初始化向真值收敛的速度。
### 2.1 (Regret)
### 2.1
??
(Regret)
这些探索策略自然会产生一个问题,即我们应该使用哪种度量来比较它们。可能的度量包括经验性的表现(尽管这依赖于环境)、渐近收敛的保证、有限采样的保证或 PAC 的保证。
\ No newline at end of file
这些探索策略自然会产生一个问题,即我们应该使用哪种标准来比较它们。可能的标准包括经验性的表现(尽管这依赖于环境)、渐近收敛的保证、有限采样的保证或 PAC 的保证。在 MAB 文献中的标准通常是??(regret),我们现在定义??以及相关的量。
$
\b
ullet$ 动作值 $Q(a)=
\m
athbb{E}[r|a]$
$
\b
ullet$ 最优值 $V^{
\a
st}=Q(a^{
\a
st})=
\m
athop{
\m
ax}_{a
\i
n A}Q(a)$
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录