Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
stanford-cs234-notes-zh
提交
ac85eaad
S
stanford-cs234-notes-zh
项目概览
OpenDocCN
/
stanford-cs234-notes-zh
通知
8
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
stanford-cs234-notes-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
ac85eaad
编写于
12月 13, 2019
作者:
X
xiaowei_xing
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
test
上级
209892c7
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
22 addition
and
1 deletion
+22
-1
docs/11&12.md
docs/11&12.md
+22
-1
未找到文件。
docs/11&12.md
浏览文件 @
ac85eaad
...
@@ -107,3 +107,24 @@ $$
...
@@ -107,3 +107,24 @@ $$
P[Q(a)>
\h
at{Q}_ {t}(a)+U_ {t}(a)]
\l
eq e^{-2N_{t}(a)U_{t}(a)^{2}}。
P[Q(a)>
\h
at{Q}_ {t}(a)+U_ {t}(a)]
\l
eq e^{-2N_{t}(a)U_{t}(a)^{2}}。
\t
ag{6}
\t
ag{6}
$$
$$
选择一个概率 $p$ 使得
$$
e^{-2N_{t}(a)U_{t}(a)^{2}} = p,
\t
ag{7}
$$
$$
U_{t}(a) =
\s
qrt{
\f
rac{-
\l
og p}{2N_{t}(a)}}。
\t
ag{8}
$$
随着我们观察到更多的奖励,我们将减小 $p$,特别地,选择 $p=t^{-4}$ 便得到了 UCB1 算法:
$$
a_{t} =
\m
athop{
\a
rg
\m
ax}_ {a
\i
n A}(Q(a)+
\s
qrt{
\f
rac{2
\l
og t}{N_{t}(a)}}),
\t
ag{9}
$$
这样保证了渐近最优动作选择,即它将
[
[1]
](
\ref1
)
下界匹配到常数因子。
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录