Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
stanford-cs234-notes-zh
提交
6e1f6648
S
stanford-cs234-notes-zh
项目概览
OpenDocCN
/
stanford-cs234-notes-zh
通知
8
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
stanford-cs234-notes-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
6e1f6648
编写于
12月 10, 2019
作者:
X
xiaowei_xing
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
test
上级
07f9a671
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
3 addition
and
1 deletion
+3
-1
docs/11&12.md
docs/11&12.md
+3
-1
未找到文件。
docs/11&12.md
浏览文件 @
6e1f6648
...
...
@@ -21,4 +21,6 @@ $$
这里 $N_{t}(a)$ 为动作 $a$ 在时间 $t$ 被采用过的次数。第二个等式用于递增地计算 $
\h
at{Q}_{t}$。
贪婪策略(greedy algorithm)选择有最大估计价值的动作,$a_{t}^{
\a
st}=
\m
athop{
\a
rg
\m
ax}_ {a
\i
n A}
\h
at{Q}_ {t}(a)$。然而,贪婪的做法可能使得次优的动作永远无法被采用。像在 MDPs 中那样,我们也可以使用(固定的)$
\e
psilon$-贪婪算法($
\e
psilon$-greedy algorithm),即以 $1-
\e
psilon$ 的概率选择贪婪动作,以 $
\e
psilon$ 的概率选择随机动作。另一个算法是衰减 $
\e
psilon_{t}$-贪婪算法(decaying $
\e
psilon_{t}$-greedy algorithm),这里 $
\e
psilon_{t}$ 按照一定规律衰减。
\ No newline at end of file
贪婪策略(greedy algorithm)选择有最大估计价值的动作,$a_{t}^{
\a
st}=
\m
athop{
\a
rg
\m
ax}_ {a
\i
n A}
\h
at{Q}_ {t}(a)$。然而,贪婪的做法可能使得次优的动作永远无法被采用。像在 MDPs 中那样,我们也可以使用(固定的)$
\e
psilon$-贪婪算法($
\e
psilon$-greedy algorithm),即以 $1-
\e
psilon$ 的概率选择贪婪动作,以 $
\e
psilon$ 的概率选择随机动作。另一个算法是衰减 $
\e
psilon_{t}$-贪婪算法(decaying $
\e
psilon_{t}$-greedy algorithm),这里 $
\e
psilon_{t}$ 按照一定规律衰减。
一个简单的基于 $
\e
psilon$-贪婪算法的方法是乐观初始化(optimistic initialization),它讲所有 $a
\i
n A$ 的 $
\h
at{Q}_ {0}(a)$ 初始化为大于真值 $Q(a)$ 的某个值,也就是说,我们开始时对所有的动作选择“非常乐观”。在每一步我们可以使用贪婪(或 $
\e
psilon$-贪婪)的方法来选择动作,由于真正的奖励都低于我们的初始估计,所以被采用过的动作的估计值 $
\h
at_{Q}$ 就会减小,这就鼓励了行为体对那些未被采用过的、$
\h
at_{Q}$ 值仍旧大的动作进行探索。因此,所有的动作都会被至少尝试一次,可能多次。此外,我们可以初始化 $N_{0}(a)>0$ 以调整乐观初始化向真值收敛的速度。
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录