Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
stanford-cs234-notes-zh
提交
688a7a5e
S
stanford-cs234-notes-zh
项目概览
OpenDocCN
/
stanford-cs234-notes-zh
通知
8
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
stanford-cs234-notes-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
GitCode(gitcode.net)2024年7月9日维护升级公告
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
688a7a5e
编写于
11月 24, 2019
作者:
X
xiaowei_xing
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
test
上级
cf071e6a
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
22 addition
and
1 deletion
+22
-1
docs/10.md
docs/10.md
+22
-1
未找到文件。
docs/10.md
浏览文件 @
688a7a5e
...
...
@@ -167,4 +167,25 @@ $$
=
\m
athbb{E}_ {s_{0:t},a_{0:(t-1)}} [b(s_t)
\c
dot 0] = 0。
$$
如上所述,如果对策略不做任何假设,那么基准不能是动作的函数,因为上述证明需要提出 $b(s_t)$。如果我们对策略做出一些假设,那么例外情况就出现了,[3] 提供了依赖于动作的基准的例子。
\ No newline at end of file
如上所述,如果对策略不做任何假设,那么基准不能是动作的函数,因为上述证明需要提出 $b(s_t)$。如果我们对策略做出一些假设,那么例外情况就出现了,参见 [3] 了解与动作相关的基准的例子。
一个常用的基准是值函数 $V^{
\p
i_{
\t
heta}}(s)$。因为回报估计了状态-动作值函数 $Q^{
\p
i_{
\t
heta}}(s,a)$,通过减去这个基准,我们实际上是在计算优势 $A^{
\p
i_{
\t
heta}}(s,a)=Q^{
\p
i_{
\t
heta}}(s,a)-V^{
\p
i_{
\t
heta}}(s)$。在实现方面,这意味着训练一个单独的值函数 $V_{
\p
hi}(s)$。
另一方面,我们可以训练另一个状态-动作值函数 $Q_{
\o
mega}(s,a)$ 来逼近策略梯度,而不是使用环境返回的实际回报来估计 $Q^{
\p
i_{
\t
heta}}(s,a)$。这一方法被称为 $actor-critic$,这里 $Q_{
\o
mega}$ 为 $critic$。本质上,$critic$ 做策略评估,$actor$ 做策略改进。
那么为了最小化方差,最优的基准是什么?事实上,最优的基准为按梯度平方加权的期望奖励,如下所示。
$$
Var[X] =
\m
athbb{E}[X^2] -
\m
athbb{E}[X]^2,
$$
$$
\n
abla_{
\t
heta}J(
\t
heta) =
\m
athbb{E}_ {
\t
au
\s
im
\p
i_{
\t
heta}(
\t
au)} [
\n
abla_{
\t
heta}
\l
og
\p
i_{
\t
heta}(
\t
au)(r(
\t
au)-b)],
$$
$$
Var =
\m
athbb{E}_ {
\t
au
\s
im
\p
i_{
\t
heta}(
\t
au)}[(
\n
abla_{
\t
heta}
\l
og
\p
i_{
\t
heta}(
\t
au)(r(
\t
au)-b))^2] - (
\m
athbb{E}_ {
\t
au
\s
im
\p
i_{
\t
heta}(
\t
au)}[
\n
abla_{
\t
heta}
\l
og
\p
i_{
\t
heta}(
\t
au)(r(
\t
au)-b)])^2
$$
$$
=
\m
athbb{E}_ {
\t
au
\s
im
\p
i_{
\t
heta}(
\t
au)}[(
\n
abla_{
\t
heta}
\l
og
\p
i_{
\t
heta}(
\t
au)(r(
\t
au)-b))^2] - (
\m
athbb{E}_ {
\t
au
\s
im
\p
i_{
\t
heta}(
\t
au)}[
\n
abla_{
\t
heta}
\l
og
\p
i_{
\t
heta}(
\t
au)r(
\t
au)])^2。
$$
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录