Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
stanford-cs234-notes-zh
提交
461faaf1
S
stanford-cs234-notes-zh
项目概览
OpenDocCN
/
stanford-cs234-notes-zh
通知
8
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
stanford-cs234-notes-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
461faaf1
编写于
12月 06, 2019
作者:
X
xiaowei_xing
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
test
上级
e6a8ec27
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
11 addition
and
5 deletion
+11
-5
docs/10.md
docs/10.md
+11
-5
未找到文件。
docs/10.md
浏览文件 @
461faaf1
...
...
@@ -331,7 +331,7 @@ $$
TRPO [3] 的关键思想是定义一个限制策略更新的信任区域。这个约束在策略空间中而不是在参数空间中,并且称为算法的新步长。通过这种方式,我们可以大致确保策略更新后的新策略比旧策略表现得更好。
### 5.1 问题设定
### 5.1 问题设定
(Problem Setup)
考虑一个有限状态和动作的 MDP,$
\c
al{M}=(S,A,M,R,
\g
amma)$,这里 $M$ 为状态转移函数。在这一节中,我们假设 $|S|$ 和 $|A|$ 都是有限的,并且假设 $0<
\g
amma<1$。尽管推导是基于有限状态和动作的,但算法对连续状态和动作同样有效。我们定义
...
...
@@ -370,7 +370,7 @@ $$
第二个等号是因为 $
\r
ho_{
\p
i}^{t}=P_{
\p
i}
\r
ho_{
\p
i}^{t-1}$,第三个等号可以由几何级数推导得到。
我们的证明的目的是给出 $V^{
\p
i'}-V^{
\p
i}$ 的下界。我们从一个关于奖励
改变
的引理开始证明。
我们的证明的目的是给出 $V^{
\p
i'}-V^{
\p
i}$ 的下界。我们从一个关于奖励
调整
的引理开始证明。
**引理 5.1**
对于任意函数 $f:S
\m
apsto
\m
athbb{E}$ 和任意策略 $
\p
i$,我们有:
...
...
@@ -388,7 +388,7 @@ V^{\pi}(s) = \frac{1}{1-\gamma} (\mathbb{E}_ {s\sim d^{\pi},a\sim\pi(\cdot|s),s'
\t
ag{5}
$$
这可以被看作奖励
改变
的一种形式,改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{
\p
i}(s)$,那么我们就得到了优势函数。
这可以被看作奖励
调整
的一种形式,改变函数是状态的函数而不是动作的函数。注意如果我们令 $f(s)=V^{
\p
i}(s)$,那么我们就得到了优势函数。
### 5.2 状态分布差异限制(Bounding Difference in State Distributions)
...
...
@@ -554,7 +554,7 @@ $$
**练习 6.7**
这里是对离散动作空间使用自动微分来执行最大似然估计的伪代码。
$
\t
ext{logits = policy.predictions(states)}$
`\text{logits = policy.predictions(states)}`
$
\t
ext{negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(}$
...
...
@@ -596,4 +596,10 @@ $\text{gradients = loss.gradients(loss, variables)}$
4.
J. Achiam, D. Held, A. Tamar, and P. Abbeel, "Constrained policy optimization,"
*ICML*
, 2017.
5.
J. Schulman et al, "Trust region policy optimization,"
*ICML*
, 2015.
\ No newline at end of file
5.
J. Schulman et al, "Trust region policy optimization,"
*ICML*
, 2015.
## A TRPO 证明(TRPO Proofs)
### A.1 奖励调整(Reward Shaping)
这里我们证明引理 5.1。
\ No newline at end of file
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录