From 7173da1e5758a988a027a64cbf88fbbb6282f242 Mon Sep 17 00:00:00 2001 From: xiaowei_xing <997427575@qq.com> Date: Tue, 26 Nov 2019 16:25:46 +0900 Subject: [PATCH] test --- docs/10.md | 20 ++++++++++++++++++-- 1 file changed, 18 insertions(+), 2 deletions(-) diff --git a/docs/10.md b/docs/10.md index 38f6c9f..6f8561c 100644 --- a/docs/10.md +++ b/docs/10.md @@ -492,7 +492,23 @@ $$ 不幸的是,解决这个优化问题会导致非常小的步长。在 [5] 中,在实现实用的算法时,作者将该优化问题转化为一个有约束优化问题来增大步长。具体来说,优化问题变为如下形式: $$ -\mathop{\max}_ {\pi'} L_{\pi}(\pi') \quad \text{s.t.} \quad \alpha^2 \leq \delta, +\mathop{\max}_ {\pi'} L_{\pi}(\pi') $$ -这里 $\delta$ 为超参数。 \ No newline at end of file +$$ +\text{s.t.} \quad \alpha^2 \leq \delta, +$$ + +这里 $\delta$ 为超参数。 + +由于存在大量的状态,$alpha$ 的最大约束无法求解。因此在 [5] 中,作者使用了仅考虑平均 KL 散度的启发式近似。这样近似是有用的,因为我们可以用样本来近似期望而无法用样本来近似最大值。因此我们有: + +$$ +\mathop{\max}_ {\pi'} L_{\pi}(\pi') +$$ + +$$ +\text{s.t.} \quad \overline{D}_{KL}(\pi,pi') \leq \delta, +$$ + +这里 $\overline{D}_ {KL}(\pi,pi') = \mathbb{E}_ {s\sim d^{\pi}[D_{TV}(\pi\lVert \pi')[s]]$。 \ No newline at end of file -- GitLab