diff --git a/docs/10.md b/docs/10.md index 38f6c9f2efb6833221af5b348c9aeb9003c1ff5a..6f8561cd6623bd1152ef464297f5de615ef26a6d 100644 --- a/docs/10.md +++ b/docs/10.md @@ -492,7 +492,23 @@ $$ 不幸的是,解决这个优化问题会导致非常小的步长。在 [5] 中,在实现实用的算法时,作者将该优化问题转化为一个有约束优化问题来增大步长。具体来说,优化问题变为如下形式: $$ -\mathop{\max}_ {\pi'} L_{\pi}(\pi') \quad \text{s.t.} \quad \alpha^2 \leq \delta, +\mathop{\max}_ {\pi'} L_{\pi}(\pi') $$ -这里 $\delta$ 为超参数。 \ No newline at end of file +$$ +\text{s.t.} \quad \alpha^2 \leq \delta, +$$ + +这里 $\delta$ 为超参数。 + +由于存在大量的状态,$alpha$ 的最大约束无法求解。因此在 [5] 中,作者使用了仅考虑平均 KL 散度的启发式近似。这样近似是有用的,因为我们可以用样本来近似期望而无法用样本来近似最大值。因此我们有: + +$$ +\mathop{\max}_ {\pi'} L_{\pi}(\pi') +$$ + +$$ +\text{s.t.} \quad \overline{D}_{KL}(\pi,pi') \leq \delta, +$$ + +这里 $\overline{D}_ {KL}(\pi,pi') = \mathbb{E}_ {s\sim d^{\pi}[D_{TV}(\pi\lVert \pi')[s]]$。 \ No newline at end of file