提交 7173da1e 编写于 作者: X xiaowei_xing

test

上级 1d5f5657
......@@ -492,7 +492,23 @@ $$
不幸的是,解决这个优化问题会导致非常小的步长。在 [5] 中,在实现实用的算法时,作者将该优化问题转化为一个有约束优化问题来增大步长。具体来说,优化问题变为如下形式:
$$
\mathop{\max}_ {\pi'} L_{\pi}(\pi') \quad \text{s.t.} \quad \alpha^2 \leq \delta,
\mathop{\max}_ {\pi'} L_{\pi}(\pi')
$$
这里 $\delta$ 为超参数。
\ No newline at end of file
$$
\text{s.t.} \quad \alpha^2 \leq \delta,
$$
这里 $\delta$ 为超参数。
由于存在大量的状态,$alpha$ 的最大约束无法求解。因此在 [5] 中,作者使用了仅考虑平均 KL 散度的启发式近似。这样近似是有用的,因为我们可以用样本来近似期望而无法用样本来近似最大值。因此我们有:
$$
\mathop{\max}_ {\pi'} L_{\pi}(\pi')
$$
$$
\text{s.t.} \quad \overline{D}_{KL}(\pi,pi') \leq \delta,
$$
这里 $\overline{D}_ {KL}(\pi,pi') = \mathbb{E}_ {s\sim d^{\pi}[D_{TV}(\pi\lVert \pi')[s]]$。
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册