test

7173da1e · xiaowei_xing · 1d5f5657 · 7173da1e
隐藏空白更改
内联并排

Showing with 18 addition and 2 deletion

docs/10.md docs/10.md +18 -2

未找到文件。
--- a/docs/10.md
+++ b/docs/10.md
@@ -492,7 +492,23 @@ $$
 不幸的是，解决这个优化问题会导致非常小的步长。在 [5] 中，在实现实用的算法时，作者将该优化问题转化为一个有约束优化问题来增大步长。具体来说，优化问题变为如下形式：

 $$
-\mathop{\max}_ {\pi'} L_{\pi}(\pi') \quad \text{s.t.} \quad \alpha^2 \leq \delta，
+\mathop{\max}_ {\pi'} L_{\pi}(\pi')
 $$

-这里 $\delta$ 为超参数。
\ No newline at end of file
+$$
+\text{s.t.} \quad \alpha^2 \leq \delta，
+$$
+
+这里 $\delta$ 为超参数。
+
+由于存在大量的状态，$alpha$ 的最大约束无法求解。因此在 [5] 中，作者使用了仅考虑平均 KL 散度的启发式近似。这样近似是有用的，因为我们可以用样本来近似期望而无法用样本来近似最大值。因此我们有：
+
+$$
+\mathop{\max}_ {\pi'} L_{\pi}(\pi')
+$$
+
+$$
+\text{s.t.} \quad \overline{D}_{KL}(\pi,pi') \leq \delta，
+$$
+
+这里 $\overline{D}_ {KL}(\pi,pi') = \mathbb{E}_ {s\sim d^{\pi}[D_{TV}(\pi\lVert \pi')[s]]$。
\ No newline at end of file