test

98ff6fba · xiaowei_xing · 9bba28ec · 98ff6fba
隐藏空白更改
内联并排

Showing with 2 addition and 2 deletion

docs/10.md docs/10.md +2 -2

未找到文件。
--- a/docs/10.md
+++ b/docs/10.md
@@ -604,9 +604,9 @@ $\text{gradients = loss.gradients(loss, variables)}$

 5. <span id="ref5">J. Schulman et al, "Trust region policy optimization," *ICML*, 2015.</span>

-## A TRPO 证明（TRPO Proofs）
+## A. TRPO 证明（TRPO Proofs）

-<span id="lemma51p">### A.1 奖励调整（Reward Shaping）</span>
+### <span id="lemma51p">A.1 奖励调整（Reward Shaping）</span>

 这里我们证明[引理 5.1](#lemma51)。