test

a4da9a4b · xiaowei_xing · 9dd755f7 · a4da9a4b
隐藏空白更改
内联并排

Showing with 1 addition and 1 deletion

docs/11&12.md docs/11&12.md +1 -1

未找到文件。
--- a/docs/11&12.md
+++ b/docs/11&12.md
@@ -211,7 +211,7 @@ POMDP 规划的一个主要思想是置信状态（belief state）$\tilde{s}$，
 类似于 MAB 情况，我们可以在可用动作中，选择一个最大化置信度上界的动作。

 $$
-a_t = \mathop{\arg\max}_{A} Q(s_t,a)+U_{1}(s_t,a)+U_{2}(s_t,a)，
+a_t = \mathop{\arg\max}_ {A} Q(s_t,a)+U_{1}(s_t,a)+U_{2}(s_t,a)，
 $$

 这里 $U_1$ 为策略评估中的不确定量，易于量化，$U_2$ 源于策略提升，通常难以计算。