提交 a4da9a4b 编写于 作者: X xiaowei_xing

test

上级 9dd755f7
......@@ -211,7 +211,7 @@ POMDP 规划的一个主要思想是置信状态(belief state)$\tilde{s}$,
类似于 MAB 情况,我们可以在可用动作中,选择一个最大化置信度上界的动作。
$$
a_t = \mathop{\arg\max}_{A} Q(s_t,a)+U_{1}(s_t,a)+U_{2}(s_t,a),
a_t = \mathop{\arg\max}_ {A} Q(s_t,a)+U_{1}(s_t,a)+U_{2}(s_t,a),
$$
这里 $U_1$ 为策略评估中的不确定量,易于量化,$U_2$ 源于策略提升,通常难以计算。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册