test

ac85eaad · xiaowei_xing · 209892c7 · ac85eaad
显示空白变更内容
内联并排

Showing with 22 addition and 1 deletion

docs/11&12.md docs/11&12.md +22 -1

未找到文件。
--- a/docs/11&12.md
+++ b/docs/11&12.md
@@ -107,3 +107,24 @@ $$
 P[Q(a)>\hat{Q}_ {t}(a)+U_ {t}(a)] \leq e^{-2N_{t}(a)U_{t}(a)^{2}}。
 \tag{6}
 $$
+选择一个概率 $p$ 使得
+$$
+e^{-2N_{t}(a)U_{t}(a)^{2}} = p，
+\tag{7}
+$$
+$$
+U_{t}(a) = \sqrt{\frac{-\log p}{2N_{t}(a)}}。
+\tag{8}
+$$
+随着我们观察到更多的奖励，我们将减小 $p$，特别地，选择 $p=t^{-4}$ 便得到了 UCB1 算法：
+$$
+a_{t} = \mathop{\arg\max}_ {a\in A}(Q(a)+\sqrt{\frac{2\log t}{N_{t}(a)}})，
+\tag{9}
+$$
+这样保证了渐近最优动作选择，即它将 [[1]](\ref1) 下界匹配到常数因子。
\ No newline at end of file