diff --git a/docs/11&12.md b/docs/11&12.md index 8e66d5ca3eb1bd5e0b485835abd49be3eb3e69c3..55c542dd76ebfdf0d209bb657726acdc6c61bc3c 100644 --- a/docs/11&12.md +++ b/docs/11&12.md @@ -106,4 +106,25 @@ $$ $$ P[Q(a)>\hat{Q}_ {t}(a)+U_ {t}(a)] \leq e^{-2N_{t}(a)U_{t}(a)^{2}}。 \tag{6} -$$ \ No newline at end of file +$$ + +选择一个概率 $p$ 使得 + +$$ +e^{-2N_{t}(a)U_{t}(a)^{2}} = p, +\tag{7} +$$ + +$$ +U_{t}(a) = \sqrt{\frac{-\log p}{2N_{t}(a)}}。 +\tag{8} +$$ + +随着我们观察到更多的奖励,我们将减小 $p$,特别地,选择 $p=t^{-4}$ 便得到了 UCB1 算法: + +$$ +a_{t} = \mathop{\arg\max}_ {a\in A}(Q(a)+\sqrt{\frac{2\log t}{N_{t}(a)}}), +\tag{9} +$$ + +这样保证了渐近最优动作选择,即它将 [[1]](\ref1) 下界匹配到常数因子。 \ No newline at end of file