diff --git a/docs/11&12.md b/docs/11&12.md
index 8e66d5ca3eb1bd5e0b485835abd49be3eb3e69c3..55c542dd76ebfdf0d209bb657726acdc6c61bc3c 100644
--- a/docs/11&12.md
+++ b/docs/11&12.md
@@ -106,4 +106,25 @@ $$
 $$
 P[Q(a)>\hat{Q}_ {t}(a)+U_ {t}(a)] \leq e^{-2N_{t}(a)U_{t}(a)^{2}}。
 \tag{6}
-$$
\ No newline at end of file
+$$
+
+选择一个概率 $p$ 使得
+
+$$
+e^{-2N_{t}(a)U_{t}(a)^{2}} = p，
+\tag{7}
+$$
+
+$$
+U_{t}(a) = \sqrt{\frac{-\log p}{2N_{t}(a)}}。
+\tag{8}
+$$
+
+随着我们观察到更多的奖励，我们将减小 $p$，特别地，选择 $p=t^{-4}$ 便得到了 UCB1 算法：
+
+$$
+a_{t} = \mathop{\arg\max}_ {a\in A}(Q(a)+\sqrt{\frac{2\log t}{N_{t}(a)}})，
+\tag{9}
+$$
+
+这样保证了渐近最优动作选择，即它将 [[1]](\ref1) 下界匹配到常数因子。
\ No newline at end of file