修改标题中的括号为中文括号

ad6985bb · loopyme · 56cdd1d7 · ad6985bb · ad6985bb
隐藏空白更改
内联并排

Showing with 24 addition and 24 deletion

docs/12.md docs/12.md +22 -22

docs/8.md docs/8.md +2 -2

未找到文件。
--- a/docs/12.md
+++ b/docs/12.md
@@ -151,13 +151,13 @@ True

 参考文献

-| [[B2001]](#id9) | 
+| [[B2001]](#id9) |

 1.  Breiman, “Random Forests”, Machine Learning, 45(1), 5-32, 2001.

 |

-| [[B1998]](#id7) | 
+| [[B1998]](#id7) |

 1.  Breiman, “Arcing Classifiers”, Annals of Statistics 1998.

@@ -243,7 +243,7 @@ AdaBoost 既可以用在分类问题也可以用在回归问题中:

 | [[ZZRH2009]](#id18) | J. Zhu, H. Zou, S. Rosset, T. Hastie. “Multi-class AdaBoost”, 2009. |

-| [[D1997]](#id19) | 
+| [[D1997]](#id19) |

 1.  Drucker. “Improving Regressors using Boosting Techniques”, 1997.

@@ -348,9 +348,9 @@ Note
 GBRT 可以认为是以下形式的可加模型:

 > ```py
-> 
+>
 > ![F(x) = \sum_{m=1}^{M} \gamma_m h_m(x)](img/3405852dc63c9a78447d479784f1ee7e.jpg)
-> 
+>
 > ```

 其中 ![h_m(x)](img/a0fc07cc08abaf336142bf23fb4f5cc2.jpg) 是基本函数,在提升算法场景中它通常被称作 _weak learners_ 。梯度树提升算法（Gradient Tree Boosting）使用固定大小 的 [decision trees](tree.html#tree) 作为弱分类器,决策树本身拥有的一些特性使它能够在提升过程中变得有价值, 即处理混合类型数据以及构建具有复杂功能模型的能力.
@@ -358,18 +358,18 @@ GBRT 可以认为是以下形式的可加模型:
 与其他提升算法类似， GBRT 利用前向分步算法思想构建加法模型:

 > ```py
-> 
+>
 > ![F_m(x) = F_{m-1}(x) + \gamma_m h_m(x)](img/842c30bfbcf39ee4d2ac5d7587f7168c.jpg)
-> 
+>
 > ```

 在每一个阶段中，基于当前模型 ![F_{m-1}](img/841ad1e8353dcbf5fed2a58b2008873f.jpg) 和拟合函数 ![F_{m-1}(x_i)](img/401b1228a76ba9190680851b9d095653.jpg) 选择合适的决策树函数 ![h_m(x)](img/a0fc07cc08abaf336142bf23fb4f5cc2.jpg) ,从而最小化损失函数 ![L](img/639e82f3829a0ad677110cc33a028c98.jpg) 。

 > ```py
-> 
+>
 > ![F_m(x) = F_{m-1}(x) + \arg\min_{h} \sum_{i=1}^{n} L(y_i,
 > F_{m-1}(x_i) - h(x))](img/887928b507a2f01847b6ae5f5b0e733f.jpg)
-> 
+>
 > ```

 初始模型 ![F_{0}](img/5d8cf5fcf13a72776158a787bc29143c.jpg) 是问题的具体,对于最小二乘回归,通常选择目标值的平均值.
@@ -381,19 +381,19 @@ Note
 梯度提升（Gradient Boosting）尝试通过最速下降法以数字方式解决这个最小化问题.最速下降方向是在当前模型 ![F_{m-1}](img/841ad1e8353dcbf5fed2a58b2008873f.jpg) 下的损失函数的负梯度方向，其中模型 ![F_{m-1}](img/841ad1e8353dcbf5fed2a58b2008873f.jpg) 可以计算任何可微损失函数:

 > ```py
-> 
+>
 > ![F_m(x) = F_{m-1}(x) + \gamma_m \sum_{i=1}^{n} \nabla_F L(y_i,
 > F_{m-1}(x_i))](img/995e683eac95f8e8e65d96c6516858e7.jpg)
-> 
+>
 > ```

 其中步长 ![\gamma_m](img/7d32ef1e04f69e63d69e04b09b973946.jpg) 通过如下方式线性搜索获得:

 > ```py
-> 
+>
 > ![\gamma_m = \arg\min_{\gamma} \sum_{i=1}^{n} L(y_i, F_{m-1}(x_i)
 > - \gamma \frac{\partial L(y_i, F_{m-1}(x_i))}{\partial F_{m-1}(x_i)})](img/4341393efadcef482cea0dd54509e011.jpg)
-> 
+>
 > ```

 该算法处理分类和回归问题不同之处在于具体损失函数的使用。
@@ -414,7 +414,7 @@ Note

 ### 1.11.4.6\. Regularization（正则化）

-#### 1.11.4.6.1\. 收缩率 (Shrinkage)
+#### 1.11.4.6.1\. 收缩率 （Shrinkage）

 [[F2001]](#f2001) 提出一个简单的正则化策略,通过一个因子 ![\nu](img/f996477bc9806499e6b6a1ea4d9ae8eb.jpg) 来衡量每个弱分类器对于最终结果的贡献:

@@ -424,7 +424,7 @@ Note

 在训练一定数量的弱分类器时,参数 `learning_rate` 和参数 `n_estimators` 之间有很强的制约关系。 较小的 `learning_rate` 需要大量的弱分类器才能维持训练误差的稳定。经验表明数值较小的 `learning_rate` 将会得到更好的测试误差。 [[HTF2009]](#htf2009) 推荐把 `learning_rate` 设置为一个较小的常数 (例如: `learning_rate &lt;= 0.1` )同时通过提前停止策略来选择合适的 `n_estimators` . 有关 `learning_rate` 和 `n_estimators` 更详细的讨论可以参考 [[R2007]](#r2007).

-#### 1.11.4.6.2\. 子采样 (Subsampling)
+#### 1.11.4.6.2\. 子采样 （Subsampling）

 [[F1999]](#f1999) 提出了随机梯度提升,这种方法将梯度提升（gradient boosting）和 bootstrap averaging(bagging) 相结合。在每次迭代中,基分类器是通过抽取所有可利用训练集中一小部分的 `subsample` 训练得到的子样本采用无放回的方式采样。 `subsample` 参数的值一般设置为 0.5 。

@@ -499,7 +499,7 @@ array([ 0.11,  0.1 ,  0.11,  ...
 >>> clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
 ...     max_depth=1, random_state=0).fit(X, y)
 >>> features = [0, 1, (0, 1)]
->>> fig, axs = plot_partial_dependence(clf, X, features) 
+>>> fig, axs = plot_partial_dependence(clf, X, features)

 ```

@@ -511,7 +511,7 @@ array([ 0.11,  0.1 ,  0.11,  ...
 >>> mc_clf = GradientBoostingClassifier(n_estimators=10,
 ...     max_depth=1).fit(iris.data, iris.target)
 >>> features = [3, 2, (3, 2)]
->>> fig, axs = plot_partial_dependence(mc_clf, X, features, label=0) 
+>>> fig, axs = plot_partial_dependence(mc_clf, X, features, label=0)

 ```

@@ -546,19 +546,19 @@ array([[ 2.46643157,  2.46643157, ...

 | [F2001] | _([1](#id26), [2](#id27), [3](#id28))_ J. Friedman, “Greedy Function Approximation: A Gradient Boosting Machine”, The Annals of Statistics, Vol. 29, No. 5, 2001. |

-| [[F1999]](#id31) | 
+| [[F1999]](#id31) |

 1.  Friedman, “Stochastic Gradient Boosting”, 1999

 |

-| [[HTF2009]](#id29) | 
+| [[HTF2009]](#id29) |

 1.  Hastie, R. Tibshirani and J. Friedman, “Elements of Statistical Learning Ed. 2”, Springer, 2009.

 |

-| [[R2007]](#id30) | 
+| [[R2007]](#id30) |

 1.  Ridgeway, “Generalized Boosted Models: A guide to the gbm package”, 2007

@@ -568,7 +568,7 @@ array([[ 2.46643157,  2.46643157, ...

 `VotingClassifier` （投票分类器）的原理是结合了多个不同的机器学习分类器,并且采用多数表决（majority vote）（硬投票） 或者平均预测概率（软投票）的方式来预测分类标签。 这样的分类器可以用于一组同样表现良好的模型,以便平衡它们各自的弱点。

-### 1.11.5.1\. 多数类标签 (又称为 多数/硬投票)
+### 1.11.5.1\. 多数类标签 （又称为 多数/硬投票）

 在多数投票中，对于每个特定样本的预测类别标签是所有单独分类器预测的类别标签中票数占据多数（模式）的类别标签。

@@ -720,4 +720,4 @@ Accuracy: 0.95 (+/- 0.05) [Ensemble]
 ```py
 >>> eclf = VotingClassifier(estimators=[('lr', clf1), ('rf', clf2), ('gnb', clf3)], voting='soft', weights=[2,5,1])

-```
\ No newline at end of file
+```
--- a/docs/8.md
+++ b/docs/8.md
@@ -67,7 +67,7 @@

 [![http://sklearn.apachecn.org/cn/0.19.0/_images/sphx_glr_plot_gpr_noisy_0021.png](img/6526868397aa8da766b3dc60bbcc30ef.jpg)](../auto_examples/gaussian_process/plot_gpr_noisy.html)

-### 1.7.2.2\. GPR 和内核岭回归(Kernel Ridge Regression)的比较
+### 1.7.2.2\. GPR 和内核岭回归（Kernel Ridge Regression）的比较

 内核脊回归（KRR）和 GPR 通过内部使用 “kernel trick(内核技巧)” 来学习目标函数。 KRR学习由相应内核引起的空间中的线性函数，该空间对应于原始空间中的非线性函数。 基于平均误差损失与脊正弦化，选择内核空间中的线性函数。 GPR使用内核来定义先验分布在目标函数上的协方差，并使用观察到的训练数据来定义似然函数。 基于贝叶斯定理，定义了目标函数上的（高斯）后验分布，其平均值用于预测。

@@ -441,4 +441,4 @@ u(X) & = F^T\,R^{-1}\,r(X) - f(X)](img/efaeec5dadbe79caddb0f92abab55f5b.jpg)
 参考文献:

 *   [DACE, A Matlab Kriging Toolbox](http://imedea.uib-csic.es/master/cambioglobal/Modulo_V_cod101615/Lab/lab_maps/krigging/DACE-krigingsoft/dace/dace.pdf) S Lophaven, HB Nielsen, J Sondergaard 2002,
-*   W.J. Welch, R.J. Buck, J. Sacks, H.P. Wynn, T.J. Mitchell, and M.D. Morris (1992). Screening, predicting, and computer experiments. Technometrics, 34(1) 15–25.
\ No newline at end of file
+*   W.J. Welch, R.J. Buck, J. Sacks, H.P. Wynn, T.J. Mitchell, and M.D. Morris (1992). Screening, predicting, and computer experiments. Technometrics, 34(1) 15–25.