未验证 提交 86ebf03f 编写于 作者: 片刻小哥哥's avatar 片刻小哥哥 提交者: GitHub

Merge pull request #1 from apachecn/master

拉取最新代码
sklearn.apachecn.org
\ No newline at end of file
sklearn.apachecn.org
......@@ -4,10 +4,16 @@
小部分格式仍然存在问题,主要是链接和表格。需要大家帮忙找到,并提 PullRequest 来修复。
## 参与翻译 & 发现错误
## 参与翻译 & 修正错误
翻译待解决的问题 & 对应的解决思路:
1. 缺少示例的翻译: 用Jupyter notebook跑一遍示例程序,再把介绍和注释翻译成中文,最后生成为md并修复其他文章中对应的链接
2. 小部分格式和翻译仍然存在问题,需要大家帮忙找到,并提 PullRequest 来修复。
3. 部分翻译的语言可能不够流畅,需要大家帮忙润色,并提 PullRequest 来优化。
贡献方式:
1. 在 github 上 fork 该 repository.
2. 翻译 doc/zh/modules 和 doc/zh/tutorial 下面的 rst 文件即可, 例如, tutorial.rst.
2. 按照上面提到的解决思路修复对应的问题
3. 然后, 在你的 github 发起 New pull request 请求.
4. 工具使用, 可参考下面的内容.
......
......@@ -2,6 +2,20 @@
![](docs/img/scikit-learn-logo.png)
> Special Sponsers
<table>
<tbody>
<tr>
<td align="center" valign="middle">
<a href="https://coding.net/?utm_source=ApacheCN&utm_medium=banner&utm_campaign=march2019" target="_blank">
<img width="1080" src="http://data.apachecn.org/img/SpecialSponsors/CodingNet.png">
</a>
</td>
</tbody>
</table>
scikit-learn 是基于 Python 语言的机器学习工具。
1. 简单高效的数据挖掘和数据分析工具
......@@ -11,13 +25,34 @@ scikit-learn 是基于 Python 语言的机器学习工具。
## 维护地址
+ [Github](https://github.com/apachecn/scikit-learn-doc-zh/)
+ [在线阅读](http://www.apachecn.org)
+ [Github](https://github.com/apachecn/scikit-learn-doc-zh/)
+ [在线阅读](http://sklearn.apachecn.org)
+ [EPUB 格式](https://github.com/apachecn/scikit-learn-doc-zh/raw/dl/scikit-learn%200.19%20%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3.epub)
## 目录
* [安装 scikit-learn](docs/79.md)
* 用户指南
* [1. 监督学习](docs/1.md)
* [2. 无监督学习](docs/19.md)
* [3. 模型选择和评估](docs/29.md?id=_3-模型选择和评估)
* [4. 检验](docs/35.md?id=_4--检验)
* [5. 数据集转换](docs/37.md?id=_5-数据集转换)
* [6. 数据集加载工具](docs/47.md?id=_6-数据集加载工具)
* [7. 使用scikit-learn计算](docs/48.md?id=_7-使用scikit-learn计算)
* [使用教程](docs/50.md)
* [使用 scikit-learn 介绍机器学习](docs/51.md)
* [关于科学数据处理的统计学习教程](docs/52.md)
* [处理文本数据](docs/76.md)
* [选择正确的评估器](docs/77.md)
* [外部资源,视频和谈话](docs/78.md)
* [API 参考](https://scikit-learn.org/stable/modules/classes.html)
* [常见问题](docs/63.md)
* [时光轴](docs/64.md)
## 历史版本
* [scikit-learn (sklearn) 0.18 官方文档中文版](http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030181)
* [scikit-learn (sklearn) 0.19 官方文档中文版](https://github.com/apachecn/scikit-learn-doc-zh/tree/0.19.x)
## 贡献指南
......@@ -25,7 +60,7 @@ scikit-learn 是基于 Python 语言的机器学习工具。
## 负责人
* [@chenyyx](https://github.com/chenyyx)(Joy yx)
* [@loopyme](https://github.com/loopyme)
## 贡献者
......@@ -131,9 +166,9 @@ scikit-learn 是基于 Python 语言的机器学习工具。
## 联系方式
有任何建议反馈, 或想参与文档翻译, 麻烦联系下面的企鹅:
**本文档需要人手来维护和更新,如果你有兴趣担任负责人, 请联系下面的企鹅:**
* 企鹅: 1042658081(那伊抹微笑), 190442212(小瑶), 529815144(片刻
* 529815144(片刻),562826179(飞龙),190442212(小瑶
## 赞助我们
......@@ -150,4 +185,3 @@ ApacheCN 账号下没有协议的项目,一律视为 [CC BY-NC-SA 4.0](https:/
* ApacheCN 组织资源: <https://github.com/apachecn/home>
> 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远
+ [安装 scikit-learn](docs/79.md)
+ 用户指南
+ [1\. 监督学习](docs/1.md)
+ [1.1\. 广义线性模型](docs/2.md)
+ [1.2\. 线性和二次判别分析](docs/3.md)
+ [1.3\. 内核岭回归](docs/4.md)
+ [1.4\. 支持向量机](docs/5.md)
+ [1.5\. 随机梯度下降](docs/6.md)
+ [1.6\. 最近邻](docs/7.md)
+ [1.7\. 高斯过程](docs/8.md)
+ [1.8\. 交叉分解](docs/9.md)
+ [1.9\. 朴素贝叶斯](docs/10.md)
+ [1.10\. 决策树](docs/11.md)
+ [1.11\. 集成方法](docs/12.md)
+ [1.12\. 多类和多标签算法](docs/13.md)
+ [1.13\. 特征选择](docs/14.md)
+ [1.14\. 半监督学习](docs/15.md)
+ [1.15\. 等式回归](docs/16.md)
+ [1.16\. 概率校准](docs/17.md)
+ [1.17\. 神经网络模型(有监督)](docs/18.md)
+ [2\. 无监督学习](docs/19.md)
+ [2.1\. 高斯混合模型](docs/20.md)
+ [2.2\. 流形学习](docs/21.md)
+ [2.3\. 聚类](docs/22.md)
+ [2.4\. 双聚类](docs/23.md)
+ [2.5\. 分解成分中的信号(矩阵分解问题)](docs/24.md)
+ [2.6\. 协方差估计](docs/25.md)
+ [2.7\. 经验协方差](docs/26.md)
+ [2.8\. 收敛协方差](docs/27.md)
+ [2.9\. 稀疏逆协方差](docs/28.md)
+ [2.10\. Robust 协方差估计](docs/29.md)
+ [2.11\. 新奇和异常值检测](docs/30.md)
+ [2.12\. 密度估计](docs/31.md)
+ [2.13\. 神经网络模型(无监督)](docs/32.md)
+ [3\. 模型选择和评估](docs/33.md)
+ [3.1\. 交叉验证:评估估算器的表现](docs/34.md)
+ [3.2\. 调整估计器的超参数](docs/35.md)
+ [3.3\. 模型评估: 量化预测的质量](docs/53.md)
+ [3.4\. 模型持久化](docs/54.md)
+ [3.5\. 验证曲线: 绘制分数以评估模型](docs/55.md)
+ [4\. 数据集转换](docs/56.md)
+ [4.1\. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器](docs/57.md)
+ [4.2\. 特征提取](docs/58.md)
+ [4.3\. 预处理数据](docs/59.md)
+ [4.4\. 无监督降维](docs/60.md)
+ [4.5\. 随机投影](docs/61.md)
+ [4.6\. 内核近似](docs/62.md)
+ [4.7\. 成对的矩阵, 类别和核函数](docs/63.md)
+ [4.8\. 预测目标 (`y`.md) 的转换](docs/64.md)
+ [5\. 数据集加载工具](docs/65.md)
+ [6\. 大规模计算的策略: 更大量的数据](docs/66.md)
+ [7\. 计算性能](docs/67.md)
+ 教程
+ [使用 scikit-learn 介绍机器学习](docs/68.md)
+ [关于科学数据处理的统计学习教程](docs/69.md)
+ [机器学习: scikit-learn 中的设置以及预估对象](docs/70.md)
+ [监督学习:从高维观察预测输出变量](docs/71.md)
+ [模型选择:选择估计量及其参数](docs/72.md)
+ [无监督学习: 寻求数据表示](docs/73.md)
+ [把它们放在一起](docs/74.md)
+ [寻求帮助](docs/75.md)
+ [处理文本数据](docs/76.md)
+ [选择正确的评估器(estimator.md)](docs/77.md)
+ [外部资源,视频和谈话](docs/78.md)
+ [API 参考](https://scikit-learn.org/stable/modules/classes.html)
+ [常见问题](docs/80.md)
+ [时光轴](docs/81.md)
\ No newline at end of file
* [安装 scikit-learn](docs/79.md)
* 用户指南
* [1. 监督学习](docs/1.md)
* [1.1. 广义线性模型](docs/2.md?id=_11-广义线性模型)
* [1.2. 线性和二次判别分析](docs/3.md?id=_12-线性和二次判别分析)
* [1.3. 内核岭回归](docs/4.md?id=_13-内核岭回归)
* [1.4. 支持向量机](docs/5.md?id=_14-支持向量机)
* [1.5. 随机梯度下降](docs/6.md?id=_15-随机梯度下降)
* [1.6. 最近邻](docs/7.md?id=_16-最近邻)
* [1.7. 高斯过程](docs/8.md?id=_17-高斯过程)
* [1.8. 交叉分解](docs/9.md?id=_18-交叉分解)
* [1.9. 朴素贝叶斯](docs/10.md?id=_19-朴素贝叶斯)
* [1.10. 决策树](docs/11.md?id=_110-决策树)
* [1.11. 集成方法](docs/12.md?id=_111-集成方法)
* [1.12. 多类和多标签算法](docs/13.md?id=_112-多类和多标签算法)
* [1.13. 特征选择](docs/14.md?id=_113-特征选择)
* [1.14. 半监督学习](docs/15.md?id=_114-半监督学习)
* [1.15. 等式回归](docs/16.md?id=_115-等式回归)
* [1.16. 概率校准](docs/17.md?id=_116-概率校准)
* [1.17. 神经网络模型(有监督)](docs/18.md?id=_117-神经网络模型(有监督))
* [2. 无监督学习](docs/19.md)
* [2.1. 高斯混合模型](docs/20.md?id=_21-高斯混合模型)
* [2.2. 流形学习](docs/21.md?id=_22-流形学习)
* [2.3. 聚类](docs/22.md?id=_23-聚类)
* [2.4. 双聚类](docs/23.md?id=_24-双聚类)
* [2.5. 分解成分中的信号(矩阵分解问题)](docs/24.md?id=_25-分解成分中的信号(矩阵分解问题))
* [2.6. 协方差估计](docs/25.md?id=_26-协方差估计)
* [2.7. 新奇和异常值检测](docs/26.md?id=_27-新奇和异常值检测)
* [2.8. 密度估计](docs/27.md?id=_28-密度估计)
* [2.9. 神经网络模型(无监督)](docs/28.md?id=_29-神经网络模型(无监督))
* [3. 模型选择和评估](docs/29.md?id=_3-模型选择和评估)
* [3.1. 交叉验证:评估估算器的表现](docs/30.md?id=_31-交叉验证:评估估算器的表现)
* [3.2. 调整估计器的超参数](docs/31.md?id=_32-调整估计器的超参数)
* [3.3. 模型评估: 量化预测的质量](docs/32.md?id=_33-模型评估--量化预测的质量)
* [3.4. 模型持久化](docs/33.md?id=_34-模型持久化)
* [3.5. 验证曲线: 绘制分数以评估模型](docs/34.md?id=_35-验证曲线--绘制分数以评估模型)
* [4. 检验](docs/35.md?id=_4--检验)
* [4.1. 部分依赖图](docs/36.md?id=_41-部分依赖图)
* [5. 数据集转换](docs/37.md?id=_5-数据集转换)
* [5.1. Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器](docs/38.md?id=_51-pipeline(管道)和-featureunion(特征联合)--合并的评估器)
* [5.2. 特征提取](docs/39.md?id=_52-特征提取)
* [5.3 预处理数据](docs/40.md?id=_53-预处理数据)
* [5.4 缺失值插补](docs/41.md?id=_54-缺失值插补)
* [5.5. 无监督降维](docs/42.md?id=_55-无监督降维)
* [5.6. 随机投影](docs/43.md?id=_56-随机投影)
* [5.7. 内核近似](docs/44.md?id=_57-内核近似)
* [5.8. 成对的矩阵, 类别和核函数](docs/45.md?id=_58-成对的矩阵,-类别和核函数)
* [5.9. 预测目标 (`y`) 的转换](docs/46.md?id=_59-预测目标--的转换)
* [6. 数据集加载工具](docs/47.md?id=_6-数据集加载工具)
* [6.1. 通用数据集 API](docs/47.md?id=_61-通用数据集-api)
* [6.2. 玩具数据集](docs/47.md?id=_62-玩具数据集)
* [6.3 真实世界中的数据集](docs/47.md?id=_63-真实世界中的数据集)
* [6.4. 样本生成器](docs/47.md?id=_64-样本生成器)
* [6.5. 加载其他数据集](docs/47.md?id=_65-加载其他数据集)
* [7. 使用scikit-learn计算](docs/48.md?id=_7-使用scikit-learn计算)
* [7.1. 大规模计算的策略: 更大量的数据](docs/48.md?id=_71-大规模计算的策略--更大量的数据)
* [7.2. 计算性能](docs/48.md?id=_72-计算性能)
* [7.3. 并行性、资源管理和配置](docs/48.md?id=_73-并行性、资源管理和配置)
* [教程](docs/50.md)
* [使用 scikit-learn 介绍机器学习](docs/51.md)
* [关于科学数据处理的统计学习教程](docs/52.md)
* [机器学习: scikit-learn 中的设置以及预估对象](docs/53)
* [监督学习:从高维观察预测输出变量](docs/54)
* [模型选择:选择估计量及其参数](docs/55)
* [无监督学习: 寻求数据表示](docs/56)
* [把它们放在一起](docs/57)
* [寻求帮助](docs/58)
* [处理文本数据](docs/76.md)
* [选择正确的评估器(estimator.md)](docs/77.md)
* [外部资源,视频和谈话](docs/78.md)
* [API 参考](https://scikit-learn.org/stable/modules/classes.html)
* [常见问题](docs/63.md)
* [时光轴](docs/64.md)
# 线性回归
>翻译者:[@Loopy](https://github.com/loopyme)
>校验者:未完成校验
本例仅使用糖尿病数据集的第一个特征,来展示线性回归在二维数据上的表现。线性回归确定一个界限(即图中直线),目标是使得数据集中的实际值与线性回归预测值之间的残差平方和最小。
计算了系数、残差平方和和方差分数。
```python
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score,explained_variance_score
```
```python
# 加载数据集
diabetes = datasets.load_diabetes()
```
```python
# 只使用1个特征
diabetes_X = diabetes.data[:, np.newaxis, 2]
```
```python
# 划分训练,测试集
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]
diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]
```
```python
# 创建线性回归模型
regr = linear_model.LinearRegression()
# 训练这个模型
regr.fit(diabetes_X_train, diabetes_y_train)
# 使用模型做预测
diabetes_y_pred = regr.predict(diabetes_X_test)
```
```python
# 评价预测结果
print('回归系数(coef_):', regr.coef_)
print("均方残差(MSE): %.2f"% mean_squared_error(diabetes_y_test, diabetes_y_pred))
print('解释方差得分(r2_score): %.2f' % r2_score(diabetes_y_test, diabetes_y_pred))
```
回归系数(coef_): [938.23786125]
均方残差(MSE): 2548.07
解释方差得分(r2_score): 0.47
```python
# 绘制输出
plt.scatter(diabetes_X_test, diabetes_y_test, color='black')
plt.plot(diabetes_X_test, diabetes_y_pred, color='blue', linewidth=3)
plt.xticks(())
plt.yticks(())
plt.show()
```
![png]()
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
# 1.14\. 半监督学习
# 1.14. 半监督学习
校验者:
        [@STAN,废柴0.1](https://github.com/apachecn/scikit-learn-doc-zh)
[@Loopy](https://github.com/loopyme)
翻译者:
        [@那伊抹微笑](https://github.com/apachecn/scikit-learn-doc-zh)
[半监督学习](https://en.wikipedia.org/wiki/Semi-supervised_learning) 适用于在训练数据上的一些样本数据没有贴上标签的情况。 [`sklearn.semi_supervised`](classes.html#module-sklearn.semi_supervised "sklearn.semi_supervised") 中的半监督估计, 能够利用这些附加的未标记数据来更好地捕获底层数据分布的形状,并将其更好地类推到新的样本。 当我们有非常少量的已标签化的点和大量的未标签化的点时,这些算法表现均良好。
&lt;cite&gt;y&lt;/cite&gt; 中含有未标记的数据
> *y* 中含有未标记的数据
>
>在使用 `fit` 方法训练数据时, 将标识符与已标签化的数据一起分配给未标签化的点是尤其重要的. 实现该标记的方法是使用整数值 ![-1](img/8b3be66a25e0c33787b341667b261360.jpg).
在使用 `fit` 方法训练数据时, 将标识符与已标签化的数据一起分配给未标签化的点是尤其重要的. 实现该标记的方法是使用整数值 ![-1](img/8b3be66a25e0c33787b341667b261360.jpg).
## 1.14.1\. 标签传播
## 1.14.1. 标签传播
标签传播表示半监督图推理算法的几个变体。
```py
该模型的一些特性如下:
```
*该模型的一些特性如下:*
* 可用于分类和回归任务
* Kernel methods to project data into alternate dimensional spaces
* 使用内核方法将数据投影到备用维度空间
&lt;cite&gt;scikit-learn&lt;/cite&gt; 提供了两种标签传播模型: [`LabelPropagation`](generated/sklearn.semi_supervised.LabelPropagation.html#sklearn.semi_supervised.LabelPropagation "sklearn.semi_supervised.LabelPropagation")[`LabelSpreading`](generated/sklearn.semi_supervised.LabelSpreading.html#sklearn.semi_supervised.LabelSpreading "sklearn.semi_supervised.LabelSpreading") 。 两者都通过在输入的 dataset(数据集)中的所有 items(项)上构建 similarity graph (相似图)来进行工作。
*scikit-learn* 提供了两种标签传播模型: [`LabelPropagation`](https://scikit-learn.org/stable/modules/generated/sklearn.semi_supervised.LabelPropagation.html#sklearn.semi_supervised.LabelPropagation "sklearn.semi_supervised.LabelPropagation")[`LabelSpreading`](https://scikit-learn.org/stable/modules/generated/sklearn.semi_supervised.LabelSpreading.html#sklearn.semi_supervised.LabelSpreading "sklearn.semi_supervised.LabelSpreading") 。 两者都通过在输入的 dataset(数据集)中的所有 items(项)上构建 similarity graph (相似图)来进行工作。
[![http://sklearn.apachecn.org/cn/0.19.0/_images/sphx_glr_plot_label_propagation_structure_0011.png](img/f38f84b73c7da2884c38bdfca1a38b1c.jpg)](../auto_examples/semi_supervised/plot_label_propagation_structure.html)
[![http://sklearn.apachecn.org/cn/0.19.0/_images/sphx_glr_plot_label_propagation_structure_0011.png](img/f38f84b73c7da2884c38bdfca1a38b1c.jpg)](https://scikit-learn.org/stable/auto_examples/semi_supervised/plot_label_propagation_structure.html)
**标签传播说明:** _未标签化的观察值结构与 class(类)结构一致, 因此可以将 class(类)标签传播到训练集的未标签化的观察值_
[`LabelPropagation`](generated/sklearn.semi_supervised.LabelPropagation.html#sklearn.semi_supervised.LabelPropagation "sklearn.semi_supervised.LabelPropagation")[`LabelSpreading`](generated/sklearn.semi_supervised.LabelSpreading.html#sklearn.semi_supervised.LabelSpreading "sklearn.semi_supervised.LabelSpreading") 在对图形的相似性矩阵, 以及对标签分布的 clamping effect(夹持效应)的修改方面不太一样。 Clamping 允许算法在一定程度上改变真实标签化数据的权重。 该 [`LabelPropagation`](generated/sklearn.semi_supervised.LabelPropagation.html#sklearn.semi_supervised.LabelPropagation "sklearn.semi_supervised.LabelPropagation") 算法执行输入标签的 hard clamping, 这意味着 ![\alpha=0](img/1ff751c4de3bbad5543f0dbbad73dd35.jpg) 。 这些 clamping factor 可以不是很严格的, 例如 ![\alpha=0.2](img/db30d43fd890d5f28b84a667ddfbb39d.jpg) , 这意味着我们将始终保留原始标签分配的 80%, 但该算法可以将其分布的置信度改变在 20% 以内。
[`LabelPropagation`](https://scikit-learn.org/stable/modules/generated/sklearn.semi_supervised.LabelPropagation.html#sklearn.semi_supervised.LabelPropagation "sklearn.semi_supervised.LabelPropagation")[`LabelSpreading`](https://scikit-learn.org/stable/modules/generated/sklearn.semi_supervised.LabelSpreading.html#sklearn.semi_supervised.LabelSpreading "sklearn.semi_supervised.LabelSpreading") 在对图形的相似性矩阵, 以及对标签分布的 clamping effect(夹持效应)的修改方面不太一样。 Clamping 允许算法在一定程度上改变真实标签化数据的权重。 该 [`LabelPropagation`](https://scikit-learn.org/stable/modules/generated/sklearn.semi_supervised.LabelPropagation.html#sklearn.semi_supervised.LabelPropagation "sklearn.semi_supervised.LabelPropagation") 算法执行输入标签的 hard clamping, 这意味着 ![\alpha=0](img/1ff751c4de3bbad5543f0dbbad73dd35.jpg) 。 这些 clamping factor 可以不是很严格的, 例如 ![\alpha=0.2](img/db30d43fd890d5f28b84a667ddfbb39d.jpg) , 这意味着我们将始终保留原始标签分配的 80%, 但该算法可以将其分布的置信度改变在 20% 以内。
[`LabelPropagation`](generated/sklearn.semi_supervised.LabelPropagation.html#sklearn.semi_supervised.LabelPropagation "sklearn.semi_supervised.LabelPropagation") 使用原始相似性矩阵从未修改的数据来构建。 [`LabelSpreading`](generated/sklearn.semi_supervised.LabelSpreading.html#sklearn.semi_supervised.LabelSpreading "sklearn.semi_supervised.LabelSpreading") 最小化具有正则化属性的损耗函数, 因此它通常更适用于噪声数据。 该算法在原始图形的修改版本上进行迭代, 并通过计算 normalized graph Laplacian matrix (归一化图拉普拉斯矩阵)来对边缘的权重进行归一化。 此过程也用于 [Spectral clustering](clustering.html#spectral-clustering)
[`LabelPropagation`](https://scikit-learn.org/stable/modules/generated/sklearn.semi_supervised.LabelPropagation.html#sklearn.semi_supervised.LabelPropagation "sklearn.semi_supervised.LabelPropagation") 使用原始相似性矩阵从未修改的数据来构建。 [`LabelSpreading`](https://scikit-learn.org/stable/modules/generated/sklearn.semi_supervised.LabelSpreading.html#sklearn.semi_supervised.LabelSpreading "sklearn.semi_supervised.LabelSpreading") 最小化具有正则化属性的损耗函数, 因此它通常更适用于噪声数据。 该算法在原始图形的修改版本上进行迭代, 并通过计算 normalized graph Laplacian matrix (归一化图拉普拉斯矩阵)来对边缘的权重进行归一化。 此过程也用于 [Spectral clustering](clustering.html#spectral-clustering)
标签传播模型有两种内置的 kernel methods(核函数)。 kernel (核)的选择会影响算法的可扩展性和性能。 以下是可用的:
> * rbf (![\exp(-\gamma |x-y|^2), \gamma &gt; 0](img/26f66401927461c0129b7f4ad33e5322.jpg)). ![\gamma](img/6552bde3d3999c1a9728016416932af7.jpg) 通过关键字 gamma 来指定。
> * knn (![1[x' \in kNN(x)]](img/6db85b1ad926d9ad860d58629ff5f235.jpg)). ![k](img/f93871977da52a6d11045d57c3e18728.jpg) 通过关键字 n_neighbors 来指定。
* rbf (![\exp(-\gamma |x-y|^2), \gamma &gt; 0](img/26f66401927461c0129b7f4ad33e5322.jpg)). ![\gamma](img/6552bde3d3999c1a9728016416932af7.jpg) 通过关键字 gamma 来指定。
* knn (![1[x' \in kNN(x)]](img/6db85b1ad926d9ad860d58629ff5f235.jpg)). ![k](img/f93871977da52a6d11045d57c3e18728.jpg) 通过关键字 n_neighbors 来指定。
RBF 核将产生一个完全连接的图形, 它通过密集矩阵在内存中表示。 该矩阵可能非常大, 与算法的每次迭代执行全矩阵乘法计算的成本相结合可导致超长的运行时间。 在另一方面, KNN 核将产生更多的内存友好的稀疏矩阵, 这样可以大幅度的减少运行时间。
例子
* [Decision boundary of label propagation versus SVM on the Iris dataset](../auto_examples/semi_supervised/plot_label_propagation_versus_svm_iris.html#sphx-glr-auto-examples-semi-supervised-plot-label-propagation-versus-svm-iris-py)
* [Label Propagation learning a complex structure](../auto_examples/semi_supervised/plot_label_propagation_structure.html#sphx-glr-auto-examples-semi-supervised-plot-label-propagation-structure-py)
* [Label Propagation digits active learning](../auto_examples/semi_supervised/plot_label_propagation_digits_active_learning.html#sphx-glr-auto-examples-semi-supervised-plot-label-propagation-digits-active-learning-py)
参考
[1] Yoshua Bengio, Olivier Delalleau, Nicolas Le Roux. In Semi-Supervised Learning (2006), pp. 193-216
> **示例**
>
>* [Decision boundary of label propagation versus SVM on the Iris dataset](https://scikit-learn.org/stable/auto_examples/semi_supervised/plot_label_propagation_versus_svm_iris.html#sphx-glr-auto-examples-semi-supervised-plot-label-propagation-versus-svm-iris-py)
>* [Label Propagation learning a complex structure](https://scikit-learn.org/stable/auto_examples/semi_supervised/plot_label_propagation_structure.html#sphx-glr-auto-examples-semi-supervised-plot-label-propagation-structure-py)
>* [Label Propagation digits active learning](https://scikit-learn.org/stable/auto_examples/semi_supervised/plot_label_propagation_digits_active_learning.html#sphx-glr-auto-examples-semi-supervised-plot-label-propagation-digits-active-learning-py)
[2] Olivier Delalleau, Yoshua Bengio, Nicolas Le Roux. Efficient Non-Parametric Function Induction in Semi-Supervised Learning. AISTAT 2005 [http://research.microsoft.com/en-us/people/nicolasl/efficient_ssl.pdf](http://research.microsoft.com/en-us/people/nicolasl/efficient_ssl.pdf)
\ No newline at end of file
> **参考资料**
>* [1] Yoshua Bengio, Olivier Delalleau, Nicolas Le Roux. In Semi-Supervised Learning (2006), pp. 193-216
>* [2] Olivier Delalleau, Yoshua Bengio, Nicolas Le Roux. Efficient Non-Parametric Function Induction in Semi-Supervised Learning. AISTAT 2005 [http://research.microsoft.com/en-us/people/nicolasl/efficient_ssl.pdf](http://research.microsoft.com/en-us/people/nicolasl/efficient_ssl.pdf)
# 1.15\. 等式回归
# 1.15. 等式回归
校验者:
        [@STAN,废柴0.1](https://github.com/apachecn/scikit-learn-doc-zh)
翻译者:
        [@Damon](https://github.com/apachecn/scikit-learn-doc-zh)
[`IsotonicRegression`](generated/sklearn.isotonic.IsotonicRegression.html#sklearn.isotonic.IsotonicRegression "sklearn.isotonic.IsotonicRegression") 类对数据进行非降函数拟合. 它解决了如下的问题:
[`IsotonicRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.isotonic.IsotonicRegression.html#sklearn.isotonic.IsotonicRegression "sklearn.isotonic.IsotonicRegression") 类对数据进行非降函数拟合. 它解决了如下的问题:
> 最小化 ![\sum_i w_i (y_i - \hat{y}_i)^2](img/156554c81cfe5f0230627ac0487fd07f.jpg)
>
> 服从于 ![\hat{y}_{min} = \hat{y}_1 \le \hat{y}_2 ... \le \hat{y}_n = \hat{y}_{max}](img/6c446734a6837b7541db12e2b55f1a2b.jpg)
* 最小化 ![\sum_i w_i (y_i - \hat{y}_i)^2](img/156554c81cfe5f0230627ac0487fd07f.jpg)
* 服从于 ![\hat{y}_{min} = \hat{y}_1 \le \hat{y}_2 ... \le \hat{y}_n = \hat{y}_{max}](img/6c446734a6837b7541db12e2b55f1a2b.jpg)
其中每一个 ![w_i](img/6689aa593e8e42bb5c2caa474e642b5f.jpg) 是 strictly 正数而且每个 ![y_i](img/4a22ca544916918b2358e5fc7c71b8e6.jpg) 是任意实 数. 它生成一个由平方误差接近的不减元素组成的向量.实际上这一些元素形成 一个分段线性的函数.
[![http://sklearn.apachecn.org/cn/0.19.0/_images/sphx_glr_plot_isotonic_regression_0011.png](img/87ae31ef4f2e7b4385b9a25aa8fed533.jpg)](../auto_examples/plot_isotonic_regression.html)
\ No newline at end of file
[![http://sklearn.apachecn.org/cn/0.19.0/_images/sphx_glr_plot_isotonic_regression_0011.png](img/87ae31ef4f2e7b4385b9a25aa8fed533.jpg)](https://scikit-learn.org/stable/auto_examples/plot_isotonic_regression.html)
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
# 4.1. 部分依赖图
校验者:
待核验
翻译者:
        [@Loopy](https://github.com/loopyme)
部分依赖图(以下简称PDP)显示了目标响应[1]和一组“目标”特征之间的依赖关系,并边缘化所有其他特征(“补充”特征)的值。直观地,我们可以将部分依赖关系解释为预期目标响应作为“目标”特征的函数。
由于人类感知的限制,目标特征集的大小必须很小(通常是一个或两个),因此目标特征通常需要从最重要的特征中选择。
下图展示了使用[GradientBoostingRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html#sklearn.ensemble.GradientBoostingRegressor)实现的,加利福尼亚州住房数据集的四个单向和一个双向PDP:
[![sphx_glr_plot_partial_dependence_0021.png](img/sphx_glr_plot_partial_dependence_0021.png)](https://scikit-learn.org/stable/auto_examples/inspection/plot_partial_dependence.html)
单向PDP告诉我们目标响应和目标特征(如线性、非线性)之间的相互作用。上图左上方的图表显示了一个地区的收入中位数对房价中位数的影响;我们可以清楚地看到它们之间的线性关系。注意,PDP假设目标特征独立于补体特征,而这一假设在实践中经常被推翻。
具有两个目标特征的PDP显示了这两个特征之间的相互作用。例如,上图中的双变量PDP显示了房价中值与房屋年龄和每户平均居住者的联合值之间的关系。我们可以清楚地看到这两个特征之间的相互作用:对于平均入住率大于2的情况,房价几乎与房屋的年龄无关,而对于数值小于2的情况,则与年龄有很强的依赖关系。
[`sklearn.inspection`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.inspection)提供了一个方便的函数[`plot_partial_dependency`](https://scikit-learn.org/stable/modules/generated/sklearn.inspection.plot_partial_dependence.html#sklearn.inspection.plot_partial_dependence)来创建单向和双向PDP。在下面的例子中,我们展示了如何创建一个局部依赖图的网格:两个用于特征0和1的单向PDP,以及两个特征之间的双向PDP:
```py
>>> from sklearn.datasets import make_hastie_10_2
>>> from sklearn.ensemble import GradientBoostingClassifier
>>> from sklearn.inspection import plot_partial_dependence
>>> X, y = make_hastie_10_2(random_state=0)
>>> clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0,
... max_depth=1, random_state=0).fit(X, y)
>>> features = [0, 1, (0, 1)]
>>> plot_partial_dependence(clf, X, features)
```
您可以使用`plt.gcf()``plt.gca()`访问新创建的figure和axis对象。
对于多类分类,需要通过`target`参数设置类标签,来创建PDPs:
```py
>>> from sklearn.datasets import load_iris
>>> iris = load_iris()
>>> mc_clf = GradientBoostingClassifier(n_estimators=10,
... max_depth=1).fit(iris.data, iris.target)
>>> features = [3, 2, (3, 2)]
>>> plot_partial_dependence(mc_clf, X, features, target=0)
```
在多输出回归中,可以使用相同的参数`target`指定目标。
如果需要局部依赖函数的原始值而不是图,可以使用[`sklearn.inspection.partial_dependence`](https://scikit-learn.org/stable/modules/generated/sklearn.inspection.partial_dependence.html#sklearn.inspection.partial_dependence):
``` py
>>> from sklearn.inspection import partial_dependence
>>> pdp, axes = partial_dependence(clf, X, [0])
>>> pdp
array([[ 2.466..., 2.466..., ...
>>> axes
[array([-1.624..., -1.592..., ...
```
求局部依赖关系的值直接由`x`生成。对于双向局部依赖关系,则生成值的二维网格。由[`sklearn.inspection.partial_dependency`](https://scikit-learn.org/stable/modules/generated/sklearn.inspection.partial_dependence.html#sklearn.inspection.partial_dependence)返回的`values`字段会给出每个目标特征在网格中使用的实际值。它们也对应于图的轴线。
对于网格中“目标”特征的每个值,部分依赖函数需要将估计值对“补充”特征的所有可能值的预测边缘化。使用'brute'方法,可以通过用网格中的每个目标特征值替换X中的,并计算平均预测值来完成。
在决策树中,不需要参考训练数据('recursion'方法)就可以有效地评估这一点。对每个网格点执行加权树遍历:如果一个分割节点包含“目标”特征,则跟踪相应的左或右分支,否则同时跟踪两个分支,每个分支由输入该分支的训练样本的比例进行加权。最后,用所有访问叶的加权平均给出了部分依赖关系。注意,使用'recursion'方法时,`X`只用于生成网格,而不是计算平均预测。平均预测总是根据决策树训练的数据来计算的。
>**脚注**
>
>[1] 对于分类问题,目标响应可以是类的概率(二元分类的正类)或决策函数。
>**示例**
>* [Partial Dependence Plots](https://scikit-learn.org/stable/auto_examples/inspection/plot_partial_dependence.html#sphx-glr-auto-examples-inspection-plot-partial-dependence-py)
>**参考文献**
>* [HTF2009] T. Hastie, R. Tibshirani and J. Friedman, [The Elements of Statistical Learning](https://web.stanford.edu/~hastie/ElemStatLearn//), Second Edition, Section 10.13.2, Springer, 2009.
>* [Mol2019] C. Molnar, [Interpretable Machine Learning](https://christophm.github.io/interpretable-ml-book/), Section 5.1, 2019.
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
scikit-learn 教程 0.21.x
* [使用 scikit-learn 介绍机器学习](docs/51.md)
* [机器学习:问题设置](docs/51?id=机器学习:问题设置)
* [加载示例数据集]((docs/51?id=加载示例数据集))
* [学习和预测]((docs/51?id=学习和预测))
* [模型持久化]((docs/51?id=模型持久化))
* [规定]((docs/51?id=规定))
* [关于科学数据处理的统计学习教程](docs/52.md)
* [机器学习: scikit-learn 中的设置以及预估对象](docs/53)
* [数据集](docs/53?id=数据集)
* [预估对象](docs/53?id=预估对象)
* [监督学习:从高维观察预测输出变量](docs/54)
* [最近邻和维度惩罚](docs/54?id=最近邻和维度惩罚)
* [线性模型:从回归到稀疏](docs/54?id=线性模型:从回归到稀疏)
* [支持向量机(SVMs)](docs/54?id=支持向量机svms)
* [模型选择:选择估计量及其参数](docs/55)
* [分数和交叉验证分数](docs/55?id=分数和交叉验证分数)
* [交叉验证生成器](docs/55?id=交叉验证生成器)
* [网格搜索和交叉验证估计量](docs/55?id=网格搜索和交叉验证估计量)
* [无监督学习: 寻求数据表示](docs/56)
* [聚类: 对样本数据进行分组](docs/56?id=聚类*对样本数据进行分组)
* [分解: 将一个信号转换成多个成份并且加载](docs/56?id=分解*将一个信号转换成多个成份并且加载)
* [把它们放在一起](docs/57)
* [模型管道化](docs/57?id=模型管道化)
* [用特征面进行人脸识别](docs/57?id=用特征面进行人脸识别)
* [开放性问题: 股票市场结构](docs/57?id=开放性问题*股票市场结构)
* [寻求帮助](docs/58)
* [项目邮件列表](docs/58?id=项目邮件列表)
* [机器学习从业者的 Q&A 社区](docs/58?id=机器学习从业者的*qampa*社区)
* [处理文本数据](docs/59.md)
* [教程设置](docs/59?id=教程设置)
* [加载这 20 个新闻组的数据集](docs/59?id=加载这-20-个新闻组的数据集)
* [从文本文件中提取特征](docs/59?id=从文本文件中提取特征)
* [训练分类器](docs/59?id=训练分类器)
* [构建-pipeline(管道)](docs/59?id=构建-pipeline(管道))
* [在测试集上的性能评估](docs/59?id=在测试集上的性能评估)
* [使用网格搜索进行调参](docs/59?id=使用网格搜索进行调参)
* [练习](docs/59?id=练习)
* [快速链接](docs/59?id=快速链接)
* [选择正确的评估器(estimator.md)](docs/60.md)
* [外部资源,视频和谈话](docs/61.md)
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
# 寻求帮助
校验者:
        [@片刻](https://github.com/apachecn/scikit-learn-doc-zh)
翻译者:
        [@X](https://github.com/apachecn/scikit-learn-doc-zh)
## 项目邮件列表
如果您在使用 scikit 的过程中发现错误或者需要在说明文档中澄清的内容,可以随时通过 [Mailing List](http://scikit-learn.org/stable/support.html) 进行咨询。
## 机器学习从业者的 Q&A 社区
> &lt;colgroup&gt;&lt;col class="field-name"&gt; &lt;col class="field-body"&gt;&lt;/colgroup&gt;
> | Quora.com: | Quora有一个和机器学习问题相关的主题以及一些有趣的讨论: [https://www.quora.com/topic/Machine-Learning](https://www.quora.com/topic/Machine-Learning) |
> | --- | --- |
> | Stack Exchange: | Stack Exchange 系列网站包含 [`multiple subdomains for Machine Learning questions(机器学习问题的多个分支)`_](#id5)。 |
> | --- | --- |
– _’斯坦福大学教授 Andrew Ng 教授的机器学习优秀免费在线课程’: [https://www.coursera.org/learn/machine-learning](https://www.coursera.org/learn/machine-learning)
– _’另一个优秀的免费在线课程,对人工智能采取更一般的方法’: [https://www.udacity.com/course/intro-to-artificial-intelligence–cs271](https://www.udacity.com/course/intro-to-artificial-intelligence--cs271)
\ No newline at end of file
此差异已折叠。
# 选择正确的评估器(estimator)
校验者:
翻译者:
        [@李孟禹](https://github.com/apachecn/scikit-learn-doc-zh)
通常,解决机器学习问题的最困难的部分可能是找到恰当的的评估器(estimator)。
不同的评估器更适合不同类型的数据和不同的问题。
下面的流程图是一些粗略的指导,可以让用户根据自己的数据来选择应该尝试哪些评估器。
点击下图的任何评估器,查看其文档。
![](img/algo.jpg)
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册