Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
sklearn-doc-zh
提交
8b361893
S
sklearn-doc-zh
项目概览
OpenDocCN
/
sklearn-doc-zh
通知
4
Star
3
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
sklearn-doc-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
8b361893
编写于
8月 21, 2019
作者:
V
VPrincekin
提交者:
loopyme
8月 21, 2019
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
校验: 5. 数据集转换 + 5.1 Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器 (#369)
* 修改部分错误链接 * 修改错误索引 * 修改目录格式
上级
7fab4a3f
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
9 addition
and
8 deletion
+9
-8
docs/0.21.3/37.md
docs/0.21.3/37.md
+2
-1
docs/0.21.3/38.md
docs/0.21.3/38.md
+7
-7
未找到文件。
docs/0.21.3/37.md
浏览文件 @
8b361893
...
...
@@ -2,7 +2,7 @@
scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean(清理)(请参阅
[
预处理数据
](
40.md#53-预处理数据
)
), reduce(减少)(请参阅
[
无监督降维
](
42.md#55-无监督降维
)
), expand(扩展)(请参阅
[
内核近似
](
44.md#57-内核近似
)
)或 generate(生成)(请参阅
[
特征提取
](
39.md#52-特征提取
)
) feature representations(特征表示).
像其它预估计一样, 它们由具有
`fit`
方法的类来表示, 该方法从训练集学习模型参数(例如, 归一化的平均值和标准偏差)以及
将该转换模型应用于
`transform`
方法到
不可见数据. 同时
`fit_transform`
可以更方便和有效地建模与转换训练数据.
像其它预估计一样, 它们由具有
`fit`
方法的类来表示, 该方法从训练集学习模型参数(例如, 归一化的平均值和标准偏差)以及
`transform`
方法将该转换模型应用于
不可见数据. 同时
`fit_transform`
可以更方便和有效地建模与转换训练数据.
将
[
Pipeline(管道)和 FeatureUnion(特征联合): 合并的评估器
](
38.md#51-pipeline(管道)和-featureunion(特征联合)--合并的评估器
)
中 transformers(转换)使用并行的或者串联的方式合并到一起.
[
成对的矩阵, 类别和核函数
](
45.md#58-成对的矩阵,-类别和核函数
)
涵盖将特征空间转换为 affinity matrices(亲和矩阵), 而
[
预测目标 (y) 的转换
](
46.md#59-预测目标--的转换
)
考虑在 scikit-learn 中使用目标空间的转换(例如. 标签分类).
...
...
@@ -21,6 +21,7 @@ scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean(
*
[
5.3.2 非线性转换
](
40.md#532-非线性转换
)
*
[
5.3.3 归一化
](
40.md#533-归一化
)
*
[
5.3.4 类别特征编码
](
40.md#534-类别特征编码
)
*
[
5.3.5 离散化
](
40.md#535-离散化
)
*
[
5.3.6 缺失值补全
](
40.md#536-缺失值补全
)
*
[
5.3.7 生成多项式特征
](
40.md#537-生成多项式特征
)
*
[
5.3.8 自定义转换器
](
40.md#538-自定义转换器
)
...
...
docs/0.21.3/38.md
浏览文件 @
8b361893
...
...
@@ -157,28 +157,28 @@ Pipeline(...,
>**警告**:缓存转换器的副作用
>
>使用 [`Pipeline`](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline "sklearn.pipeline.Pipeline") 而不开启缓存功能,还是可以通过查看原始实例的,例如:
>```py
>
```
py
>>>
from
sklearn.datasets
import
load_digits
>>>
digits
=
load_digits
()
>>>
pca1
=
PCA
()
>>>
svm1
=
SVC
(
gamma
=
'scale'
)
>>>
pipe
=
Pipeline
([(
'reduce_dim'
,
pca1
),
(
'clf'
,
svm1
)])
>>>
pipe
.
fit
(
digits
.
data
,
digits
.
target
)
...
Pipeline
(
memory
=
None
,
steps
=
[(
'reduce_dim'
,
PCA
(...)),
(
'clf'
,
SVC
(...))],
verbose
=
False
)
>>>
# The pca instance can be inspected directly
>>>
print
(
pca1
.
components_
)
[[
-
1.77484909e-19
...
4.07058917e-18
]]
```
```
>开启缓存会在适配前触发转换器的克隆。因此,管道的转换器实例不能被直接查看。 在下面例子中, 访问 `PCA` 实例 `pca2` 将会引发 `AttributeError` 因为 `pca2` 是一个未适配的转换器。 这时应该使用属性 `named_steps` 来检查管道的评估器:
>```py
>
```
py
>>>
cachedir
=
mkdtemp
()
>>>
pca2
=
PCA
()
>>>
svm2
=
SVC
(
gamma
=
'scale'
)
>>> cached_pipe = Pipeline([('reduce_dim', pca2), ('clf', svm2)],
... memory=cachedir)
>>>
cached_pipe
=
Pipeline
([(
'reduce_dim'
,
pca2
),
(
'clf'
,
svm2
)],
memory
=
cachedir
)
>>>
cached_pipe
.
fit
(
digits
.
data
,
digits
.
target
)
...
Pipeline
(
memory
=
...,
...
...
@@ -189,7 +189,7 @@ Pipeline(...,
[[
-
1.77484909e-19
...
4.07058917e-18
]]
>>>
# Remove the cache directory
>>>
rmtree
(
cachedir
)
```
```
> **示例** :
>* [Selecting dimensionality reduction with Pipeline and GridSearchCV](https://scikit-learn.org/stable/auto_examples/plot_compare_reduction.html#sphx-glr-auto-examples-plot-compare-reduction-py)
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录