提交 1a5e7cfd 编写于 作者: W wizardforcel

2021-12-15 22:50:25

上级 c1d2bc4e
......@@ -92,7 +92,7 @@
例如,如果您对整个数据集进行标准化或标准化,然后使用交叉验证来估计模型的表现,则表明您已经犯了数据泄漏的罪。
在计算缩放因子(如最小值和最大值或平均值和标准差)时,您执行的数据重新缩放过程了解了训练数据集中数据的完整分布。这些知识被标记在重新调整的值中,并被交叉验证测试工具中的所有算法利用。
在计算缩放因子(如最小值和最大值或平均值和标准差)时,您执行的数据重新缩放过程了解了训练数据集中数据的完整分布。这些知识被标记在重缩放的值中,并被交叉验证测试工具中的所有算法利用。
在这种情况下,机器学习算法的非泄漏评估将计算用于在交叉验证的每个折叠内重新缩放数据的参数,并使用这些参数在每个循环上准备关于保持的测试折叠的数据。
......
......@@ -42,7 +42,7 @@
三个常见的数据预处理步骤是格式化,清理和采样:
* **格式化**:您选择的数据可能不是适合您使用的格式。数据可能位于关系数据库中,您希望它位于平面文件中,或者数据可能采用专有文件格式,您希望它位于关系数据库或文本文件中。
* **清洁**:清洁数据是删除或修复丢失的数据。可能存在不完整的数据实例,并且不包含您认为解决问题所需的数据。可能需要删除这些实例。此外,某些属性中可能存在敏感信息,这些属性可能需要完全匿名或从数据中删除。
* **清洁**:清洁数据是删除或修复缺失数据。可能存在不完整的数据实例,并且不包含您认为解决问题所需的数据。可能需要删除这些实例。此外,某些属性中可能存在敏感信息,这些属性可能需要完全匿名或从数据中删除。
* **采样**:可能存在的选择数据远远多于您需要使用的数据。更多数据可能导致算法运行时间更长,计算和内存需求更大。在考虑整个数据集之前,您可以采用所选数据的较小代表性样本,这样可以更快地探索和原型化解决方案。
您在数据上使用的机器学习工具很可能会影响您需要执行的预处理。您可能会重新访问此步骤。
......
......@@ -35,7 +35,7 @@
* **虚拟属性**:分类属性可以转换为n二进制属性,其中n是属性具有的类别(或级别)的数量。这些非规范化或分解的属性称为虚拟属性或虚拟变量。
* **转换后的属性**:可以将变换后的属性变量添加到数据集中,以便允许线性方法利用属性之间可能的线性和非线性关系。可以使用简单的变换,如log,square和square root。
* **缺少数据**:缺少数据的属性可以使用可靠的方法(例如k-最近邻居)估算丢失的数据。
* **缺少数据**:缺少数据的属性可以使用可靠的方法(例如k-最近邻居)估算缺失数据。
## 删除数据属性
......
......@@ -57,7 +57,7 @@
* **清理您的数据**。 _你能改善数据中的信号吗?_ 可能存在可以修复或删除的缺失或损坏的观察结果,或者可以修复或删除的合理范围之外的异常值,以提高数据质量。
* **重采样数据**。 _您可以重新采样数据以更改大小或分布吗?_ 也许您可以在实验中使用更小的数据样本来加速或过度采样或对特定类型的欠采样观察,以便更好地在数据集中表示它们。
* **重构你的问题**:_你能改变你正在解决的预测问题的类型吗?_ 将您的数据重新构建为回归,二元或多分类,时间序列,异常检测,评级,推荐等类型问题。
* **重新调整数据**。 _你能重新调整数字输入变量吗?_ 输入数据的标准化和标准化可以提高使用加权输入或距离测量的算法的表现。
* **重缩放数据**。 _你能重缩放数字输入变量吗?_ 输入数据的标准化和标准化可以提高使用加权输入或距离测量的算法的表现。
* **转换您的数据**。 _您能重塑数据分发吗?_ 使输入数据更高斯或通过指数函数传递可以更好地将数据中的特征暴露给学习算法。
* **投射您的数据**:_您可以将数据投影到较低维度的空间吗?_ 您可以使用无监督聚类或投影方法来创建数据集的全新压缩表示。
* **特征选择**。 _所有输入变量都同等重要吗?_ 使用特征选择和特征重要性方法创建数据的新视图,以便使用建模算法进行探索。
......
......@@ -85,7 +85,7 @@
1. 了解应用程序域和过程的目标
2. 创建目标数据集作为所有可用数据的子集
3. 数据清理和预处理,以消除噪音,处理丢失的数据和异常值
3. 数据清理和预处理,以消除噪音,处理缺失数据和异常值
4. 数据缩减和投影,以便专注于与问题相关的功能
5. 将进程的目标与数据挖掘方法相匹配。确定模型的目的,例如摘要或分类。
6. 选择数据挖掘算法以匹配模型的目的(从步骤5开始)
......
......@@ -137,7 +137,7 @@ Baseline: 81.68% (7.26%)
神经网络模型尤其适用于在数据规模和分布方面具有一致性的输入值。
建立神经网络模型时表格数据的有效数据chuli1方案是标准化,这是重新调整数据,使得数据每个属性的平均值为 0,标准偏差为 1.这种处理方法保留了高斯和高斯类分布,同时规范了数据每个属性的中心趋势。
建立神经网络模型时表格数据的有效数据chuli1方案是标准化,这是重缩放数据,使得数据每个属性的平均值为 0,标准偏差为 1.这种处理方法保留了高斯和高斯类分布,同时规范了数据每个属性的中心趋势。
我们可以使用 scikit-learn 使用 [StandardScaler](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html) 类来执行 Sonar 数据集的标准化。
......
......@@ -273,4 +273,4 @@ Keras 还提供了从业者友好的 API(即简单直观)。它包含了 [Th
* [用 Keras 逐步开发 Python 中的第一个神经网络](http://machinelearningmastery.com/tutorial-first-neural-network-python-keras/)
* [8 深度学习的鼓舞人心的应用](http://machinelearningmastery.com/inspirational-applications-deep-learning/)
* [多层感知机神经网络崩溃课程](http://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/)
* [多层感知机神经网络速成课](http://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/)
......@@ -116,7 +116,7 @@
对于具有多个类的分类问题,可以在输出变量上使用相同的热编码。这将从单个列创建一个二进制向量,该向量很容易直接与网络输出层中神经元的输出进行比较,如上所述,将为每个类输出一个值。
神经网络要求输入以一致的方式缩放。您可以将其重新调整到 0 到 1 之间的范围,称为标准化。另一种流行的技术是将其标准化,使每列的分布均值为零,标准偏差为 1。
神经网络要求输入以一致的方式缩放。您可以将其重缩放到 0 到 1 之间的范围,称为标准化。另一种流行的技术是将其标准化,使每列的分布均值为零,标准偏差为 1。
缩放也适用于图像像素数据。诸如单词的数据可以被转换为整数,诸如数据集中的单词的流行度等级以及其他编码技术。
......
......@@ -23,7 +23,7 @@
如何开始深度学习自然语言处理
照片由 [Daniel R. Blume](https://www.flickr.com/photos/drb62/2054107736/) ,保留一些权利。
## 谁是这个崩溃课程
## 谁是这个速成课
在我们开始之前,让我们确保您在正确的位置。
......
......@@ -223,7 +223,7 @@
对单词频率进行评分的问题在于,高频率的单词在文档中开始占主导地位(例如,较大的分数),但是可能不包含与模型一样多的“信息内容”,因为稀有但可能是领域特定的单词。
一种方法是通过它们在所有文档中出现的频率来重新调整单词的频率,使得在所有文档中频繁出现的频繁单词(如“the”)的分数受到惩罚。
一种方法是通过它们在所有文档中出现的频率来重缩放单词的频率,使得在所有文档中频繁出现的频繁单词(如“the”)的分数受到惩罚。
这种评分方法称为术语频率 - 反向文档频率,简称 TF-IDF,其中:
......
......@@ -253,7 +253,7 @@ LSTM 模型中的一个层由特殊单元组成,这些单元具有控制输入
有关长期短期记忆网络的更多信息,请参阅帖子:
* [深度学习的循环神经网络崩溃课程](https://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/)
* [深度学习的循环神经网络速成课](https://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/)
与可以读取输入序列的 CNN 一样,LSTM 读取输入观察序列并开发其自己的输入序列的内部表示。与 CNN 不同,LSTM 的训练方式应特别注意观察结果和输入序列中时间步长的预测误差,称为反向传播。
......
......@@ -130,7 +130,7 @@ Name: Sales, dtype: float64
1. **转换时间序列数据,使其静止**。具体而言,滞后= 1 差分以消除数据中的增加趋势。
2. **将时间序列转换为监督学习问题**。具体而言,将数据组织成输入和输出模式,其中前一时间步的观察被用作预测当前时间步的观察的输入
3. **将观察结果转换为具有特定比例**。具体而言,将数据重新调整为-1 到 1 之间的值。
3. **将观察结果转换为具有特定比例**。具体而言,将数据重缩放为-1 到 1 之间的值。
这些变换在预测时反转,在计算和误差分数之前将它们恢复到原始比例。
......@@ -736,7 +736,7 @@ def run():
本节列出了您可能想要探索的扩展和后续实验。
* **Shuffle vs No Shuffle** 。没有使用洗牌,这是不正常的。在拟合时间序列预测模型时,开发一个实验来比较改组与训练集的无改组。
* **归一化方法**。数据重新调整为-1 到 1,这是 tanh 激活函数的典型值,未在模型配置中使用。探索其他重新缩放,例如 0-1 规范化和标准化以及对模型表现的影响。
* **归一化方法**。数据重缩放为-1 到 1,这是 tanh 激活函数的典型值,未在模型配置中使用。探索其他重新缩放,例如 0-1 规范化和标准化以及对模型表现的影响。
* **多层**。探索使用多个隐藏层来增加网络容量,以了解更复杂的多步模式。
* **特色工程**。探索使用其他功能,例如错误时间序列,甚至每个观察的日期时间元素。
......
......@@ -193,7 +193,7 @@ for i in range(n_timesteps):
有关处理缺失数据的更常用方法,请参阅帖子:
* [如何使用 Python 处理丢失的数据](http://machinelearningmastery.com/handle-missing-data-python/)
* [如何使用 Python 处理缺失数据](http://machinelearningmastery.com/handle-missing-data-python/)
处理缺失序列数据的最佳方法取决于您的问题和您选择的网络配置。我建议探索每种方法,看看哪种方法效果最好。
......
......@@ -436,7 +436,7 @@ def summarize_scores(name, score, scores):
有关 Recurrent Neural Networks 的更多信息,请参阅帖子:
* [深度学习的循环神经网络崩溃课程](https://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/)
* [深度学习的循环神经网络速成课](https://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/)
有关长期短期记忆网络的更多信息,请参阅帖子:
......@@ -1861,7 +1861,7 @@ lstm: [367.929] 416.3, 379.7, 334.7, 362.3, 374.7, 284.8, 406.7
### 帖子
* [多步时间序列预测的 4 种策略](https://machinelearningmastery.com/multi-step-time-series-forecasting/)
* [深度学习的循环神经网络崩溃课程](https://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/)
* [深度学习的循环神经网络速成课](https://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/)
* [专家对长短期记忆网络的简要介绍](https://machinelearningmastery.com/gentle-introduction-long-short-term-memory-networks-experts/)
* [关于 LSTM 对时间序列预测的适用性](https://machinelearningmastery.com/suitability-long-short-term-memory-networks-time-series-forecasting/)
* [CNN 长短期记忆网络](https://machinelearningmastery.com/cnn-long-short-term-memory-networks/)
......
......@@ -485,12 +485,12 @@ def summarize_error(name, total_mae, times_mae):
这需要两个数据准备步骤:
* 处理丢失的数据。
* 处理缺失数据。
* 准备输入输出模式。
目前,我们将关注 39 个目标变量并忽略气象和元数据。
### 处理丢失的数据
### 处理缺失数据
对于 39 个目标变量,块由五小时或更少的小时观察组成。
......
......@@ -21,7 +21,7 @@
如何开始深度学习时间序列预测(7 天迷你课程)
摄影: [Brian Richardson](https://www.flickr.com/photos/seriousbri/3736154699/) ,保留一些权利。
## 谁是这个崩溃课程
## 谁是这个速成课
在我们开始之前,让我们确保您在正确的位置。
......@@ -317,7 +317,7 @@ print(yhat)
### 更多信息
* [专家对长短期记忆网络的简要介绍](https://machinelearningmastery.com/gentle-introduction-long-short-term-memory-networks-experts/)
* [深度学习的循环神经网络崩溃课程](https://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/)
* [深度学习的循环神经网络速成课](https://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/)
在下一课中,您将了解如何针对单变量时间序列预测问题开发混合 CNN-LSTM 模型。
......
......@@ -85,7 +85,7 @@ EMC Data Science Global Hackathon 数据集或简称“_ 空气质量预测 _”
查看文件的内容,我们可以看到数据文件包含标题行。
我们还可以看到丢失的数据标有'`NA`'值,Pandas 将自动转换为`NumPy.NaN`
我们还可以看到缺失数据标有'`NA`'值,Pandas 将自动转换为`NumPy.NaN`
我们可以看到'_ 工作日 _'列包含作为字符串的日期,而所有其他数据都是数字。
......@@ -1378,7 +1378,7 @@ PM2.5 AQI & Speciation Mass, 3
* 功率变换,高斯。
* 季节性差异,存在季节性结构。
为了解决丢失的数据,在某些情况下,可能需要通过简单的持久性或平均来进行估算。
为了解决缺失数据,在某些情况下,可能需要通过简单的持久性或平均来进行估算。
在其他情况下,并且取决于模型的选择,可以直接从 NaN 值学习作为观察(例如 XGBoost 可以这样做)或填充 0 值并屏蔽输入(例如 LSTM 可以这样做)。
......@@ -1419,7 +1419,7 @@ PM2.5 AQI & Speciation Mass, 3
CNN 能够将多变量输入时间序列数据的长序列提取到小特征映射中,并且实质上从与预测最相关的序列中学习特征。它们在输入序列中处理噪声和特征不变性的能力可能是有用的。与其他神经网络一样,CNN 可以输出向量以预测预测的提前期。
LSTM 旨在处理序列数据,并可通过屏蔽直接支持丢失的数据。它们也能够从长输入序列自动进行特征学习,单独或与 CNN 结合可以很好地解决这个问题。与编解码器架构一起,LSTM 网络可用于本地预测多个交付周期。
LSTM 旨在处理序列数据,并可通过屏蔽直接支持缺失数据。它们也能够从长输入序列自动进行特征学习,单独或与 CNN 结合可以很好地解决这个问题。与编解码器架构一起,LSTM 网络可用于本地预测多个交付周期。
### 评估
......
......@@ -140,7 +140,7 @@ Min: 10.000000, Max: 100.000000
### 标准化系列数据
标准化数据集涉及重新调整值的分布,以便观察值的平均值为 0,标准差为 1。
标准化数据集涉及重缩放值的分布,以便观察值的平均值为 0,标准差为 1。
这可以被认为是减去平均值或使数据居中。
......@@ -315,13 +315,13 @@ Mean: 5.355556, StandardDeviation: 2.712568
* **数据分析**。使用数据分析可以帮助您更好地了解数据。例如,一个简单的直方图可以帮助您快速了解数量的分布情况,看看标准化是否有意义。
* **缩放每个系列**。如果您的问题有多个系列,请将每个系列视为单独的变量,然后分别对其进行缩放。
* **在合适的时间缩放**。在正确的时间应用任何缩放变换非常重要。例如,如果您有一系列非静止的数量,则在首次使数据静止后进行缩放可能是合适的。在将系列转换为监督学习问题后对其进行扩展是不合适的,因为每个列的处理方式不同,这是不正确的。
* **如果怀疑**则缩放。您可能需要重新调整输入和输出变量。如果有疑问,至少要对数据进行标准化。
* **如果怀疑**则缩放。您可能需要重缩放输入和输出变量。如果有疑问,至少要对数据进行标准化。
## 进一步阅读
本节列出了扩展时要考虑的一些其他资源。
* [我应该规范化/标准化/重新调整数据吗?](ftp://ftp.sas.com/pub/neural/FAQ2.html#A_std) 神经网络常见问题解答
* [我应该规范化/标准化/重缩放数据吗?](ftp://ftp.sas.com/pub/neural/FAQ2.html#A_std) 神经网络常见问题解答
* [MinMaxScaler scikit-learn API 文档](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html)
* [StandardScaler scikit-learn API 文档](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)
* [如何使用 Python 从零开始扩展机器学习数据](http://machinelearningmastery.com/scale-machine-learning-data-scratch-python/)
......
......@@ -150,7 +150,7 @@ Name: Sales, dtype: float64
1. **转换时间序列数据,使其静止**。具体而言,滞后= 1 差分以消除数据中的增加趋势。
2. **将时间序列转换为监督学习问题**。具体而言,将数据组织成输入和输出模式,其中前一时间步的观察被用作预测当前时间步的观察的输入
3. **将观察结果转换为具有特定比例**。具体而言,要将数据重新调整为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
3. **将观察结果转换为具有特定比例**。具体而言,要将数据重缩放为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
这些变换在预测时反转,在计算和误差分数之前将它们恢复到原始比例。
......
......@@ -572,7 +572,7 @@ def difference(dataset, interval=1):
我们可以使用 sklearn 库中的`MinMaxScaler`来缩放数据。
将这些放在一起,我们可以更新`prepare_data()`函数以首先区分数据并重新调整它,然后执行转换为监督学习问题并训练测试集,就像我们之前使用持久性示例一样。
将这些放在一起,我们可以更新`prepare_data()`函数以首先区分数据并重缩放它,然后执行转换为监督学习问题并训练测试集,就像我们之前使用持久性示例一样。
除了训练和测试数据集之外,该函数现在返回一个缩放器。
......
......@@ -12,7 +12,7 @@
* 如何将原始数据集转换为可用于时间序列预测的内容。
* 如何准备数据并使 LSTM 适合多变量时间序列预测问题。
* 如何做出预测并将结果重新调整回原始单位。
* 如何做出预测并将结果重缩放回原始单位。
让我们开始吧。
......@@ -682,7 +682,7 @@ Test RMSE: 27.177
* 如何将原始数据集转换为可用于时间序列预测的内容。
* 如何准备数据并使 LSTM 适合多变量时间序列预测问题。
* 如何做出预测并将结果重新调整回原始单位。
* 如何做出预测并将结果重缩放回原始单位。
你有任何问题吗?
在下面的评论中提出您的问题,我会尽力回答。
\ No newline at end of file
......@@ -83,7 +83,7 @@ print(data.shape)
如果没有,您可能希望查看插入缺失值,将数据重新采样到新的时间刻度,或者开发可以处理缺失值的模型。看帖子如:
* [如何使用 Python 处理序列预测问题中的缺失时间步长](https://machinelearningmastery.com/handle-missing-timesteps-sequence-prediction-problems-python/)
* [如何使用 Python 处理丢失的数据](https://machinelearningmastery.com/handle-missing-data-python/)
* [如何使用 Python 处理缺失数据](https://machinelearningmastery.com/handle-missing-data-python/)
* [如何使用 Python 重新取样和插值您的时间序列数据](https://machinelearningmastery.com/resample-interpolate-time-series-data-python/)
在这里,我们只删除第一列:
......@@ -186,7 +186,7 @@ print(data.shape)
* [如何在 Python 中加载和探索时间序列数据](https://machinelearningmastery.com/load-explore-time-series-data-python/)
* [如何在 Python 中加载机器学习数据](https://machinelearningmastery.com/load-machine-learning-data-python/)
* [如何使用 Python 处理序列预测问题中的缺失时间步长](https://machinelearningmastery.com/handle-missing-timesteps-sequence-prediction-problems-python/)
* [如何使用 Python 处理丢失的数据](https://machinelearningmastery.com/handle-missing-data-python/)
* [如何使用 Python 处理缺失数据](https://machinelearningmastery.com/handle-missing-data-python/)
* [如何使用 Python 重新取样和插值您的时间序列数据](https://machinelearningmastery.com/resample-interpolate-time-series-data-python/)
* [如何处理具有长短期记忆循环神经网络的超长序列](https://machinelearningmastery.com/handle-long-sequences-long-short-term-memory-recurrent-neural-networks/)
* [如何准备 Keras 中截断反向传播的序列预测](https://machinelearningmastery.com/truncated-backpropagation-through-time-in-keras/)
......
......@@ -152,7 +152,7 @@ Name: Sales, dtype: float64
1. **转换时间序列数据,使其静止**。具体地,_ 滞后= 1_ 差异以消除数据中的增加趋势。
2. **将时间序列转换为监督学习问题**。具体而言,将数据组织成输入和输出模式,其中前一时间步骤的观察被用作在当前时间步长预测观察的输入。
3. **将观察结果转换为具有特定比例**。具体而言,要将数据重新调整为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
3. **将观察结果转换为具有特定比例**。具体而言,要将数据重缩放为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
### LSTM 模型
......
......@@ -125,7 +125,7 @@ Name: Sales, dtype: float64
1. **转换时间序列数据,使其静止**。具体而言,滞后= 1 差分以消除数据中的增加趋势。
2. **将时间序列转换为监督学习问题**。具体而言,将数据组织成输入和输出模式,其中前一时间步的观察被用作预测当前时间步的观察的输入
3. **将观察结果转换为具有特定比例**。具体而言,要将数据重新调整为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
3. **将观察结果转换为具有特定比例**。具体而言,要将数据重缩放为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
这些变换在预测时反转,在计算和误差分数之前将它们恢复到原始比例。
......
......@@ -80,7 +80,7 @@ plt.show()
我们将保持简单并按原样处理数据。
通常,研究各种数据准备技术以重新调整数据并使其静止是一个好主意。
通常,研究各种数据准备技术以重缩放数据并使其静止是一个好主意。
## 长短期记忆网络
......@@ -140,7 +140,7 @@ dataset = dataframe.values
dataset = dataset.astype('float32')
```
LSTM 对输入数据的比例敏感,特别是在使用 sigmoid(默认)或 tanh 激活函数时。将数据重新调整到 0 到 1 的范围是一种很好的做法,也称为标准化。我们可以使用 scikit-learn 库中的 **MinMaxScaler** 预处理类轻松地规范化数据集。
LSTM 对输入数据的比例敏感,特别是在使用 sigmoid(默认)或 tanh 激活函数时。将数据重缩放到 0 到 1 的范围是一种很好的做法,也称为标准化。我们可以使用 scikit-learn 库中的 **MinMaxScaler** 预处理类轻松地规范化数据集。
```py
# normalize the dataset
......
......@@ -58,7 +58,7 @@ plt.show()
我们将保持简单并按原样处理数据。
通常,研究各种数据准备技术以重新调整数据并使其静止是一个好主意。
通常,研究各种数据准备技术以重缩放数据并使其静止是一个好主意。
## 多层感知机回归
......
......@@ -124,7 +124,7 @@ Name: Sales, dtype: float64
1. 转换时间序列数据,使其静止不动。具体而言,滞后= 1 差分以消除数据中的增加趋势。
2. 将时间序列转换为监督学习问题。具体而言,将数据组织成输入和输出模式,其中前一时间步的观察被用作预测当前时间步的观察的输入
3. 将观察结果转换为具有特定比例。具体而言,要将数据重新调整为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
3. 将观察结果转换为具有特定比例。具体而言,要将数据重缩放为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
这些变换在预测时反转,在计算和误差分数之前将它们恢复到原始比例。
......
......@@ -127,7 +127,7 @@ Name: Sales, dtype: float64
1. **转换时间序列数据,使其静止**。具体而言,滞后= 1 差分以消除数据中的增加趋势。
2. **将时间序列转换为监督学习问题**。具体而言,将数据组织成输入和输出模式,其中前一时间步的观察被用作预测当前时间步的观察的输入
3. **将观察结果转换为具有特定比例**。具体而言,要将数据重新调整为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
3. **将观察结果转换为具有特定比例**。具体而言,要将数据重缩放为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
在计算错误分数之前,这些变换在预测中反转以将它们返回到其原始比例。
......
......@@ -129,7 +129,7 @@ Name: Sales, dtype: float64
1. **转换时间序列数据,使其静止**。具体而言,滞后= 1 差分以消除数据中的增加趋势。
2. **将时间序列转换为监督学习问题**。具体而言,将数据组织成输入和输出模式,其中前一时间步的观察被用作预测当前时间步的观察的输入
3. **将观察结果转换为具有特定比例**。具体而言,将数据重新调整为-1 到 1 之间的值。
3. **将观察结果转换为具有特定比例**。具体而言,将数据重缩放为-1 到 1 之间的值。
这些变换在预测时反转,在计算和误差分数之前将它们恢复到原始比例。
......
......@@ -122,7 +122,7 @@ Name: Sales, dtype: float64
1. **转换时间序列数据,使其静止**。具体而言,滞后= 1 差分以消除数据中的增加趋势。
2. **将时间序列转换为监督学习问题**。具体而言,将数据组织成输入和输出模式,其中前一时间步的观察被用作预测当前时间步的观察的输入
3. **将观察结果转换为具有特定比例**。具体而言,要将数据重新调整为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
3. **将观察结果转换为具有特定比例**。具体而言,要将数据重缩放为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
这些变换在预测时反转,在计算和误差分数之前将它们恢复到原始比例。
......
......@@ -122,7 +122,7 @@ Name: Sales, dtype: float64
1. **转换时间序列数据,使其静止**。具体而言,滞后= 1 差分以消除数据中的增加趋势。
2. **将时间序列转换为监督学习问题**。具体而言,将数据组织成输入和输出模式,其中前一时间步的观察被用作在当前时间步长预测观测的输入
3. **将观察结果转换为具有特定比例**。具体而言,要将数据重新调整为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
3. **将观察结果转换为具有特定比例**。具体而言,要将数据重缩放为-1 到 1 之间的值,以满足 LSTM 模型的默认双曲正切激活函数。
这些变换在预测时反转,在计算和误差分数之前将它们恢复到原始比例。
......
......@@ -130,7 +130,7 @@ Name: Sales, dtype: float64
1. 转换时间序列数据,使其静止不动。具体而言,滞后= 1 差分以消除数据中的增加趋势。
2. 将时间序列转换为监督学习问题。具体而言,将数据组织成输入和输出模式,其中前一时间步的观察被用作预测当前时间步的观察的输入
3. 将观察结果转换为具有特定比例。具体而言,将数据重新调整为-1 到 1 之间的值。
3. 将观察结果转换为具有特定比例。具体而言,将数据重缩放为-1 到 1 之间的值。
这些变换在预测时反转,在计算和误差分数之前将它们恢复到原始比例。
......
......@@ -23,7 +23,7 @@
用于机器学习的线性代数(7 天迷你课程)
照片由 [Jeff Kubina](https://www.flickr.com/photos/kubina/118170566/) 拍摄,保留一些权利。
## 谁是这个崩溃课程
## 谁是这个速成课
在我们开始之前,让我们确保您在正确的位置。
......
......@@ -78,7 +78,7 @@
许多机器学习算法不能直接使用分类数据。必须将类别转换为数字。这对于分类的输入和输出变量都是必需的。
我们可以直接使用整数编码,在需要的地方重新调整。这可能适用于类别之间存在自然序数关系的问题,反过来又是整数值,例如温度“冷”,“暖”和“热”的标签。
我们可以直接使用整数编码,在需要的地方重缩放。这可能适用于类别之间存在自然序数关系的问题,反过来又是整数值,例如温度“冷”,“暖”和“热”的标签。
当没有顺序关系并且允许表示依赖于任何这样的关系可能有损于学习解决问题时可能存在问题。一个例子可能是标签'狗'和'猫'
......
......@@ -91,7 +91,7 @@ for i in range(100):
[22, 21] 43
```
一旦我们有了模式,我们就可以将列表转换为NumPy Arrays并重新调整值。我们必须重新调整值以适应LSTM使用的激活范围。
一旦我们有了模式,我们就可以将列表转换为NumPy Arrays并重缩放值。我们必须重缩放值以适应LSTM使用的激活范围。
例如:
......@@ -168,7 +168,7 @@ for _ in range(n_epoch):
我们在100个新模式上评估网络。
生成这些并且为每个预测总和值。实际和预测的和值都被重新调整到原始范围,并且计算出具有与原始值相同的比例的均方根误差(RMSE)分数。最后,列出了约20个预期值和预测值的示例作为示例。
生成这些并且为每个预测总和值。实际和预测的和值都被重缩放到原始范围,并且计算出具有与原始值相同的比例的均方根误差(RMSE)分数。最后,列出了约20个预期值和预测值的示例作为示例。
最后,列出了20个预期值和预测值的示例作为示例。
......
......@@ -126,7 +126,7 @@ LSTM迷你课程概述
### 进一步阅读
* [深度学习的循环神经网络崩溃课程](http://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/)
* [深度学习的循环神经网络速成课](http://machinelearningmastery.com/crash-course-recurrent-neural-networks-deep-learning/)
* [循环神经网络序列预测模型的简要介绍](http://machinelearningmastery.com/handle-long-sequences-long-short-term-memory-recurrent-neural-networks/)
* [循环神经网络对时间序列预测的承诺](http://machinelearningmastery.com/promise-recurrent-neural-networks-time-series-forecasting/)
* [关于长短期记忆网络对时间序列预测的适用性](http://machinelearningmastery.com/suitability-long-short-term-memory-networks-time-series-forecasting/)
......
......@@ -17,7 +17,7 @@ Naive Bayes是一种简单而强大的技术,您应该在分类问题上进行
## 1.缺少数据
朴素贝叶斯可以处理丢失的数据。
朴素贝叶斯可以处理缺失数据。
在模型构建时和预测时,算法分别处理属性。
......
......@@ -115,7 +115,7 @@ delta =衍生物(成本)
* **绘图成本与时间**:收集并绘制每次迭代算法计算的成本值。对表现良好的梯度下降运行的期望是每次迭代的成本降低。如果没有减少,请尝试降低学习率。
* **学习率**:学习率值是一个小的实际值,如0.1,0.001或0.0001。为您的问题尝试不同的值,看看哪个效果最好。
* **重新定标输入**:如果成本函数的形状没有偏斜和扭曲,算法将更快地达到最低成本。您可以通过将所有输入变量(X)重新调整到相同的范围来实现此目的,例如[0,1]或[-1,1]。
* **重新定标输入**:如果成本函数的形状没有偏斜和扭曲,算法将更快地达到最低成本。您可以通过将所有输入变量(X)重缩放到相同的范围来实现此目的,例如[0,1]或[-1,1]。
* **几次通过**:随机梯度下降通常不需要超过1到10次通过训练数据集就可以收敛到足够好或足够好的系数。
* **Plot Mean Cost** :当使用随机梯度下降时,每个训练数据集实例的更新可能导致成本随时间的噪声图。平均超过10,100或1000次更新可以让您更好地了解算法的学习趋势。
......
......@@ -131,6 +131,6 @@ KNN适用于少量输入变量(p),但在输入数量非常大时会遇到
* KNN没有学习任何模型。
* KNN通过计算输入样本和每个训练实例之间的相似性来及时做出预测。
* 有许多距离度量可供选择以匹配输入数据的结构。
* 在使用KNN时,重新调整数据是一个好主意,例如使用规范化。
* 在使用KNN时,重缩放数据是一个好主意,例如使用规范化。
如果您对此帖子或KNN算法有任何疑问,请在评论中提出,我会尽力回答。
\ No newline at end of file
......@@ -6,7 +6,7 @@
在为机器学习扩展数据时,您应该考虑两种常用方法。
在本教程中,您将了解如何重新调整数据以进行机器学习。阅读本教程后,您将了解:
在本教程中,您将了解如何重缩放数据以进行机器学习。阅读本教程后,您将了解:
* 如何从零开始标准化您的数据。
* 如何从零开始标准化您的数据。
......@@ -501,7 +501,7 @@ Loaded data file pima-indians-diabetes.csv with 768 rows and 9 columns
## 评论
在本教程中,您了解了如何从零开始重新调整数据以进行机器学习。
在本教程中,您了解了如何从零开始重缩放数据以进行机器学习。
具体来说,你学到了:
......
......@@ -3,14 +3,14 @@
+ [使用 Python 管道和 scikit-learn 自动化机器学习工作流程](automate-machine-learning-workflows-pipelines-python-scikit-learn.md)
+ [如何以及何时使用带有 scikit-learn 的校准分类模型](calibrated-classification-model-in-scikit-learn.md)
+ [如何比较 Python 中的机器学习算法与 scikit-learn](compare-machine-learning-algorithms-python-scikit-learn.md)
+ [用于机器学习开发人员的 Python 崩溃课程](crash-course-python-machine-learning-developers.md)
+ [用于机器学习开发人员的 Python 速成课](crash-course-python-machine-learning-developers.md)
+ [用 scikit-learn 在 Python 中集成机器学习算法](ensemble-machine-learning-algorithms-python-scikit-learn.md)
+ [使用重采样评估 Python 中机器学习算法的表现](evaluate-performance-machine-learning-algorithms-python-using-resampling.md)
+ [使用 Scikit-Learn 在 Python 中进行特征选择](feature-selection-in-python-with-scikit-learn.md)
+ [Python 中机器学习的特征选择](feature-selection-machine-learning-python.md)
+ [如何使用 scikit-learn 在 Python 中生成测试数据集](generate-test-datasets-python-scikit-learn.md)
+ [scikit-learn 中的机器学习算法秘籍](get-your-hands-dirty-with-scikit-learn-now.md)
+ [如何使用 Python 处理丢失的数据](handle-missing-data-python.md)
+ [如何使用 Python 处理缺失数据](handle-missing-data-python.md)
+ [如何开始使用 Python 进行机器学习](how-to-get-started-with-machine-learning-in-python.md)
+ [如何使用 Scikit-Learn 在 Python 中加载数据](how-to-load-data-in-python-with-scikit-learn.md)
+ [Python 中概率评分方法的简要介绍](how-to-score-probability-predictions-in-python.md)
......@@ -31,8 +31,8 @@
+ [Python 机器学习书籍](python-machine-learning-books.md)
+ [Python 机器学习迷你课程](python-machine-learning-mini-course.md)
+ [使用 Pandas 快速和肮脏的数据分析](quick-and-dirty-data-analysis-with-pandas.md)
+ [使用 Scikit-Learn 重新调整 Python 中的机器学习数据](rescaling-data-for-machine-learning-in-python-with-scikit-learn.md)
+ [如何以及何时使用 ROC 曲线和精确调用曲线进行 Python 分类](roc-curves-and-precision-recall-curves-for-classification-in-python.md)
+ [使用 Scikit-Learn 重缩放 Python 中的机器学习数据](rescaling-data-for-machine-learning-in-python-with-scikit-learn.md)
+ [如何以及何时使用 ROC 曲线和精确召回曲线进行 Python 分类](roc-curves-and-precision-recall-curves-for-classification-in-python.md)
+ [使用 scikit-learn 在 Python 中保存和加载机器学习模型](save-load-machine-learning-models-python-scikit-learn.md)
+ [scikit-learn Cookbook 书评](scikit-learn-cookbook-book-review.md)
+ [如何使用 Anaconda 为机器学习和深度学习设置 Python 环境](setup-python-environment-machine-learning-deep-learning-anaconda.md)
......
# Scikit-Learn 的温和介绍:Python 机器学习库
# Python 机器学习库 Scikit-Learn 的温和介绍
> 原文: [https://machinelearningmastery.com/a-gentle-introduction-to-scikit-learn-a-python-machine-learning-library/](https://machinelearningmastery.com/a-gentle-introduction-to-scikit-learn-a-python-machine-learning-library/)
......
# 如何以及何时使用带有 scikit-learn 的校准分类模型
# 如何以及何时使用 scikit-learn 中的的校准分类模型
> 原文: [https://machinelearningmastery.com/calibrated-classification-model-in-scikit-learn/](https://machinelearningmastery.com/calibrated-classification-model-in-scikit-learn/)
......
# 如何比较 Python 中的机器学习算法与 scikit-learn
# 如何比较 Python 和 scikit-learn 中的机器学习算法
> 原文: [https://machinelearningmastery.com/compare-machine-learning-algorithms-python-scikit-learn/](https://machinelearningmastery.com/compare-machine-learning-algorithms-python-scikit-learn/)
......
# 用于机器学习开发人员的 Python 崩溃课程
# 面向机器学习开发人员的 Python 速成课
> 原文: [https://machinelearningmastery.com/crash-course-python-machine-learning-developers/](https://machinelearningmastery.com/crash-course-python-machine-learning-developers/)
......@@ -16,7 +16,7 @@
![Crash Course in Python for Machine Learning Developers](img/27b6c4eb23b7b3e865fb6d072acc961d.jpg)
用于机器学习开发人员的 Python 崩溃课程
用于机器学习开发人员的 Python 速成课
摄影: [John Clouston](https://www.flickr.com/photos/58017169@N06/5353030024/) ,保留一些权利。
## Python 速成课程
......
# 使用 scikit-learn 在 Python 中集成机器学习算法
# 使用 Python 和 scikit-learn 的集成机器学习算法
> 原文: [https://machinelearningmastery.com/ensemble-machine-learning-algorithms-python-scikit-learn/](https://machinelearningmastery.com/ensemble-machine-learning-algorithms-python-scikit-learn/)
......
# 使用重采样评估 Python 中机器学习算法的表现
# 在Python 中使用重采样评估机器学习算法的表现
> 原文: [https://machinelearningmastery.com/evaluate-performance-machine-learning-algorithms-python-using-resampling/](https://machinelearningmastery.com/evaluate-performance-machine-learning-algorithms-python-using-resampling/)
......
# 使用 Scikit-Learn 在 Python 中进行特征选择
# 使用 Python 和 Scikit-Learn 的特征选择
> 原文: [https://machinelearningmastery.com/feature-selection-in-python-with-scikit-learn/](https://machinelearningmastery.com/feature-selection-in-python-with-scikit-learn/)
......
# 如何使用 scikit-learn 在 Python 中生成测试数据集
# 如何使用 Python 和 scikit-learn 生成测试数据集
> 原文: [https://machinelearningmastery.com/generate-test-datasets-python-scikit-learn/](https://machinelearningmastery.com/generate-test-datasets-python-scikit-learn/)
......
# 如何使用 Python 处理丢失的数据
# 如何使用 Python 处理缺失数据
> 原文: [https://machinelearningmastery.com/handle-missing-data-python/](https://machinelearningmastery.com/handle-missing-data-python/)
......@@ -476,7 +476,7 @@ print(result.mean())
当缺少数据时,并非所有算法都会失败。
有些算法可以对丢失的数据进行鲁棒处理,例如 K 最近邻 可以在缺少值时忽略距离测量中的列。
有些算法可以对缺失数据进行鲁棒处理,例如 K 最近邻 可以在缺少值时忽略距离测量中的列。
还有一些算法可以在构建预测模型时使用缺失值作为唯一且不同的值,例如分类和回归树。
......@@ -486,7 +486,7 @@ print(result.mean())
## 进一步阅读
* [在 Pandas](http://pandas.pydata.org/pandas-docs/stable/missing_data.html) 中处理丢失的数据
* [在 Pandas](http://pandas.pydata.org/pandas-docs/stable/missing_data.html) 中处理缺失数据
* [在 scikit-learn](http://scikit-learn.org/stable/modules/preprocessing.html#imputation-of-missing-values) 中对缺失值的估算
## 摘要
......
# 如何开始使用 Python 进行机器学习
# 如何开始将 Python 用于机器学习
> 原文: [https://machinelearningmastery.com/how-to-get-started-with-machine-learning-in-python/](https://machinelearningmastery.com/how-to-get-started-with-machine-learning-in-python/)
......
# 如何使用 Scikit-Learn 在 Python 中加载数据
# 如何使用 Python 和 Scikit-Learn 加载数据
> 原文: [https://machinelearningmastery.com/how-to-load-data-in-python-with-scikit-learn/](https://machinelearningmastery.com/how-to-load-data-in-python-with-scikit-learn/)
......
# 如何在 Mac OS X 上安装 Python 3 环境以进行机器学习和深度学习
# 如何在 Mac OS X 上为机器学习和深度学习安装 Python 3 环境
> 原文: [https://machinelearningmastery.com/install-python-3-environment-mac-os-x-machine-learning-deep-learning/](https://machinelearningmastery.com/install-python-3-environment-mac-os-x-machine-learning-deep-learning/)
......
# 使用 scikit-learn 进行机器学习简介
# 机器学习中的 scikit-learn 简介
> 原文: [https://machinelearningmastery.com/introduction-machine-learning-scikit-learn/](https://machinelearningmastery.com/introduction-machine-learning-scikit-learn/)
......
# 从 shell 到一本带有 Fernando Perez 单一工具的书的 IPython
# 从 shell 到一本书,Fernando Perez 的单一工具 IPython 简介
> 原文: [https://machinelearningmastery.com/ipython-from-the-shell-to-a-book-with-a-single-tool-with-fernando-perez/](https://machinelearningmastery.com/ipython-from-the-shell-to-a-book-with-a-single-tool-with-fernando-perez/)
......
# 您在 Python 中的第一个机器学习项目循序渐进
# 您在 Python 中的第一个逐步的机器学习项目
> 原文: [https://machinelearningmastery.com/machine-learning-in-python-step-by-step/](https://machinelearningmastery.com/machine-learning-in-python-step-by-step/)
......
# 使用 Pandas 为 Python 中的机器学习准备数据
# 使用 Python 和 Pandas 为机器学习准备数据
> 原文: [https://machinelearningmastery.com/prepare-data-for-machine-learning-in-python-with-pandas/](https://machinelearningmastery.com/prepare-data-for-machine-learning-in-python-with-pandas/)
......
# 如何使用 Scikit-Learn 为 Python 机器学习准备数据
# 如何使用 Python 和 Scikit-Learn 为机器学习准备数据
> 原文: [https://machinelearningmastery.com/prepare-data-machine-learning-python-scikit-learn/](https://machinelearningmastery.com/prepare-data-machine-learning-python-scikit-learn/)
......@@ -48,13 +48,13 @@
[scikit-learn 文档](http://scikit-learn.org/stable/modules/preprocessing.html)提供了有关如何使用各种不同预处理方法的一些信息。您可以在此处查看 scikit-learn 中的[预处理 API。](http://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing)
### 1.重新调整数据
### 1.重缩放数据
当您的数据由具有不同比例的属性组成时,许多机器学习算法可以从重新调整属性中受益,所有属性具有相同的比例。
当您的数据由具有不同比例的属性组成时,许多机器学习算法可以从重缩放属性中受益,所有属性具有相同的比例。
这通常被称为归一化,并且属性通常被重新调整到 0 和 1 之间的范围。这对于在诸如梯度下降的机器学习算法的核心中使用的优化算法是有用的。对于使用诸如回归和神经网络之类的输入以及使用诸如 K 最近邻 之类的距离度量的算法的算法,它也是有用的。
这通常被称为归一化,并且属性通常被重缩放到 0 和 1 之间的范围。这对于在诸如梯度下降的机器学习算法的核心中使用的优化算法是有用的。对于使用诸如回归和神经网络之类的输入以及使用诸如 K 最近邻 之类的距离度量的算法的算法,它也是有用的。
您可以使用 [MinMaxScaler](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html) 类使用 scikit-learn 重新调整数据。
您可以使用 [MinMaxScaler](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html) 类使用 scikit-learn 重缩放数据。
```
# Rescale data (between 0 and 1)
......@@ -203,7 +203,7 @@ print(binaryX[0:5,:])
你现在有秘籍:
*新调整数据。
*缩放数据。
* 标准化数据。
* 规范化数据。
* 二值化数据。
......
# 项目聚焦:使用 Artem Yankov 在 Python 中进行事件推荐
# 项目聚焦:使用 Artem Yankov 在 Python 中推荐事件
> 原文: [https://machinelearningmastery.com/project-spotlight-with-artem-yankov/](https://machinelearningmastery.com/project-spotlight-with-artem-yankov/)
......
# 用于机器学习的 Python 生态系统
# 机器学习中的 Python 生态系统
> 原文: [https://machinelearningmastery.com/python-ecosystem-machine-learning/](https://machinelearningmastery.com/python-ecosystem-machine-learning/)
......
# 使用 Pandas 快速和肮脏的数据分析
# 使用 Pandas 快速和肮脏的数据分析
> 原文: [https://machinelearningmastery.com/quick-and-dirty-data-analysis-with-pandas/](https://machinelearningmastery.com/quick-and-dirty-data-analysis-with-pandas/)
......
# 使用 Scikit-Learn 重新调整 Python 中的机器学习数据
# 使用 Python 和 Scikit-Learn 重缩放机器学习数据
> 原文: [https://machinelearningmastery.com/rescaling-data-for-machine-learning-in-python-with-scikit-learn/](https://machinelearningmastery.com/rescaling-data-for-machine-learning-in-python-with-scikit-learn/)
......@@ -10,7 +10,7 @@
[![Data Rescaling](img/fc8259088110f3e7b9ccb32457b8dc37.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/07/Data-Rescaling.jpg)
数据重新调整
数据重缩放
照片由 [Quinn Dombrowski](https://www.flickr.com/photos/quinnanya/4508825094) 拍摄,保留一些权利。
## 数据重新缩放
......@@ -73,7 +73,7 @@ standardized_X = preprocessing.scale(X)
## 提示:使用哪种方法
在应用数据之前,很难知道重新调整数据是否会提高算法的表现。如果经常可以,但并非总是如此。
在应用数据之前,很难知道重缩放数据是否会提高算法的表现。如果经常可以,但并非总是如此。
一个很好的建议是创建数据集的重新缩放副本,并使用您的测试工具和一些您想要检查的算法将它们相互竞争。这可以快速突出显示使用给定模型重新缩放数据的好处(或缺少),以及哪种重新缩放方法可能值得进一步调查。
......
# 如何以及何时使用 ROC 曲线和精确调用曲线进行 Python 分类
# 如何以及何时在 Python 中对分类使用 ROC 曲线和精确召回曲线
> 原文: [https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-classification-in-python/](https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-classification-in-python/)
......@@ -34,7 +34,7 @@
2. 什么是 ROC 曲线?
3. Python 中的 ROC 曲线和 AUC
4. 什么是精确回忆曲线?
5. Python 中的精确调用曲线和 AUC
5. Python 中的精确召回曲线和 AUC
6. 何时使用 ROC 与精确回忆曲线?
## 预测概率
......@@ -261,7 +261,7 @@ precision, recall, thresholds = precision_recall_curve(testy, probs)
f1 = f1_score(testy, yhat)
```
精确调用曲线下的面积可以通过调用`auc()`函数并将其传递给每个阈值计算的调用和精度值来近似。
精确召回曲线下的面积可以通过调用`auc()`函数并将其传递给每个阈值计算的调用和精度值来近似。
```
# calculate precision-recall AUC
......@@ -329,7 +329,7 @@ f1=0.836 auc=0.892 ap=0.840
通常,ROC 曲线和精确回忆曲线的使用如下:
* 当每个类的观察数量大致相等时,应使用 ROC 曲线。
* 当存在中等到大的不平衡时,应使用精确调用曲线。
* 当存在中等到大的不平衡时,应使用精确召回曲线。
这个建议的原因是 ROC 曲线在具有类不平衡的数据集上呈现模型的乐观图像。
......
# 使用 scikit-learn 在 Python 中保存和加载机器学习模型
# 使用 Python 和 scikit-learn 保存和加载机器学习模型
> 原文: [https://machinelearningmastery.com/save-load-machine-learning-models-python-scikit-learn/](https://machinelearningmastery.com/save-load-machine-learning-models-python-scikit-learn/)
......
# scikit-learn Cookbook 书评
# scikit-learn 秘籍的书评
> 原文: [https://machinelearningmastery.com/scikit-learn-cookbook-book-review/](https://machinelearningmastery.com/scikit-learn-cookbook-book-review/)
......
# 使用 scikit-learn 在 Python 中进行 Spot-Check 分类机器学习算法
# 使用 Python 和 scikit-learn 抽样检查分类机器学习算法
> 原文: [https://machinelearningmastery.com/spot-check-classification-machine-learning-algorithms-python-scikit-learn/](https://machinelearningmastery.com/spot-check-classification-machine-learning-algorithms-python-scikit-learn/)
......
# 使用 scikit-learn 在 Python 中进行 Spot-Check 回归机器学习算法
# 使用 Python 和 scikit-learn 抽样检查回归机器学习算法
> 原文: [https://machinelearningmastery.com/spot-check-regression-machine-learning-algorithms-python-scikit-learn/](https://machinelearningmastery.com/spot-check-regression-machine-learning-algorithms-python-scikit-learn/)
......
# 使用 Python 中的描述性统计来了解您的机器学习数据
# 使用 Python 中的描述性统计来了解您的机器学习数据
> 原文: [https://machinelearningmastery.com/understand-machine-learning-data-descriptive-statistics-python/](https://machinelearningmastery.com/understand-machine-learning-data-descriptive-statistics-python/)
......
# 使用 Pandas 在 Python 中可视化机器学习数据
# 使用 Python 和 Pandas 可视化机器学习数据
> 原文: [https://machinelearningmastery.com/visualize-machine-learning-data-python-pandas/](https://machinelearningmastery.com/visualize-machine-learning-data-python-pandas/)
......
......@@ -113,7 +113,7 @@ x轴是观察值,y轴是每次观察的频率。在这种情况下,大约0.0
有两个关键参数定义任何高斯分布;它们是均值和标准差。稍后我们将更多地介绍这些参数,因为它们也是估计何时从未知高斯分布中获取数据的关键统计数据。
_randn()_函数将生成从高斯分布中绘制的指定数量的随机数(例如10,000),其均值为零,标准差为1.然后我们可以将这些数字缩放为高斯分布我们通过重新调整数字来选择。
_randn()_函数将生成从高斯分布中绘制的指定数量的随机数(例如10,000),其均值为零,标准差为1.然后我们可以将这些数字缩放为高斯分布我们通过重缩放数字来选择。
通过添加所需的平均值(例如50)并将该值乘以标准偏差(5),可以使这一点保持一致。
......
......@@ -121,7 +121,7 @@ for _ in range(10):
0.02834747652200631
```
浮点值可以通过将它们乘以新范围的大小并添加最小值来重新调整到所需范围,如下所示:
浮点值可以通过将它们乘以新范围的大小并添加最小值来重缩放到所需范围,如下所示:
```py
scaled value = min + (value * (max - min))
......
......@@ -21,7 +21,7 @@
机器学习统计(7天迷你课程)
摄影: [Graham Cook](https://www.flickr.com/photos/grazza123/14076525468/) ,保留一些权利。
## 谁是这个崩溃课程
## 谁是这个速成课
在我们开始之前,让我们确保您在正确的位置。
......
......@@ -148,7 +148,7 @@ Min: 0.000000, Max: 26.300000
## 标准化时间序列数据
标准化数据集涉及重新调整值的分布,以便观察值的平均值为 0,标准差为 1。
标准化数据集涉及重缩放值的分布,以便观察值的平均值为 0,标准差为 1。
这可以被认为是减去平均值或使数据居中。
......@@ -265,7 +265,7 @@ Mean: 11.177753, StandardDeviation: 4.071279
具体来说,你学到了:
* 一些机器学习算法在建模时表现更好甚至需要重新调整数据。
* 一些机器学习算法在建模时表现更好甚至需要重缩放数据。
* 如何手动计算规范化和标准化所需的参数。
* 如何使用 Python 中的 scikit-learn 对时间序列数据进行标准化和标准化。
......
......@@ -12,7 +12,7 @@ XGBoost 因其速度和表现而成为 Gradient Boosting 的流行实现。
* 如何编码字符串输出变量进行分类。
* 如何使用单热编码准备分类输入变量。
* 如何使用 XGBoost 自动处理丢失的数据。
* 如何使用 XGBoost 自动处理缺失数据。
让我们开始吧。
......@@ -268,7 +268,7 @@ Accuracy: 71.58%
## 支持缺失数据
XGBoost 可以自动学习如何最好地处理丢失的数据。
XGBoost 可以自动学习如何最好地处理缺失数据。
事实上,XGBoost 被设计为处理稀疏数据,如前一节中的单热编码数据,并且通过最小化损失函数来处理丢失数据的方式与处理稀疏或零值的方式相同。
......@@ -439,6 +439,6 @@ Accuracy: 79.80%
* 如何使用标签编码为二进制分类准备字符串类值。
* 如何使用单热编码准备分类输入变量以将它们建模为二进制变量。
* XGBoost 如何自动处理丢失的数据以及如何标记和估算缺失值。
* XGBoost 如何自动处理缺失数据以及如何标记和估算缺失值。
您对如何为 XGBoost 或此帖子准备数据有任何疑问吗?在评论中提出您的问题,我会尽力回答。
\ No newline at end of file
......@@ -75,7 +75,7 @@ AdaBoost 和相关算法首先由 Breiman 称之为 ARCing 算法的统计框架
这类算法被描述为阶段性加法模型。这是因为一次添加一个新的弱学习器,并且模型中现有的弱学习器被冻结并保持不变。
> 请注意,此阶段策略与逐步方法不同,后者在添加新的时重新调整先前输入的术语。
> 请注意,此阶段策略与逐步方法不同,后者在添加新的时重缩放先前输入的术语。
- [贪婪函数逼近:梯度增压机](https://statweb.stanford.edu/~jhf/ftp/trebst.pdf) [PDF],1999
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册