提交 a5c1784f 编写于 作者: W wizardforcel

naive => 朴素

上级 16dbe77d
......@@ -12,7 +12,7 @@
阅读这篇文章后你会知道:
* 如何为序列预测问题开发一个天真的 LSTM 网络。
* 如何为序列预测问题开发一个朴素的 LSTM 网络。
* 如何通过 LSTM 网络批量管理状态和功能。
* 如何在 LSTM 网络中手动管理状态以进行状态预测。
......@@ -985,8 +985,8 @@ Model Accuracy: 98.90%
具体来说,你学到了:
* 如何为一个字符到一个字符的预测开发一个天真的 LSTM 网络。
* 如何配置一个天真的 LSTM 来学习样本中跨时间步的序列。
* 如何为一个字符到一个字符的预测开发一个朴素的 LSTM 网络。
* 如何配置一个朴素的 LSTM 来学习样本中跨时间步的序列。
* 如何通过手动管理状态来配置 LSTM 以跨样本学习序列。
您对管理 LSTM 州或此帖有任何疑问吗?
......
......@@ -130,7 +130,7 @@ LSTM 的开发是为了解决简单 RNN 的消失梯度问题,这限制了深
## 注意机制
天真的编码器 - 解码器模型的问题在于编码器将输入映射到固定长度的内部表示,解码器必须从该表示产生整个输出序列。
朴素的编码器 - 解码器模型的问题在于编码器将输入映射到固定长度的内部表示,解码器必须从该表示产生整个输出序列。
注意是对模型的改进,其允许解码器在输出序列中输出每个字时“注意”输入序列中的不同字。
......
......@@ -542,9 +542,9 @@ Vocabulary Size: 4484
有很多方法可以模拟字幕生成问题。
一种天真的方式是创建一个模型,以一次性方式输出整个文本描述。
一种朴素的方式是创建一个模型,以一次性方式输出整个文本描述。
这是一个天真的模型,因为它给模型带来了沉重的负担,既可以解释照片的含义,也可以生成单词,然后将这些单词排列成正确的顺序。
这是一个朴素的模型,因为它给模型带来了沉重的负担,既可以解释照片的含义,也可以生成单词,然后将这些单词排列成正确的顺序。
这与编码器 - 解码器循环神经网络中使用的语言翻译问题不同,其中在给定输入序列的编码的情况下,整个翻译的句子一次输出一个字。在这里,我们将使用图像的编码来生成输出句子。
......
......@@ -108,7 +108,7 @@ Name: Sales, dtype: float64
将使用训练数据集开发模型,并对测试数据集进行预测。
测试数据集的持久性预测(天真预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
测试数据集的持久性预测(朴素预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
### 模型评估
......
......@@ -13,7 +13,7 @@
完成本教程后,您将了解:
* 如何加载和准备臭氧日标准机器学习预测建模问题。
* 如何开发一个天真的预测模型,并使用 Brier 技能分数评估预测。
* 如何开发一个朴素的预测模型,并使用 Brier 技能分数评估预测。
* 如何使用决策树集合开发技巧模型,并通过成功模型的超参数调整进一步提高技能。
让我们开始吧。
......@@ -199,9 +199,9 @@ savetxt('test.csv', test, delimiter=',')
## 朴素预测模型
一个天真的模型可以预测每天臭氧日的概率。
一个朴素的模型可以预测每天臭氧日的概率。
这是一种天真的方法,因为它不使用除事件基本速率之外的任何信息。在气象预报的验证中,这被称为气候预报。
这是一种朴素的方法,因为它不使用除事件基本速率之外的任何信息。在气象预报的验证中,这被称为气候预报。
我们可以从训练数据集中估计臭氧日的概率,如下所示。
......@@ -235,11 +235,11 @@ bs = brier_score_loss(testy, yhat)
print('Brier Score: %.6f' % bs)
```
对于熟练的模型,它必须具有比天真预测的分数更好的分数。
对于熟练的模型,它必须具有比朴素预测的分数更好的分数。
我们可以通过计算基于天真预测标准化 Brier 分数(BS)的 Brier 技能分数(BSS)来证明这一点。
我们可以通过计算基于朴素预测标准化 Brier 分数(BS)的 Brier 技能分数(BSS)来证明这一点。
我们预计天真预报的计算 BSS 将为 0.0。展望未来,我们有兴趣最大化此分数,例如较大的 BSS 分数更好。
我们预计朴素预报的计算 BSS 将为 0.0。展望未来,我们有兴趣最大化此分数,例如较大的 BSS 分数更好。
```
# calculate brier skill score
......@@ -272,7 +272,7 @@ bss = (bs - bs_ref) / (0 - bs_ref)
print('Brier Skill Score: %.6f' % bss)
```
运行这个例子,我们可以看到臭氧日的天真概率甚至约为 7.2%。
运行这个例子,我们可以看到臭氧日的朴素概率甚至约为 7.2%。
使用基本费率作为预测会导致 Brier 技能为 0.039,预期 Brier 技能得分为 0.0(忽略该符号)。
......@@ -323,7 +323,7 @@ test = loadtxt('test.csv', delimiter=',')
trainX, trainy, testX, testy = train[:,:-1],train[:,-1],test[:,:-1],test[:,-1]
```
我们还需要 Brier 分数进行天真的预测,以便我们能够正确计算新模型的 Brier 技能分数。
我们还需要 Brier 分数进行朴素的预测,以便我们能够正确计算新模型的 Brier 技能分数。
```
# estimate naive probabilistic forecast
......@@ -460,7 +460,7 @@ pyplot.show()
绘制每个模型的分数的盒子和须状图。
他们所有跑步的所有模型都显示出天真预测的技巧(正分数),这是非常令人鼓舞的。
他们所有跑步的所有模型都显示出朴素预测的技巧(正分数),这是非常令人鼓舞的。
额外树木,随机梯度提升和随机森林的 BSS 分数的分布看起来都令人鼓舞。
......@@ -609,7 +609,7 @@ pyplot.show()
具体来说,你学到了:
* 如何加载和准备臭氧日标准机器学习预测建模问题。
* 如何开发一个天真的预测模型,并使用 Brier 技能分数评估预测。
* 如何开发一个朴素的预测模型,并使用 Brier 技能分数评估预测。
* 如何使用决策树集合开发技巧模型,并通过成功模型的超参数调整进一步提高技能。
你有任何问题吗?
......
......@@ -707,7 +707,7 @@ pyplot.show()
我们可以看到该模型实现了大约 381 千瓦的总体 RMSE。
天真的预测模型相比,该模型具有技巧,例如使用一年前同一时间的观测预测前一周的模型,其总体 RMSE 约为 465 千瓦。
朴素的预测模型相比,该模型具有技巧,例如使用一年前同一时间的观测预测前一周的模型,其总体 RMSE 约为 465 千瓦。
```
arima: [381.636] 393.8, 398.9, 357.0, 377.2, 393.9, 306.1, 432.2
......
......@@ -55,11 +55,11 @@ EMC Data Science Global Hackathon 数据集或简称“空气质量预测”数
* [把所有东西都扔进随机森林:Ben Hamner 赢得空气质量预测黑客马拉松](http://blog.kaggle.com/2012/05/01/chucking-everything-into-a-random-forest-ben-hamner-on-winning-the-air-quality-prediction-hackathon/),2012。
在本教程中,我们将探索如何为可用作基线的问题开发天真预测,以确定模型是否具有该问题的技能。
在本教程中,我们将探索如何为可用作基线的问题开发朴素预测,以确定模型是否具有该问题的技能。
## 模型评估
在我们评估天真的预测方法之前,我们必须开发一个测试工具。
在我们评估朴素的预测方法之前,我们必须开发一个测试工具。
这至少包括如何准备数据以及如何评估预测。
......@@ -437,7 +437,7 @@ def summarize_error(name, total_mae, times_mae):
pyplot.show()
```
我们现在准备开始探索天真预测方法的表现。
我们现在准备开始探索朴素预测方法的表现。
## 数据分析
......
......@@ -6,15 +6,15 @@
EMC Data Science Global Hackathon 数据集或简称“_ 空气质量预测 _”数据集描述了多个站点的天气状况,需要预测随后三天的空气质量测量结果。
使用新的时间序列预测数据集时,重要的第一步是开发模型表现基线,通过该基线可以比较所有其他更复杂策略的技能。基线预测策略简单快捷。它们被称为“天真”策略,因为它们对特定预测问题的假设很少或根本没有。
使用新的时间序列预测数据集时,重要的第一步是开发模型表现基线,通过该基线可以比较所有其他更复杂策略的技能。基线预测策略简单快捷。它们被称为“朴素”策略,因为它们对特定预测问题的假设很少或根本没有。
在本教程中,您将了解如何为多步骤多变量空气污染时间序列预测问题开发天真的预测方法。
在本教程中,您将了解如何为多步骤多变量空气污染时间序列预测问题开发朴素的预测方法。
完成本教程后,您将了解:
* 如何开发用于评估大气污染数据集预测策略的测试工具。
* 如何开发使用整个训练数据集中的数据的全球天真预测策略。
* 如何开发使用来自预测的特定区间的数据的本地天真预测策略。
* 如何开发使用整个训练数据集中的数据的全球朴素预测策略。
* 如何开发使用来自预测的特定区间的数据的本地朴素预测策略。
让我们开始吧。
......@@ -28,10 +28,10 @@ EMC Data Science Global Hackathon 数据集或简称“_ 空气质量预测 _”
本教程分为六个部分;他们是:
* 问题描述
* 天真的方法
* 朴素的方法
* 模型评估
* 全球朴素的方法
* 大块天真的方法
* 大块朴素的方法
* 结果摘要
## 问题描述
......@@ -56,9 +56,9 @@ EMC Data Science Global Hackathon 数据集或简称“_ 空气质量预测 _”
* [把所有东西都扔进随机森林:Ben Hamner 赢得空气质量预测黑客马拉松](http://blog.kaggle.com/2012/05/01/chucking-everything-into-a-random-forest-ben-hamner-on-winning-the-air-quality-prediction-hackathon/),2012。
在本教程中,我们将探索如何为可用作基线的问题开发天真预测,以确定模型是否具有该问题的技能。
在本教程中,我们将探索如何为可用作基线的问题开发朴素预测,以确定模型是否具有该问题的技能。
## 天真的预测方法
## 朴素的预测方法
预测表现的基线提供了一个比较点。
......@@ -66,9 +66,9 @@ EMC Data Science Global Hackathon 数据集或简称“_ 空气质量预测 _”
用于生成预测以计算基准表现的技术必须易于实现,并且不需要特定于问题的细节。原则是,如果复杂的预测方法不能胜过使用很少或没有特定问题信息的模型,那么它就没有技巧。
可以并且应该首先使用与问题无关的预测方法,然后是使用少量特定于问题的信息的天真方法。
可以并且应该首先使用与问题无关的预测方法,然后是使用少量特定于问题的信息的朴素方法。
可以使用的两个与问题无关的天真预测方法的例子包括:
可以使用的两个与问题无关的朴素预测方法的例子包括:
* 保留每个系列的最后观察值。
* 预测每个系列的观测值的平均值。
......@@ -94,11 +94,11 @@ EMC Data Science Global Hackathon 数据集或简称“_ 空气质量预测 _”
* 预测每个预测提前期的一小时的全球(跨块)平均值。
* 预测每个预测提前期的当天(当地块)平均值。
在多个站点测量许多变量;因此,可以跨系列使用信息,例如计算预测提前期的每小时平均值或平均值。这些很有意思,但可能会超出天真的使命。
在多个站点测量许多变量;因此,可以跨系列使用信息,例如计算预测提前期的每小时平均值或平均值。这些很有意思,但可能会超出朴素的使命。
这是一个很好的起点,尽管可能会进一步详细阐述您可能想要考虑和探索的天真方法。请记住,目标是使用非常少的问题特定信息来开发预测基线。
这是一个很好的起点,尽管可能会进一步详细阐述您可能想要考虑和探索的朴素方法。请记住,目标是使用非常少的问题特定信息来开发预测基线。
总之,我们将研究针对此问题的五种不同的天真预测方法,其中最好的方法将提供表现的下限,通过该方法可以比较其他模型。他们是:
总之,我们将研究针对此问题的五种不同的朴素预测方法,其中最好的方法将提供表现的下限,通过该方法可以比较其他模型。他们是:
1. 每个系列的全球平均价值
2. 每个系列的预测提前期的全球平均值
......@@ -108,7 +108,7 @@ EMC Data Science Global Hackathon 数据集或简称“_ 空气质量预测 _”
## 模型评估
在我们评估天真的预测方法之前,我们必须开发一个测试工具。
在我们评估朴素的预测方法之前,我们必须开发一个测试工具。
这至少包括如何准备数据以及如何评估预测。
......@@ -486,11 +486,11 @@ def summarize_error(name, total_mae, times_mae):
pyplot.show()
```
我们现在准备开始探索天真预测方法的表现。
我们现在准备开始探索朴素预测方法的表现。
## 全球朴素的方法
在本节中,我们将探索使用训练数据集中所有数据的天真预测方法,而不是约束我们正在进行预测的块。
在本节中,我们将探索使用训练数据集中所有数据的朴素预测方法,而不是约束我们正在进行预测的块。
我们将看两种方法:
......@@ -1037,11 +1037,11 @@ Global Median by Hour: [0.567 MAE] +1 0.573, +2 0.565, +3 0.567, +4 0.579, +5 0.
MAE 按预测带领时间以全球中位数按天计算
## 大块天真的方法
## 大块朴素的方法
使用特定于块的信息可能比使用来自整个训练数据集的全局信息具有更多的预测能力。
我们可以通过三种本地或块特定的天真预测方法来探索这个问题;他们是:
我们可以通过三种本地或块特定的朴素预测方法来探索这个问题;他们是:
* 预测每个系列的最后观察
* 预测每个系列的平均值
......@@ -1051,7 +1051,7 @@ MAE 按预测带领时间以全球中位数按天计算
### 预测每个系列的最后观察
预测块的最后一次非 NaN 观察可能是最简单的模型,通常称为持久性模型或天真模型。
预测块的最后一次非 NaN 观察可能是最简单的模型,通常称为持久性模型或朴素模型。
下面的 _forecast_variable()_ 函数实现了此预测策略。
......@@ -1385,7 +1385,7 @@ total_mae, times_mae = evaluate_forecasts(forecast, actual)
summarize_error('Local Median', total_mae, times_mae)
```
运行该示例总结了这种天真策略的表现,显示了大约 0.568 的 MAE,这比上述持久性策略更糟糕。
运行该示例总结了这种朴素策略的表现,显示了大约 0.568 的 MAE,这比上述持久性策略更糟糕。
```
Local Median: [0.568 MAE] +1 0.535, +2 0.542, +3 0.550, +4 0.568, +5 0.568, +10 0.562, +17 0.567, +24 0.605, +48 0.590, +72 0.593
......@@ -1583,9 +1583,9 @@ MAE 按预测提前时间按当地中位数按小时计算
## 结果摘要
我们可以总结本教程中审查的所有天真预测方法的表现。
我们可以总结本教程中审查的所有朴素预测方法的表现。
下面的例子列出了每个小时的' _g_ '和' _l_ '用于全局和本地以及' _h_ '用于小时的每种方法变化。该示例创建了一个条形图,以便我们可以根据它们的相对表现来比较天真的策略。
下面的例子列出了每个小时的' _g_ '和' _l_ '用于全局和本地以及' _h_ '用于小时的每种方法变化。该示例创建了一个条形图,以便我们可以根据它们的相对表现来比较朴素的策略。
```
# summary of results
......@@ -1619,8 +1619,8 @@ pyplot.show()
本节列出了一些扩展您可能希望探索的教程的想法。
* **跨站点天真预测**。制定一个天真的预测策略,该策略使用跨站点的每个变量的信息,例如:不同站点的同一变量的不同目标变量。
* **混合方法**。制定混合预测策略,该策略结合了本教程中描述的两个或更多天真预测策略的元素。
* **跨站点朴素预测**。制定一个朴素的预测策略,该策略使用跨站点的每个变量的信息,例如:不同站点的同一变量的不同目标变量。
* **混合方法**。制定混合预测策略,该策略结合了本教程中描述的两个或更多朴素预测策略的元素。
* **朴素方法的集合**。制定集合预测策略,创建本教程中描述的两个或更多预测策略的线性组合。
如果你探索任何这些扩展,我很想知道。
......@@ -1643,13 +1643,13 @@ pyplot.show()
## 摘要
在本教程中,您了解了如何为多步骤多变量空气污染时间序列预测问题开发天真的预测方法。
在本教程中,您了解了如何为多步骤多变量空气污染时间序列预测问题开发朴素的预测方法。
具体来说,你学到了:
* 如何开发用于评估大气污染数据集预测策略的测试工具。
* 如何开发使用整个训练数据集中的数据的全球天真预测策略。
* 如何开发使用来自预测的特定区间的数据的本地天真预测策略。
* 如何开发使用整个训练数据集中的数据的全球朴素预测策略。
* 如何开发使用来自预测的特定区间的数据的本地朴素预测策略。
你有任何问题吗?
在下面的评论中提出您的问题,我会尽力回答。
\ No newline at end of file
......@@ -439,9 +439,9 @@ CNN 可用于递归或直接预测策略,其中模型使得一步预测和输
* CNN 用于多步骤时间序列预测,通过信道提供多变量输入数据。
* 通过子模型使用多变量输入数据进行多步时间序列预测的 CNN。
将在家庭电力预测问题上开发和演示这些模型。如果一个模型比一个天真的模型更好地实现表现,那么该模型被认为是技术性的,在 7 天的预测中,该模型的总体 RMSE 约为 465 千瓦。
将在家庭电力预测问题上开发和演示这些模型。如果一个模型比一个朴素的模型更好地实现表现,那么该模型被认为是技术性的,在 7 天的预测中,该模型的总体 RMSE 约为 465 千瓦。
我们不会专注于调整这些模型以实现最佳表现;相反,与天真的预测相比,我们将在熟练的模型上停下来。选择的结构和超参数通过一些试验和错误来选择。
我们不会专注于调整这些模型以实现最佳表现;相反,与朴素的预测相比,我们将在熟练的模型上停下来。选择的结构和超参数通过一些试验和错误来选择。
## 具有单变量 CNN 的多步时间序列预测
......@@ -784,7 +784,7 @@ pyplot.show()
鉴于算法的随机性,您的具体结果可能会有所不同。您可能想尝试几次运行该示例。
我们可以看到,在这种情况下,与天真的预测相比,该模型是巧妙的,实现了大约 404 千瓦的总体 RMSE,小于 465 千瓦的天真模型。
我们可以看到,在这种情况下,与朴素的预测相比,该模型是巧妙的,实现了大约 404 千瓦的总体 RMSE,小于 465 千瓦的朴素模型。
```
cnn: [404.411] 436.1, 400.6, 346.2, 388.2, 405.5, 326.0, 502.9
......@@ -1389,7 +1389,7 @@ pyplot.show()
鉴于算法的随机性,您的具体结果可能会有所不同。您可能想尝试几次运行该示例。
我们可以看到,在这种情况下,与天真的预测相比,整体 RMSE 非常熟练,但是所选择的配置可能不会比上一节中的多通道模型表现更好。
我们可以看到,在这种情况下,与朴素的预测相比,整体 RMSE 非常熟练,但是所选择的配置可能不会比上一节中的多通道模型表现更好。
```
cnn: [396.116] 414.5, 385.5, 377.2, 412.1, 371.1, 380.6, 428.1
......
......@@ -6,7 +6,7 @@
神经网络的这一特征可用于时间序列预测问题,其中模型可以直接在原始观测上开发,而不需要使用归一化和标准化来扩展数据或通过差分使数据静止。
令人印象深刻的是,简单的深度学习神经网络模型能够进行熟练的预测,与天真模型和调整 SARIMA 模型相比,单变量时间序列预测存在趋势和季节性成分且无需预处理的问题。
令人印象深刻的是,简单的深度学习神经网络模型能够进行熟练的预测,与朴素模型和调整 SARIMA 模型相比,单变量时间序列预测存在趋势和季节性成分且无需预处理的问题。
在本教程中,您将了解如何开发一套用于单变量时间序列预测的深度学习模型。
......@@ -735,7 +735,7 @@ summarize_scores('mlp', scores)
在运行结束时,报告的平均和标准偏差 RMSE 约为 1,526 销售。
我们可以看到,平均而言,所选配置的表现优于天真模型(1841.155)和 SARIMA 模型(1551.842)。
我们可以看到,平均而言,所选配置的表现优于朴素模型(1841.155)和 SARIMA 模型(1551.842)。
这是令人印象深刻的,因为该模型直接对原始数据进行操作而不进行缩放或数据静止。
......@@ -775,7 +775,7 @@ mlp: 1526.688 RMSE (+/- 134.789)
创建 RMSE 分数的方框和胡须图,以总结模型表现的传播。
这有助于理解分数的传播。我们可以看到,尽管平均而言模型的表现令人印象深刻,但传播幅度很大。标准偏差略大于 134 销售额,这意味着更糟糕的案例模型运行,误差与平均误差相差 2 或 3 个标准差可能比天真模型差。
这有助于理解分数的传播。我们可以看到,尽管平均而言模型的表现令人印象深刻,但传播幅度很大。标准偏差略大于 134 销售额,这意味着更糟糕的案例模型运行,误差与平均误差相差 2 或 3 个标准差可能比朴素模型差。
使用 MLP 模型的一个挑战是如何利用更高的技能并在多次运行中最小化模型的方差。
......@@ -1009,11 +1009,11 @@ summarize_scores('cnn', scores)
首先运行该示例,为每次重复的模型评估打印 RMSE。
在运行结束时,我们可以看到模型确实熟练,达到平均 RMSE 1,524.067,这比天真模型,SARIMA 模型,甚至上一节中的 MLP 模型更好。
在运行结束时,我们可以看到模型确实熟练,达到平均 RMSE 1,524.067,这比朴素模型,SARIMA 模型,甚至上一节中的 MLP 模型更好。
这是令人印象深刻的,因为该模型直接对原始数据进行操作而不进行缩放或数据静止。
分数的标准偏差很大,约为 57 个销售额,但却是前一部分 MLP 模型观察到的方差大小的 1/3。我们有信心在坏情况下(3 个标准偏差),模型 RMSE 将保持低于(优于)天真模型的表现。
分数的标准偏差很大,约为 57 个销售额,但却是前一部分 MLP 模型观察到的方差大小的 1/3。我们有信心在坏情况下(3 个标准偏差),模型 RMSE 将保持低于(优于)朴素模型的表现。
```
> 1551.031
......@@ -1319,7 +1319,7 @@ summarize_scores('lstm', scores)
运行该示例,我们可以看到每次重复评估模型的 RMSE。
在运行结束时,我们可以看到平均 RMSE 约为 2,109,这比天真模型更差。这表明所选择的模型并不熟练,并且鉴于前面部分中用于查找模型配置的相同资源,它是最好的。
在运行结束时,我们可以看到平均 RMSE 约为 2,109,这比朴素模型更差。这表明所选择的模型并不熟练,并且鉴于前面部分中用于查找模型配置的相同资源,它是最好的。
这提供了进一步的证据(虽然证据不足),LSTM,至少单独,可能不适合自回归型序列预测问题。
......@@ -1359,7 +1359,7 @@ lstm: 2109.779 RMSE (+/- 81.373)
还创建了一个盒子和胡须图,总结了 RMSE 分数的分布。
甚至模型的基本情况也没有达到天真模型的表现。
甚至模型的基本情况也没有达到朴素模型的表现。
![Box and Whisker Plot of Long Short-Term Memory Neural Network RMSE Forecasting Car Sales](img/4fd5ceadaf6bf13c76301251b1e6c656.jpg)
......
......@@ -484,9 +484,9 @@ CNN LSTM 架构的功率变化是 ConvLSTM,它直接在 LSTM 的单元内使
* [如何为时间序列预测开发 LSTM 模型](https://machinelearningmastery.com/how-to-develop-lstm-models-for-time-series-forecasting/)
将在家庭电力预测问题上开发和演示这些模型。如果一个模型比一个天真的模型更好地实现表现,那么该模型被认为是技术性的,在 7 天的预测中,该模型的总体 RMSE 约为 465 千瓦。
将在家庭电力预测问题上开发和演示这些模型。如果一个模型比一个朴素的模型更好地实现表现,那么该模型被认为是技术性的,在 7 天的预测中,该模型的总体 RMSE 约为 465 千瓦。
我们不会专注于调整这些模型以实现最佳表现;相反,与天真的预测相比,我们将停止熟练的模型。选择的结构和超参数通过一些试验和错误来选择。分数应仅作为示例,而不是研究问题的最佳模型或配置。
我们不会专注于调整这些模型以实现最佳表现;相反,与朴素的预测相比,我们将停止熟练的模型。选择的结构和超参数通过一些试验和错误来选择。分数应仅作为示例,而不是研究问题的最佳模型或配置。
鉴于模型的随机性,[良好实践](https://machinelearningmastery.com/evaluate-skill-deep-learning-models/)是多次评估给定模型并报告测试数据集的平均表现。为了简洁起见并保持代码简单,我们将在本教程中介绍单行模型。
......@@ -828,7 +828,7 @@ pyplot.show()
鉴于算法的随机性,您的具体结果可能会有所不同。您可能想尝试几次运行该示例。
我们可以看到,在这种情况下,与天真的预测相比,该模型是巧妙的,实现了大约 399 千瓦的总体 RMSE,小于 465 千瓦的天真模型。
我们可以看到,在这种情况下,与朴素的预测相比,该模型是巧妙的,实现了大约 399 千瓦的总体 RMSE,小于 465 千瓦的朴素模型。
```
lstm: [399.456] 419.4, 422.1, 384.5, 395.1, 403.9, 317.7, 441.5
......
......@@ -58,11 +58,11 @@ EMC Data Science Global Hackathon 数据集或简称“空气质量预测”数
* [把所有东西都扔进随机森林:Ben Hamner 赢得空气质量预测黑客马拉松](http://blog.kaggle.com/2012/05/01/chucking-everything-into-a-random-forest-ben-hamner-on-winning-the-air-quality-prediction-hackathon/),2012。
在本教程中,我们将探索如何为可用作基线的问题开发天真预测,以确定模型是否具有该问题的技能。
在本教程中,我们将探索如何为可用作基线的问题开发朴素预测,以确定模型是否具有该问题的技能。
## 模型评估
在我们评估天真的预测方法之前,我们必须开发一个测试工具。
在我们评估朴素的预测方法之前,我们必须开发一个测试工具。
这至少包括如何准备数据以及如何评估预测。
......@@ -440,7 +440,7 @@ def summarize_error(name, total_mae, times_mae):
pyplot.show()
```
我们现在准备开始探索天真预测方法的表现。
我们现在准备开始探索朴素预测方法的表现。
机器学习建模
......
......@@ -94,11 +94,11 @@ pyplot.show()
每月国际航空公司乘客的线路情节
在本教程中,我们将介绍用于网格搜索的工具,但我们不会针对此问题优化模型超参数。相反,我们将演示如何通常网格搜索深度学习模型超参数,并找到与天真模型相比具有一定技巧的模型。
在本教程中,我们将介绍用于网格搜索的工具,但我们不会针对此问题优化模型超参数。相反,我们将演示如何通常网格搜索深度学习模型超参数,并找到与朴素模型相比具有一定技巧的模型。
从之前的实验中,一个天真的模型可以通过持续 12 个月前的值(相对指数-12)来实现 50.70 的均方根误差或 RMSE(记住单位是数千名乘客)。
从之前的实验中,一个朴素的模型可以通过持续 12 个月前的值(相对指数-12)来实现 50.70 的均方根误差或 RMSE(记住单位是数千名乘客)。
这个天真模型的表现提供了一个被认为适合这个问题的模型的约束。任何在过去 12 个月内达到低于 50.70 的预测表现的模型都具有技巧。
这个朴素模型的表现提供了一个被认为适合这个问题的模型的约束。任何在过去 12 个月内达到低于 50.70 的预测表现的模型都具有技巧。
应该注意的是,调谐的 ETS 模型可以实现 17.09 的 RMSE,并且调谐的 SARIMA 可以实现 13.89 的 RMSE。这些为这个问题提供了一个调整良好的深度学习模型的预期的下限。
......@@ -1085,7 +1085,7 @@ for cfg, error in scores[:3]:
运行该示例,我们可以看到只评估了八种不同的配置。
我们可以看到[12,64,5,100,1,12]的配置实现了 18.89 的 RMSE,与实现 50.70 的天真预测模型相比,这是巧妙的。
我们可以看到[12,64,5,100,1,12]的配置实现了 18.89 的 RMSE,与实现 50.70 的朴素预测模型相比,这是巧妙的。
我们可以将此配置解压缩为:
......@@ -1395,7 +1395,7 @@ for cfg, error in scores[:3]:
运行该示例,我们可以看到只评估了两个不同的配置。
我们可以看到[12,100,50,1,12]的配置实现了 21.24 的 RMSE,与实现 50.70 的天真预测模型相比,这是巧妙的。
我们可以看到[12,100,50,1,12]的配置实现了 21.24 的 RMSE,与实现 50.70 的朴素预测模型相比,这是巧妙的。
该模型需要更多的调整,并且可以使用混合配置做得更好,例如将 CNN 模型作为输入。
......
......@@ -2,7 +2,7 @@
> 原文: [https://machinelearningmastery.com/how-to-grid-search-naive-methods-for-univariate-time-series-forecasting/](https://machinelearningmastery.com/how-to-grid-search-naive-methods-for-univariate-time-series-forecasting/)
简单的预测方法包括天真地使用最后一个观测值作为预测或先前观测值的平均值。
简单的预测方法包括朴素地使用最后一个观测值作为预测或先前观测值的平均值。
在使用更复杂的方法之前评估简单预测方法对单变量时间序列预测问题的表现非常重要,因为它们的表现提供了一个下限和比较点,可用于确定模型是否具有给定技能的技能问题。
......@@ -44,14 +44,14 @@
简单预测策略有两个主题;他们是:
* **天真**,或直接使用观察值。
* **朴素**,或直接使用观察值。
* **平均**,或使用先前观察计算的统计量。
让我们仔细看看这两种策略。
### 天真的预测策略
### 朴素的预测策略
天真的预测涉及直接使用先前的观察作为预测而没有任何改变。
朴素的预测涉及直接使用先前的观察作为预测而没有任何改变。
它通常被称为持久性预测,因为之前的观察是持久的。
......@@ -69,7 +69,7 @@
### 平均预测策略
天真预测之上的一步是平均先前值的策略。
朴素预测之上的一步是平均先前值的策略。
所有先前的观察结果均使用均值或中位数进行收集和平均,而不对数据进行其他处理。
......@@ -97,9 +97,9 @@
## 开发网格搜索框架
在本节中,我们将开发一个网格搜索框架,用于搜索前一节中描述的两个简单预测策略,即天真和平均策略。
在本节中,我们将开发一个网格搜索框架,用于搜索前一节中描述的两个简单预测策略,即朴素和平均策略。
我们可以从实施一个天真的预测策略开始。
我们可以从实施一个朴素的预测策略开始。
对于给定的历史观测数据集,我们可以在该历史中保留任何值,即从索引-1 处的先前观察到历史上的第一次观察 - (len(data))。
......@@ -287,7 +287,7 @@ for i in [1, 2, 3]:
10.0
```
可以将天真预测策略和平均预测策略结合在一起,形成相同的功能。
可以将朴素预测策略和平均预测策略结合在一起,形成相同的功能。
这些方法之间存在一些重叠,特别是 _n-_ 偏移到历史记录中,用于持久化值或确定要平均的值的数量。
......@@ -1451,7 +1451,7 @@ done
本节列出了一些扩展您可能希望探索的教程的想法。
* **地块预测**。更新框架以重新拟合具有最佳配置的模型并预测整个测试数据集,然后将预测与测试集中的实际观察值进行比较。
* **漂移方法**。实施简单预测的漂移方法,并将结果与​​平均和天真的方法进行比较。
* **漂移方法**。实施简单预测的漂移方法,并将结果与​​平均和朴素的方法进行比较。
* **另一个数据集**。将开发的框架应用于另外的单变量时间序列问题(例如,来自[时间序列数据集库](https://datamarket.com/data/list/?q=provider:tsdl))。
如果你探索任何这些扩展,我很想知道。
......@@ -1466,7 +1466,7 @@ done
## 摘要
在本教程中,您了解了如何从头开始构建一个框架,用于网格搜索简单的天真和平均策略,用于使用单变量数据进行时间序列预测。
在本教程中,您了解了如何从头开始构建一个框架,用于网格搜索简单的朴素和平均策略,用于使用单变量数据进行时间序列预测。
具体来说,你学到了:
......
......@@ -586,7 +586,7 @@ plot_subjects(subjects)
CNN 能够从输入序列中提取特征,例如输入加速度计数据的窗口。诸如 LSTM 之类的 RNN 能够直接从长序列的输入数据中学习,并学习数据中的长期关系。
我希望序列数据中几乎没有因果关系,除了每个主题看起来他们正在执行相同的人为行动序列,我们不想学习。天真地,这可能表明 CNN 更适合于在给定一系列观察到的加速度计数据的情况下预测活动。
我希望序列数据中几乎没有因果关系,除了每个主题看起来他们正在执行相同的人为行动序列,我们不想学习。朴素地,这可能表明 CNN 更适合于在给定一系列观察到的加速度计数据的情况下预测活动。
一维 CNN 已广泛用于此类问题,其中一个通道用于加速度计数据的每个轴。一个很好的简单起点是直接在序列数据的窗口上拟合 CNN 模型。这是 2014 年题为“[使用移动传感器进行人类活动识别的卷积神经网络](https://ieeexplore.ieee.org/abstract/document/7026300/)”的论文中描述的方法,并且从下面的图中可以看出更清楚。
......
......@@ -568,14 +568,14 @@ pyplot.show()
对于这个问题,可能有四类方法可能很有趣;他们是:
* 天真的方法。
* 朴素的方法。
* 经典线性方法。
* 机器学习方法。
* 深度学习方法。
#### 天真的方法
#### 朴素的方法
天真的方法将包括做出非常简单但通常非常有效的假设的方法。
朴素的方法将包括做出非常简单但通常非常有效的假设的方法。
一些例子包括:
......
......@@ -1312,7 +1312,7 @@ PM2.5 AQI & Speciation Mass, 3
在本节中,我们将利用我们发现的有关该问题的方法,并提出一些建模此问题的方法。
我喜欢这个数据集;它是凌乱的,现实的,抵制天真的方法。
我喜欢这个数据集;它是凌乱的,现实的,抵制朴素的方法。
本节分为四个部分;他们是:
......@@ -1423,7 +1423,7 @@ LSTM 旨在处理序列数据,并可通过屏蔽直接支持丢失的数据。
### 评估
一种反映竞争中使用的天真方法可能最适合评估模型。
一种反映竞争中使用的朴素方法可能最适合评估模型。
也就是说,将每个块分成列车和测试集,在这种情况下使用前五天的数据进行训练,其余三个用于测试。
......
......@@ -200,13 +200,13 @@ trainX, testX, trainy, testy = train_test_split(X, y, test_size=0.3, shuffle=Fal
接下来,我们可以从一个朴素的预测模型开始评估数据集的一些模型。
### 天真的模型
### 朴素的模型
这个问题的一个简单模型是预测最突出的阶级结果。
这称为零规则,或原始预测算法。我们将评估测试集中每个示例的所有 0(未占用)和全 1(占用)的预测,并使用精度度量来评估方法。
下面是一个函数,它将根据测试集和选择的结果变量执行这种天真的预测
下面是一个函数,它将根据测试集和选择的结果变量执行这种朴素的预测
```
def naive_prediction(testX, value):
......@@ -243,7 +243,7 @@ for value in [0, 1]:
print('Naive=%d score=%.3f' % (value, score))
```
运行该示例打印天真预测和相关分数。
运行该示例打印朴素预测和相关分数。
通过预测全部 0,我们可以看到基线分数约为 82%的准确度。都没有入住。
......@@ -289,7 +289,7 @@ print(score)
运行该示例在训练数据集上拟合逻辑回归模型并预测测试数据集。
该模型的技能大约 99%准确,显示出天真方法的技巧。
该模型的技能大约 99%准确,显示出朴素方法的技巧。
通常,我建议在建模之前对数据进行居中和规范化,但是一些试验和错误表明,未缩放数据的模型更加熟练。
......
......@@ -128,7 +128,7 @@ Name: Sales, dtype: float64
将使用训练数据集开发模型,并对测试数据集进行预测。
测试数据集的持久性预测(天真预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
测试数据集的持久性预测(朴素预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
### 模型评估
......
......@@ -162,7 +162,7 @@ Sep, Oct, Nov, Dec
时间序列预测的良好基线是持久性模型。
这是一个预测模型,其中最后一个观察结果是持续的。由于它的简单性,它通常被称为天真的预测。
这是一个预测模型,其中最后一个观察结果是持续的。由于它的简单性,它通常被称为朴素的预测。
您可以在帖子中了解有关时间序列预测的持久性模型的更多信息:
......
......@@ -6,13 +6,13 @@
该数据代表了多变量时间序列的功率相关变量,而这些变量又可用于建模甚至预测未来的电力消耗。
在本教程中,您将了解如何为“家庭功耗”数据集开发测试工具,并评估三种天真的预测策略,为更复杂的算法提供基线。
在本教程中,您将了解如何为“家庭功耗”数据集开发测试工具,并评估三种朴素的预测策略,为更复杂的算法提供基线。
完成本教程后,您将了解:
* 如何加载,准备和下采样家庭功耗数据集,为开发模型做好准备。
* 如何为强大的测试工具开发度量标准,数据集拆分和前进验证元素,以评估预测模型。
* 如何开发,评估和比较一套天真的持久性预测方法的表现。
* 如何开发,评估和比较一套朴素的持久性预测方法的表现。
让我们开始吧。
......@@ -28,7 +28,7 @@
1. 问题描述
2. 加载并准备数据集
3. 模型评估
4. 天真的预测模型
4. 朴素的预测模型
## 问题描述
......@@ -385,13 +385,13 @@ def summarize_scores(name, score, scores):
我们现在已经开始评估数据集上的预测模型的所有元素。
## 天真的预测模型
## 朴素的预测模型
在任何新的预测问题上测试天真的预测模型是很重要的。
在任何新的预测问题上测试朴素的预测模型是很重要的。
来自[幼稚模型](https://machinelearningmastery.com/persistence-time-series-forecasting-with-python/)的结果提供了预测问题有多困难的定量概念,并提供了可以评估更复杂的预测方法的基准表现。
在本节中,我们将开发和比较三种用于家庭功率预测问题的天真预测方法;他们是:
在本节中,我们将开发和比较三种用于家庭功率预测问题的朴素预测方法;他们是:
* 每日持续性预测。
* 每周持续预测。
......@@ -399,7 +399,7 @@ def summarize_scores(name, score, scores):
### 每日持续性预测
我们将开发的第一个天真的预测是每日持久性模型。
我们将开发的第一个朴素的预测是每日持久性模型。
该模型从预测期间(例如星期六)之前的最后一天获取有效功率,并将其用作预测期间(星期日至星期六)中每天的功率值。
......@@ -419,7 +419,7 @@ def daily_persistence(history):
### 每周持续预测
预测标准周时的另一个好的天真预测是使用整个前一周作为未来一周的预测。
预测标准周时的另一个好的朴素预测是使用整个前一周作为未来一周的预测。
这是基于下周将与本周非常相似的想法。
......@@ -449,7 +449,7 @@ def week_one_year_ago_persistence(history):
return last_week[:, 0]
```
### 天真的模型比较
### 朴素的模型比较
我们可以使用上一节中开发的测试工具来比较每个预测策略。
......@@ -486,7 +486,7 @@ for name, func in models.items():
pyplot.plot(days, scores, marker='o', label=name)
```
将所有这些结合在一起,下面列出了评估三种天真预测策略的完整示例。
将所有这些结合在一起,下面列出了评估三种朴素预测策略的完整示例。
```
# naive forecast strategies
......@@ -623,8 +623,8 @@ week-oya: [465.294] 550.0, 446.7, 398.6, 487.0, 459.3, 313.5, 555.1
本节列出了一些扩展您可能希望探索的教程的想法。
* **额外的天真战略**。提出,开发和评估一种更为天真的策略,用于预测下周的功耗。
* **朴素合奏策略**。制定集合策略,结合三种提议的天真预测方法的预测。
* **额外的朴素战略**。提出,开发和评估一种更为朴素的策略,用于预测下周的功耗。
* **朴素合奏策略**。制定集合策略,结合三种提议的朴素预测方法的预测。
* **优化的直接持久性模型**。在直接持久性模型中测试并找到用于每个预测日的最佳相对前一天(例如-1 或-7)。
如果你探索任何这些扩展,我很想知道。
......@@ -648,13 +648,13 @@ week-oya: [465.294] 550.0, 446.7, 398.6, 487.0, 459.3, 313.5, 555.1
## 摘要
在本教程中,您了解了如何为家庭功耗数据集开发测试工具,并评估三种天真的预测策略,这些策略为更复杂的算法提供基线。
在本教程中,您了解了如何为家庭功耗数据集开发测试工具,并评估三种朴素的预测策略,这些策略为更复杂的算法提供基线。
具体来说,你学到了:
* 如何加载,准备和下采样家庭功耗数据集,以便进行建模。
* 如何为强大的测试工具开发度量标准,数据集拆分和前进验证元素,以评估预测模型。
* 如何开发,评估和比较一套天真的持久性预测方法的表现。
* 如何开发,评估和比较一套朴素的持久性预测方法的表现。
你有任何问题吗?
在下面的评论中提出您的问题,我会尽力回答。
\ No newline at end of file
......@@ -103,7 +103,7 @@ Name: Sales, dtype: float64
将使用训练数据集开发模型,并对测试数据集进行预测。
测试数据集的持久性预测(天真预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
测试数据集的持久性预测(朴素预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
### 模型评估
......
......@@ -102,7 +102,7 @@ Name: Sales, dtype: float64
将使用训练数据集开发模型,并对测试数据集进行预测。
测试数据集的持久性预测(天真预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
测试数据集的持久性预测(朴素预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
### 模型评估
......@@ -320,7 +320,7 @@ run()
结果清楚地表明 RMSE 在几乎所有实验运行的训练时期都呈下降趋势。
这是一个好兆头,因为它表明模型正在学习问题并具有一些预测技巧。实际上,所有最终测试分数都低于简单持久性模型(天真预测)的误差,该模型在此问题上达到了 136.761 的 RMSE。
这是一个好兆头,因为它表明模型正在学习问题并具有一些预测技巧。实际上,所有最终测试分数都低于简单持久性模型(朴素预测)的误差,该模型在此问题上达到了 136.761 的 RMSE。
结果表明,更多的训练时期将导致更熟练的模型。
......
......@@ -105,7 +105,7 @@ Name: Sales, dtype: float64
将使用训练数据集开发模型,并对测试数据集进行预测。
测试数据集的持久性预测(天真预测)实现了每月洗发水销售 136.761 的错误。这为测试集提供了可接受的表现下限。
测试数据集的持久性预测(朴素预测)实现了每月洗发水销售 136.761 的错误。这为测试集提供了可接受的表现下限。
### 模型评估
......
......@@ -107,7 +107,7 @@ Name: Sales, dtype: float64
将使用训练数据集开发模型,并对测试数据集进行预测。
测试数据集的持久性预测(天真预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
测试数据集的持久性预测(朴素预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
#### 模型评估
......
......@@ -100,7 +100,7 @@ Name: Sales, dtype: float64
将使用训练数据集开发模型,并对测试数据集进行预测。
测试数据集的持久性预测(天真预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
测试数据集的持久性预测(朴素预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
### 模型评估
......
......@@ -100,7 +100,7 @@ Name: Sales, dtype: float64
将使用训练数据集开发模型,并对测试数据集进行预测。
测试数据集的持久性预测(天真预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
测试数据集的持久性预测(朴素预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
### 模型评估
......
......@@ -108,7 +108,7 @@ Name: Sales, dtype: float64
将使用训练数据集开发模型,并对测试数据集进行预测。
测试数据集的持久性预测(天真预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
测试数据集的持久性预测(朴素预测)实现了每月洗发水销售 136.761 的错误。这在测试集上提供了较低的可接受表现限制。
### 模型评估
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册