正如您在此处看到的那样,笔记本的结构方式使我可以在实际代码本身中散布有关您在此处看到的内容的小注释和评论,并且可以在 Web 浏览器中实际运行此代码! 因此,对于我来说,这是一种非常方便的格式,可以为您提供一些参考,您可以在以后的生活中使用它来提醒自己,我们将要讨论这些算法的工作原理,并实际对其进行实验和玩耍 和他们自己在一起。
正如您在此处看到的那样,笔记本的结构方式使我可以在实际代码本身中散布有关您在此处看到的内容的小注释和评论,并且可以在 Web 浏览器中实际运行此代码! 因此,对于我来说,这是一种非常方便的格式,可以为您提供一些参考,您可以在以后的生活中使用它来提醒自己,我们将要讨论这些算法的工作原理,并实际对其进行实验和自己玩转它们。
现在有一个解决这个问题的方法,称为 K 折交叉验证,我们将在本书的后面看到一个示例,但是基本概念是您需要多次训练/测试。 因此,您实际上将数据不仅分为一个训练集和一个测试集,还分为多个随机分配的段,即`k`个段。 那就是 k 的来源。 然后将其中一个细分保留为测试数据,然后开始在其余细分上训练模型,并根据测试数据集衡量其性能。 然后,您可以从这些训练集模型的每个结果中获得平均表现,并获得其 R 平方平均得分。
这样一来,您实际上是在对数据的不同部分进行训练,并使用相同的测试集对其进行测量,如果您的模型过度适合您的训练数据的特定部分,则其他模型会将其平均化 有助于 K 折交叉验证的产品。
这样一来,您实际上是在对数据的不同部分进行训练,并使用相同的测试集对其进行测量,如果您的模型过度适合您的训练数据的特定部分,则其他模型会将其平均化,这归功于 K 折交叉验证。
这是 K 折交叉验证步骤:
...
...
@@ -239,7 +239,7 @@ R 平方值原来是`0.6`,这并不奇怪,因为我们在训练数据上对
那么,还记得随机森林吗? 我们有一堆决策树,它们使用输入数据的不同子样本以及将要分支的不同属性集,当您尝试对某些事物进行最后的分类时,它们都会对最终结果进行投票。 那是集成学习的一个例子。 另一个例子:当我们讨论 K 均值聚类时,我们想到了可能使用具有不同初始随机质心的不同 K 均值模型,并让它们都对最终结果进行投票。 这也是集成学习的一个例子。