现在有一个解决这个问题的方法,称为 K 折交叉验证,我们将在本书的后面看到一个示例,但是基本概念是您需要多次训练/测试。 因此,您实际上将数据不仅分为一个训练集和一个测试集,还分为多个随机分配的段,即 k 个段。 那就是 k 的来源。 然后将其中一个细分保留为测试数据,然后开始在其余细分上训练模型,并根据测试数据集衡量其性能。 然后,您可以从这些训练集模型的每个结果中获得平均表现,并获得其 R 平方平均得分。
现在有一个解决这个问题的方法,称为 K 折交叉验证,我们将在本书的后面看到一个示例,但是基本概念是您需要多次训练/测试。 因此,您实际上将数据不仅分为一个训练集和一个测试集,还分为多个随机分配的段,即`k`个段。 那就是 k 的来源。 然后将其中一个细分保留为测试数据,然后开始在其余细分上训练模型,并根据测试数据集衡量其性能。 然后,您可以从这些训练集模型的每个结果中获得平均表现,并获得其 R 平方平均得分。
这样一来,您实际上是在对数据的不同部分进行训练,并使用相同的测试集对其进行测量,如果您的模型过度适合您的训练数据的特定部分,则其他模型会将其平均化 有助于 k 倍交叉验证的产品。
这样一来,您实际上是在对数据的不同部分进行训练,并使用相同的测试集对其进行测量,如果您的模型过度适合您的训练数据的特定部分,则其他模型会将其平均化 有助于 K 折交叉验证的产品。
因此`Return of the Jedi (1983)`的得分最高,为 7,`Raiders of the Lost Ark (1981)`以 5 分紧随其后,然后我们开始进入`Indiana Jones and the Last Crusade (1989)`,还有更多电影`The Bridge on the River Kwai (1957)`,[`Back to the Future (1985),` `The Sting (1973`)。 这些都是我真正喜欢看的电影! 您知道,我实际上也确实喜欢老式的迪斯尼电影,因此`Cinderella (1950)`并不像看起来那样疯狂。
因此`Return of the Jedi (1983)`的得分最高,为 7,`Raiders of the Lost Ark (1981)`以 5 分紧随其后,然后我们开始进入`Indiana Jones and the Last Crusade (1989)`,还有更多电影`The Bridge on the River Kwai (1957)`,`Back to the Future (1985),``The Sting (1973`)。 这些都是我真正喜欢看的电影! 您知道,我实际上也确实喜欢老式的迪斯尼电影,因此`Cinderella (1950)`并不像看起来那样疯狂。
如您所见,将返回整个标题标签,从而可以更深入地研究嵌套的 HTML 结构。 如果我们想知道与威廉·莎士比亚的维基百科页面相关的类别怎么办? 只需反复下载和解析相邻页面,创建条目图可能非常有用。 我们应该首先手动分析 HTML 页面本身,以找出包含我们所寻找信息的最佳 HTML 标签是什么。 请记住这里的*没有免费午餐*定理:没有自动发现功能,此外,如果 Wikipedia 修改其格式,事情可能会改变。
如您所见,将返回整个标题标签,从而可以更深入地研究嵌套的 HTML 结构。 如果我们想知道与威廉·莎士比亚的维基百科页面相关的类别怎么办? 只需反复下载和解析相邻页面,创建条目图可能非常有用。 我们应该首先手动分析 HTML 页面本身,以找出包含我们所寻找信息的最佳 HTML 标签是什么。 请记住这里的*没有免费午餐*定理:没有自动发现功能,此外,如果维基百科修改其格式,事情可能会改变。
经过手动分析,我们发现类别位于名为`'mw-normal-catlinks'`的 div 中; 除了第一个链接,其他所有都可以。 现在,该进行编程了。 让我们将观察到的内容放入一些代码中,为每个类别打印链接页面的标题及其相对链接: