学完本课的几种算法,加上已经非常熟悉的线性回归和逻辑回归算法,我们的机器学习“弹药库”就基本完备了。
总结一下,本课学习的几种算法如下。
■KNN—通过向量在空间中的距离来为数据样本分类。
■SVM—种使用核函数扩展向量空间维度,并力图最大化分割超平面的算法。
■朴素贝叶斯—这种算法应用概率建模原理,假设数据集的特征都是彼此独立的。
■决策树—类似于“20个问题”游戏,个人能力虽然较弱,却能够被集成出多种更优秀的算法。
■随机森林—通过bootstrap取样形成不同的训练集,并进行特征的随机抽取,生成多棵树,然后通过结果集成,来进行分类预测。
此外,通过网格搜索,还可以在大量参数的相互组合中找到最适合当前数据集的最佳参数组合。
下一课将会介绍如何利用这些算法进行集成学习,从而得到更优的模型。