下面总结一下本课学习的内容
■偏差和方差,它们是机器学习性能优化的风向标。弱模型的偏差很大,但是模型性能提高后,一旦过拟合,就会因为太依赖原始数据集而在其他数据集上产生高方差。
■Bagging算法,通常基于决策树算法基础之上,通过数据集的随机生成,训练出各种各样不同的树。而随机森林还在树分叉时,增加了对特征选择的随机性。随机森林在很多问题上都是一个很强的算法,可以作为一个基准。如果你们的算法能胜过随机森林,就很棒。
■Boosting算法,把梯度下降的思想应用在机器学习算法的优化上,使弱模型对数据的拟合逐渐增强。Boosting也常应用于决策树算法之上。这个思路中的Ada Boost、GBDT和XGBoost都是很受欢迎的算法。
■Stacking和Blending算法,用模型的预测结果,作为新模型的训练集。Stacking中使用了K折验证。
■Voting和Averaging算法,把几种不同模型的预测结果,做投票或者平均(或加权平均),得到新的预测结果。
集成学习的核心思想就是训练出多个模型以及将这些模型进行组合。根据分类器的训练方式和组合预测的方法,集成学习模型中有可以降低方差的Bagging、有降低偏差的Boosting,以及各种模型结果的集成,如Stacking、Blending、Voting和Averaging……
当你们已经尽心尽力进行模型内部外部的优化,而模型的性能还不令你们完全满意时,你们应该立刻想到集成学习策略!
讲完集成学习,咱们的机器学习课程基本上也就要进入尾声了。后面的两课,还要讲一些关于无监督学习和强化学习的内容,这些内容可能并非机器学习的主流内容,尤其是对于初学者来说,接触到的可能有些少,但也是机器学习领域发展快、潜力大的部分。