咖哥带着大家搞定了二元分类问题之后,马不停蹄地开始介绍多元分类。

咖哥说:“还是老规矩,先介绍要解决的问题,然后讲方法。下面要解决一个经典机器学习教学案例:确定鸢尾花的种类。这也是一个典型的多分类问题。数据来自R.A.Fisher 1936年发表的论文,已开源供机器学习爱好者下载。同学们也可以从源代码包中找到这个数据集。”

数据集中的鸢尾花(iris)共3类,分别是山鸢尾(iris-setosa)、杂色鸢尾(iris-versicolor)和维吉尼亚鸢尾(iris-virginica)。整个数据集中一共只有150个数据,已经按照标签类别排序,每类50个数据,其中有一类可以和其他两类进行线性的分割,但另外两类无法根据特征线性分割开。

梵高名画:鸢尾花(请见339页彩色版插图)

鸢尾花数据集的特征和标签字段如表4-1所示。

■Id:序号。

■Sepal Length Cm:花萼长度。

■Sepal Width Cm:花萼宽度。

■Petal Length Cm:花瓣长度。

■Petal Width Cm:花瓣宽度。

■Species:类别(这是标签)。

表4-1 鸢尾花数据集中的特征和标签字段