小冰已经准备好了她的问题。这些问题都与广告投放金额和商品销售额有关,她希望通过机器学习算法找出答案。
(1)各种广告和商品销售额的相关度如何?
(2)各种广告和商品销售额之间体现出一种什么关系?
(3)哪一种广告对于商品销售额的影响最大?
(4)分配特定的广告投放金额,预测出未来的商品销售额。
咖哥说:“问题定义得不错。广告投放金额和商品销售额之间,明显呈现出一种相关性。”
机器学习算法正是通过分析已有的数据,发现两者之间的关系,也就是发现一个能由“此”推知“彼”的函数。本课通过回归分析来寻找这个函数。所谓回归分析(regression analysis),是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,也就是研究当自变量x变化时,因变量y以何种形式在变化。在机器学习领域,回归应用于被预测对象具有连续值特征的情况(如客流量、降雨量、销售量等),所以用它来解决小冰的这几个问题非常合适。
最基本的回归分析算法是线性回归,它是通过线性函数对变量间定量关系进行统计分析。比如,一个简单函数y=2x+1,就体现了一个一元(只有一个自变量)的线性回归,其中2是斜率,1是y轴上的截距。
机器学习的初学者经常见到的第一个教学案例就是对房价的预测。不难理解,房屋的售价与某些因素呈现比较直接的线性关系,比如房屋面积越大,售价越高。如下图所示,线性函数对此例的拟合效果比较好。
线性函数对某些问题的拟合效果比较好
在机器学习的线性回归分析中,如果只包括一个自变量(特征x)和一个因变量(标签y),且两者的关系可用一条直线近似表示,这种回归分析就称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
那么小冰带来的这个销售额预测问题是一元线性回归还是多元线性回归呢?我们先来看一看她收集的数据吧。