机器学习第一道菜（一）：线性回归的理论模型

前面讲了机器学习的"四大绝技"，今天，开始研究第一绝技"回归"，这篇文章就从最简单的线性回归开始讲起。

一、问题：千金买笑

以追女孩为例，假设送的礼物越贵，妹子对我们抱以微笑的时候就越多。也就是说，二者成线性关系：妹子的微笑次数是礼物金额的一次函数。

假设某君实际统计了一系列礼物金额与微笑次数的数据，并画出散点图：

现在交给你个任务，请回答：送6000元礼物能有多少次微笑回馈。

这个问题很简单，一眼就能看个差不离，大概四五十次的样子。

那能不能根据已有数据，找出一条最佳直线来表示礼物金额和微笑次数的函数关系呢？如果找到了这条线，不就可以预测出要花多少钱就能让妹子对我们笑一万次了吗？

这就是机器学习要做的事情：分析数据找规律。

只不过呢，机器学习可能会有点意见，认为解这道题有点大材小用。

咱们这样简化处理纯为方便理解，现实生活中可能有1000个影响因素，还拿妹子的微笑来说，真是你花钱就能买到的吗？可能你扶个老妹妹过马路，被妹子看到都会大方地给你个微笑。

不管是简单版还是复杂版，类似这样的问题都属于机器学习的回归任务。回归就是要找到一条函数曲线，去近似模拟真实世界的规律。有关回归更详细的介绍参见：【深度解析】机器学习的"四大绝技"

这些已有的离散点越多，机器学习吃得越饱，模拟得也就越精确。找到了这条曲线，就可以用来预测未来下一个点会打在什么地方，或者某个条件下点会打在什么地方。

不过咱们要找的线不是什么复杂的曲线，而是一条直线，像这样的回归问题叫"线性回归"。

因为两点确定一条直线，显然，对于上面的散点图来说，不可能找到一条完美的直线，通过所有点。这很好理解，妹子的微笑不可能完全由一根直线决定，因此这些点是有噪声的。

我们要找的应该是类似下图的一条直线：

这个过程在数学中叫"拟合"。

一次函数的表达式为y=kx+b，其中k是斜率、b是截距。

只要确定了斜率和截距，一次函数的图像形状也就确定了，因此我们要做的就求出k和b。

NO，NO，NO。

这里我们要来个画风突变。

在机器学习的世界里，我们要用统计学的风格来表达函数关系，将表达式写成下面的形式：
y = θ 0 + θ 1 x y=\theta_0 + \theta_1x y=θ0+θ1x
θ \theta θ读作"西塔（theta）"，就是接下来我们要求的未知数（或者叫参数）。

为什么要搞个"西塔"出来，还要带下标呢？有两个原因：

(1)命名习惯。在统计学领域，常使用θ来表示未知数和推测值。

(2)队伍多了不好带。如果函数有很多项，那就会大量出现a、b、c、d...这样的符号，显得很混乱，就像一支军队个个都穿得花里胡哨的。此外，如果有1000项，集齐全世界的符号都不够用了，而用数字做下标就不存在问题了。所以，为了整齐划一、多带队伍，就得统一军装，并下发编号。

现在机器学习的理论模型就算搭建好了，接下来要做的就是不断地给机器喂x、y，让它求出 θ \theta θ的过程。

怎么计算呢？

计算机也不知道给多大的值合适，那就先随便给个随机值，比如设 θ 0 = 1 \theta_0=1 θ0=1、 θ 1 = 2 \theta_1=2 θ1=2，则表达式变为：
y = 1 + 2 x y=1 + 2x y=1+2x

然后开始喂数据，假设把x=2000代入表达式，则：
y = 1 + 2 x = 1 + 2 × 2000 = 4001 y=1 + 2x =1 + 2\times2000 =4001 y=1+2x=1+2×2000=4001

这差得也太远了吧，从图上看y的实际值也就应该20左右的样子。

计算值与实际值差别大，就说明刚才假设 θ 0 = 1 \theta_0=1 θ0=1、 θ 1 = 2 \theta_1=2 θ1=2是不正确的，这就需要调整 θ 0 \theta_0 θ0 、 θ 1 \theta_1 θ1的值，使计算值与实际值的差最小。

只使这一组数据的差值最小显然不行，应该使所有数据的差都尽量的小。

怎么办呢？聪明的你肯定能想到，那就对所有数据的差求和，只要这个和最小就可以了。

这就需要用到"最小二乘法"，咱们以后再说。