首页手记机器学习算法之线性回归（linear...

机器学习算法之线性回归（linear regreesion）

标签：

机器学习

linear regreesion（线性回归）

我们将用来描述回归问题的标记如下:

m $m$ 代表训练集中实例的数量

n $n$ 代表特征的数量

x(i) $x^{(i)}$ 表示第i $i$ 个训练实例，是特征矩阵的第i行，是一个向量

x(i)j $x_{j}^{(i)}$ 表示特征矩阵中第i $i$ 行的第j $j$ 个特征，也就是第i $i$ 个训练实例的第j $j$ 个特征

y $y$ 代表目标变量，也就是输出变量

(x,y) $(x, y)$ 代表训练集中的一个实例

(x(i),y(i)) $(x^{(i)}, y^{(i)})$ 代表第i $i$ 个观察实例

h $h$ 代表学习算法的函数，或者加假设（hypothesis）

对于多变量线性回归，假设函数可以设为

hθ(x)=θ0+θ1x1+θ2x2+...+θnxn $h_{θ} (x) = θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + . . . + θ_{n} x_{n}$

为了使公式能够简化，引入x0=1 $x_{0} = 1$ ,则假设函数变为

hθ(x)=θ0x0+θ1x1+θ2x2+...+θnxn $h_{θ} (x) = θ_{0} x_{0} + θ_{1} x_{1} + θ_{2} x_{2} + . . . + θ_{n} x_{n}$

,进行向量化后，最终结果为

hθ(x)=θTX $h_{θ} (x) = θ^{T} X$

我们需要求出θ $θ$ ,使得对于每一个样本，带入到假设函数中，能得到对应的一个预测值，而我们的目标，是使求出的预测值尽可能的接近真实值

通过最大似然估计来推导目标函数

由于我们实际预测的值和真实值之间肯定会有误差，对于每个样本:

y(i)=θTx(i)+ε(i) $y^{(i)} = θ^{T} x^{(i)} + ε^{(i)}$

其中，y(i) $y^{(i)}$ 为当前样本实际真实值，θTx(i) $θ^{T} x^{(i)}$ 为预测结果，ε(i) $ε^{(i)}$ 即为预测误差

对于整个数据集来说，则：

Y=θTX+ε $Y = θ^{T} X + ε$

误差ε(i) $ε^{(i)}$ 是独立的并且具有相同的分布，并且服从均值为0，方差为θ2 $θ^{2}$ 的正态分布

由于误差服从正态分布，所以：

p(ε(i))=12π−−√σexp⟮−(ε(i))22σ2⟯ $p (ε^{(i)}) = \frac{1}{\sqrt{2 π} σ} e x p ⟮ - \frac{(ε^{(i)})^{2}}{2 σ^{2}} ⟯$

带入得：

p(y(i)x(i);θ)=12π−−√σexp⟮−(y(i)−θTx(i))22σ2⟯ $p (y^{(i)} x^{(i)}; θ) = \frac{1}{\sqrt{2 π} σ} e x p ⟮ - \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}} ⟯$

我们希望误差越接近0越好，由于误差服从均值为0的正态分布，所以对应误差越接近分布的中心处越好。我们可以近似的用对应概率p $p$ 来表示当前正态分布的纵坐标值，则由于各个样本的误差互相独立，所以，将每个样本误差概率相乘，得总似然函数为：

L(θ)=∏i=1mp(y(i)x(i);θ)=∏i=1m12π−−√σexp⟮−(y(i)−θTx(i))22σ2⟯ $L (θ) = \prod_{i = 1}^{m} p (y^{(i)} x^{(i)}; θ) = \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} σ} e x p ⟮ - \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}} ⟯$

我们的问题是希望找到合适的θ $θ$ ,与我们的数据组合后尽可能的接近真实值
所以我们需要求解上述似然函数的针对于θ $θ$ 最大值，即求解最大似然函数

由于上述似然函数中的累乘运算过于复杂，我们可以将其进行转换，变成对数似然，求加和，即：

logL(θ)=log∏i=1m12π−−√σexp⟮−(y(i)−θTx(i))22σ2⟯=∑i=1mlog(12π−−√σexp⟮−(y(i)−θTx(i))22σ2⟯)=∑i=1m[log(12π−−√σ)+log(exp⟮−(y(i)−θTx(i))22σ2⟯)]=mlog(12π−−√σ)−∑i=1m((y(i)−θTx(i))22σ2)=mlog(12π−−√σ)−12σ2∑i=1m(y(i)−θTx(i))2 $\begin{matrix} l o g L (θ) & = l o g \prod_{i = 1}^{m} \frac{1}{\sqrt{2 π} σ} e x p ⟮ - \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}} ⟯ \\ = \sum_{i = 1}^{m} l o g (\frac{1}{\sqrt{2 π} σ} e x p ⟮ - \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}} ⟯) \\ = \sum_{i = 1}^{m} [l o g (\frac{1}{\sqrt{2 π} σ}) + l o g (e x p ⟮ - \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}} ⟯)] \\ = m l o g (\frac{1}{\sqrt{2 π} σ}) - \sum_{i = 1}^{m} (\frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}}) \\ = m l o g (\frac{1}{\sqrt{2 π} σ}) - \frac{1}{2 σ^{2}} \sum_{i = 1}^{m} (y^{(i)} - θ^{T} x^{(i)})^{2} \end{matrix}$

上述公式中，m,σ,y(i),x(i) $m, σ, y^{(i)}, x^{(i)}$ 都是已知的，只有θ $θ$ 是未知的。
所以我们的目标是找出一组θ $θ$ ,使上述似然函数最大，即求最大似然函数。
由于只有θ $θ$ 是未知的。上述问题可以转换为，求∑mi=1(y(i)−θTx(i))2 $\sum_{i = 1}^{m} (y^{(i)} - θ^{T} x^{(i)})^{2}$ 的最小值

最终，得出我们的目标函数（也称为代价函数）为：

J(θ)=12∑i=1m(y(i)−θTx(i))2(此处加上1/2是为了求偏导时计算方便) $J (θ) = \frac{1}{2} \sum_{i = 1}^{m} (y^{(i)} - θ^{T} x^{(i)})^{2} (此处加上 1 / 2 是为了求偏导时计算方便)$

进行向量化:

J(θ)=12(Xθ−y)T(Xθ−y) $J (θ) = \frac{1}{2} (X θ - y)^{T} (X θ - y)$

正规方程

要求J(θ) $J (θ)$ 取得最小值时对应的θ $θ$ 值，一个办法就是求偏导。由于J(θ) $J (θ)$ 为凸函数，所以在偏导等于0处取得最小值，此时的θ $θ$ 即为我们所需要的，并且也是最优解
这种直接令偏导等于0，解方程得出θ $θ$ 的方法称为正规方程

∇θJ(θ)=∇θ(12(Xθ−y)T(Xθ−y))=∇θ(12(θTXT−yT)(Xθ−y))=∇θ(12(θTXTXθ−θTXTy−yTXθ+yTy))=12(2XTXθ−XTy−(yTX)T)=XTXθ−XTy $\begin{matrix} \nabla_{θ} J (θ) & = \nabla_{θ} (\frac{1}{2} (X θ - y)^{T} (X θ - y)) \\ = \nabla_{θ} (\frac{1}{2} (θ^{T} X^{T} - y^{T}) (X θ - y)) \\ = \nabla_{θ} (\frac{1}{2} (θ^{T} X^{T} X θ - θ^{T} X^{T} y - y^{T} X θ + y^{T} y)) \\ = \frac{1}{2} (2 X^{T} X θ - X^{T} y - (y^{T} X)^{T}) \\ = X^{T} X θ - X^{T} y \end{matrix}$

令∇θJ(θ)=0 $\nabla_{θ} J (θ) = 0$ ,得：

θ=(XTX)−1XTy $θ = (X^{T} X)^{- 1} X^{T} y$

虽然，通过正规方程，可以求得最优解，但是，在实际项目中，我们的样本数量以及每个样本的特征
数量非常大，这个时候，采用正规方程，算法的时间复杂度太高，耗时太高，甚至由于样本呢和特征过大，或者矩阵不可逆，导致无法计算。
尤其对于矩阵求逆来说更是如此。所以，一般对于样本数量和特征数量较少时可以采用此种求解方式。

对于一般情况，我们需要采用另外一种非常经典的优化算法，即
梯度下降法

梯度下降法

对于直接求解正规方程的方式，首先，并不一定可解，另外，时间复杂度过高。
而机器学习的常规套路，都是使用梯度下降法，去求解最小值问题。

梯度下降背后的思想是：

开始时我们随机选择一组参数（θ1,θ2,θ3,......θn） $（ θ_{1}, θ_{2}, θ_{3}, . . . . . . θ_{n} ）$ .计算对应代价函数，然后我们需要寻找下一组能让代价函数值下降最多的参数组合，一直迭代这个过程，直到最后代价函数值收敛，即找到一个局部最小值. 此时对应的（θ1,θ2,θ3,......θn） $（ θ_{1}, θ_{2}, θ_{3}, . . . . . . θ_{n} ）$ 即为我们需要求的结果.

我们并没有尝试找出所有的θ $θ$ 参数组合，所以，不能确定我们得到的局部最小值是否是全局最小值。但是，对于线性回归的代价函数来说，其实本身是个凸优化问题，所以局部最小值即为全局最小值！

换个思路来理解，比如，你现在站在山上某一点，你需要下山，到达山底（即需要找到最小值点）

批量梯度下降

批量梯度下降，其实就是在每次迭代中，在更新一组参数θ（θ1,θ2,θ3,......θn） $θ （ θ_{1}, θ_{2}, θ_{3}, . . . . . . θ_{n} ）$ 中的任意一个时，都需要对整个样本的代价函数J(θ) $J (θ)$ 求对应梯度
他的优点是容易得到最优解，但是由于每次都需要考虑所有样本，所以速度很慢
下面看下具体数学表示

对于某次迭代

θj:=θj−α∂∂θjJ(θ):=θj−α∂∂θj12m∑i=1m(hθ(x(i))−y(i))2:=θj−α1m∑i=1m(hθ(x(i))−y(i))x(i)j $\begin{matrix} θ_{j} & := θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ) \\ := θ_{j} - α \frac{\partial}{\partial θ_{j}} \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} \\ := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} \end{matrix}$

其中，j=0,1,2,3,...n $j = 0, 1, 2, 3, . . . n$ ,即特征个数

进行向量化后，对于每次迭代

θ:=θ−α1mXT(Xθ−y) $θ := θ - α \frac{1}{m} X^{T} (X θ - y)$

随机梯度下降

随机梯度下降，其实就是在每次迭代中，在更新一组参数θ（θ1,θ2,θ3,......θn） $θ （ θ_{1}, θ_{2}, θ_{3}, . . . . . . θ_{n} ）$ 中的任意一个时，只需要找一个样本求对应梯度，进行更新。
他的优点是迭代速度快，但是不一定每次都朝着收敛的方向
具体数学表示为：

θj:=θj−α(hθ(x(i))−y(i))x(i)j $θ_{j} := θ_{j} - α (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}$

小批量梯度下降

批量梯度下降，其实就是在每次迭代中，在更新一组参数θ（θ1,θ2,θ3,......θn） $θ （ θ_{1}, θ_{2}, θ_{3}, . . . . . . θ_{n} ）$ 中的任意一个时，找一部分样本求对应梯度，进行更新。

θj:=θj−α164∑k=ii+63(hθ(x(k))−y(k))x(k)j $θ_{j} := θ_{j} - α \frac{1}{64} \sum_{k = i}^{i + 63} (h_{θ} (x^{(k)}) - y^{(k)}) x_{j}^{(k)}$

小批量梯度下降其实就是上述两种方法的权衡，实际应用中，大部分也都用此算法

学习率（步长）

梯度下降法中有两个因素，一个是方向，即梯度，另外一个就是学习率α $α$ ,也就是步长。

如果学习率过小，则达到收敛（也就是近似接近于最小值）所需要的迭代次数会非常高。
学习率过大，则可能会越过局部最小值点，导致无法收敛

linear regreesion（线性回归）

我们将用来描述回归问题的标记如下:

m $m$ 代表训练集中实例的数量

n $n$ 代表特征的数量

x(i) $x^{(i)}$ 表示第i $i$ 个训练实例，是特征矩阵的第i行，是一个向量

x(i)j $x_{j}^{(i)}$ 表示特征矩阵中第i $i$ 行的第j $j$ 个特征，也就是第i $i$ 个训练实例的第j $j$ 个特征

y $y$ 代表目标变量，也就是输出变量

(x,y) $(x, y)$ 代表训练集中的一个实例

(x(i),y(i)) $(x^{(i)}, y^{(i)})$ 代表第i $i$ 个观察实例

h $h$ 代表学习算法的函数，或者加假设（hypothesis）

对于多变量线性回归，假设函数可以设为

hθ(x)=θ0+θ1x1+θ2x2+...+θnxn $h_{θ} (x) = θ_{0} + θ_{1} x_{1} + θ_{2} x_{2} + . . . + θ_{n} x_{n}$

为了使公式能够简化，引入x0=1 $x_{0} = 1$ ,则假设函数变为

hθ(x)=θ0x0+θ1x1+θ2x2+...+θnxn $h_{θ} (x) = θ_{0} x_{0} + θ_{1} x_{1} + θ_{2} x_{2} + . . . + θ_{n} x_{n}$

,进行向量化后，最终结果为

hθ(x)=θTX $h_{θ} (x) = θ^{T} X$

我们需要求出θ $θ$ ,使得对于每一个样本，带入到假设函数中，能得到对应的一个预测值，而我们的目标，是使求出的预测值尽可能的接近真实值

通过最大似然估计来推导目标函数

由于我们实际预测的值和真实值之间肯定会有误差，对于每个样本:

y(i)=θTx(i)+ε(i) $y^{(i)} = θ^{T} x^{(i)} + ε^{(i)}$

其中，y(i) $y^{(i)}$ 为当前样本实际真实值，θTx(i) $θ^{T} x^{(i)}$ 为预测结果，ε(i) $ε^{(i)}$ 即为预测误差

对于整个数据集来说，则：

Y=θTX+ε $Y = θ^{T} X + ε$

误差ε(i) $ε^{(i)}$ 是独立的并且具有相同的分布，并且服从均值为0，方差为θ2 $θ^{2}$ 的正态分布

由于误差服从正态分布，所以：

p(ε(i))=12π−−√σexp⟮−(ε(i))22σ2⟯ $p (ε^{(i)}) = \frac{1}{\sqrt{2 π} σ} e x p ⟮ - \frac{(ε^{(i)})^{2}}{2 σ^{2}} ⟯$

带入得：

p(y(i)x(i);θ)=12π−−√σexp⟮−(y(i)−θTx(i))22σ2⟯ $p (y^{(i)} x^{(i)}; θ) = \frac{1}{\sqrt{2 π} σ} e x p ⟮ - \frac{(y^{(i)} - θ^{T} x^{(i)})^{2}}{2 σ^{2}} ⟯$

由于上述似然函数中的累乘运算过于复杂，我们可以将其进行转换，变成对数似然，求加和，即：

最终，得出我们的目标函数（也称为代价函数）为：

进行向量化:

J(θ)=12(Xθ−y)T(Xθ−y) $J (θ) = \frac{1}{2} (X θ - y)^{T} (X θ - y)$

正规方程

令∇θJ(θ)=0 $\nabla_{θ} J (θ) = 0$ ,得：

θ=(XTX)−1XTy $θ = (X^{T} X)^{- 1} X^{T} y$

对于一般情况，我们需要采用另外一种非常经典的优化算法，即
梯度下降法

梯度下降法

对于直接求解正规方程的方式，首先，并不一定可解，另外，时间复杂度过高。
而机器学习的常规套路，都是使用梯度下降法，去求解最小值问题。

换个思路来理解，比如，你现在站在山上某一点，你需要下山，到达山底（即需要找到最小值点）

批量梯度下降

对于某次迭代

其中，j=0,1,2,3,...n $j = 0, 1, 2, 3, . . . n$ ,即特征个数

进行向量化后，对于每次迭代

θ:=θ−α1mXT(Xθ−y) $θ := θ - α \frac{1}{m} X^{T} (X θ - y)$

随机梯度下降

θj:=θj−α(hθ(x(i))−y(i))x(i)j $θ_{j} := θ_{j} - α (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}$

小批量梯度下降

θj:=θj−α164∑k=ii+63(hθ(x(k))−y(k))x(k)j $θ_{j} := θ_{j} - α \frac{1}{64} \sum_{k = i}^{i + 63} (h_{θ} (x^{(k)}) - y^{(k)}) x_{j}^{(k)}$

小批量梯度下降其实就是上述两种方法的权衡，实际应用中，大部分也都用此算法

学习率（步长）

梯度下降法中有两个因素，一个是方向，即梯度，另外一个就是学习率α $α$ ,也就是步长。

如果学习率过小，则达到收敛（也就是近似接近于最小值）所需要的迭代次数会非常高。
学习率过大，则可能会越过局部最小值点，导致无法收敛

原文出处

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

呼唤远方

手记
篇

粉丝

81

获赞与收藏

367

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 28721 323

网络编程入门教程

20个小节 11936 226

Pandas 入门教程

25个小节 17384 314

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

机器学习算法 之 线性回归（linear regreesion）

linear regreesion（线性回归）

通过最大似然估计来推导目标函数

正规方程

梯度下降法

批量梯度下降

随机梯度下降

小批量梯度下降

学习率（步长）

linear regreesion（线性回归）

通过最大似然估计来推导目标函数

正规方程

梯度下降法

批量梯度下降

随机梯度下降

小批量梯度下降

学习率（步长）

阅读免费教程

机器学习算法之线性回归（linear regreesion）