机器学习算法——线性回归与非线性回归

例如两个变量之间成正比（例如：x1 为房子的面积，单位是平方英尺；x2为房子的面积，单位是平方米；不可逆的情况很少发生，如果有这种情况，其解决问题的方法之一便是使用正则化以及岭回归等来求最小二乘法。的适用范围更广，可以用于描述非线性或者有两个及两个以上自变量的相关关系，它可以用来评价模型的效果。常用相关系数来衡量两个变量间的相关性，相关系数越大，相关性越高，使用直线拟合样本点时效果就越好。下图的样

哈密瓜Q

1586人浏览 · 2023-11-11 11:16:29

哈密瓜Q · 2023-11-11 11:16:29 发布

1. 梯度下降法

1.1 一元线性回归

定义一元线性方程
$y=\omega x+b$
则误差（残差）平方和
$C(\omega,b)=\sum_{i=1}^n(\hat{y_i}-y_i)^2$
即
$C(\omega,b)=\sum_{i=1}^n(\omega x_i+b-y_i)^2$
为方便计算，常写为如下形式
$C(\omega,b)=\frac{1}{2n}\sum_{i=1}^n(\omega x_i+b-y_i)^2$
其中， $y_i$ 为真实值， $\hat{y_i}$ 为预测值。
若用一元线性方程拟合上面的数据集，那么最佳的拟合直线方程需满足 $C(\omega,b)$ 最小，即使得真实值到直线竖直距离的平方和最小。因此需要求解使得 $C(\omega,b)$ 最小的参数 $\omega$ 和 $b$ ，即 $\min_{\omega,b}C(\omega,b)$
梯度下降公式
$\omega:=\omega-\alpha \frac{\partial C(\omega,b)}{\partial \omega}=\omega-\alpha \frac{1}{n}\sum_{i=1}^n(\omega x_i+b-y_i)^2x_i$
$b:=b-\alpha \frac{\partial C(\omega,b)}{\partial b}=b-\alpha \frac{1}{n}\sum_{i=1}^n(\omega x_i+b-y_i)^2$
其中 $\alpha$ 为步长（学习率）， $:=$ 表示赋值操作。
梯度下降基本步骤

初始化 $\omega$ 和 $b$ （常取0）
不断改变 $\omega$ 和 $b$ ，直到 $C(\omega,b)$ 到达一个全局最小值，或局部极小值。

下图使用梯度下降能到达局部最小值
在这里插入图片描述
下图使用梯度下降能到达全局最小值

下图中，将 $\theta1$ 看成 $\omega$ ， $J(\theta 1)$ 看成 $C(\omega,b)$ 。则

在第一个点处， $\frac{\partial C(\omega,b)}{\partial \omega}$ 小于0，根据梯度下降公式，此时 $\omega$ 的值会增大，即往代价函数最小值的方向靠近。
在第三个点处， $\frac{\partial C(\omega,b)}{\partial \omega}$ 大于0，根据梯度下降公式，此时 $\omega$ 的值会减小，即往代价函数最小值的方向靠近。

1.2 多元线性回归

定义多元线性方程
$y=\omega_1 x_1+\omega_2 x_2+...+\omega_n x_n+b$
误差平方和
$C(\omega_1,...,\omega_n,b)=\frac{1}{2n}\sum_{i=1}^n(\hat{y}(x^i)-y^i)^2$
注： $\hat{y}(x^i)$ 为预测值， $y^i$ 为真实值，这里的 $x^i$ 表示的是第 $i$ 个数据（包含多列属性）。

由1.1可得
$b:=b-\alpha \frac{1}{n}\sum_{i=1}^n(\hat{y}(x^i)-y^i)^2x_0^i$
这里 $x^i_0=1$ ，以实现格式统一。
$\omega_1:=\omega_1-\alpha \frac{1}{n}\sum_{i=1}^n(\hat{y}(x^i)-y^i)^2x^i_1$
$\omega_2:=\omega_2-\alpha \frac{1}{n}\sum_{i=1}^n(\hat{y}(x^i)-y^i)^2x^i_2$
$...$
$\omega_n:=\omega_n-\alpha \frac{1}{n}\sum_{i=1}^n(\hat{y}(x^i)-y^i)^2x^i_n$
改写为向量版本
$y=\omega ^Tx$
$\omega:=\omega-\alpha \frac{1}{n} X^T(\hat{y}(x)-y)$
其中， $\omega$ 和 $x$ （某行数据）均为列向量，实际应用。

1.3 标准方程法

调用sklearn实现一元线性回归与多元线性回归的梯度下降时，sklearn内部的实现并没有使用梯度下降法，而是使用标准方程法。
公式推导（利用最小二乘法）¹²
在这里插入图片描述
上述公式推导使用到的矩阵求导公式

在这里插入图片描述

由推导的公式可知，需要满足的条件是 $X^TX)^{-1}$ 存在。在机器学习中， $X^TX)^{-1}$ 不可逆的原因通常有两种，一种是自变量间存在高度多重共线性（可以近似理解为自变量矩阵中包含线性相关的行或列），例如两个变量之间成正比（例如：x1 为房子的面积，单位是平方英尺；x2为房子的面积，单位是平方米；而1
平方英尺=0.0929 平方米），那么在计算 $X^TX)^{-1}$ 时，可能得不到结果或者结果无效；另一种则是当特征变量过多（样本数 m $\le$ 特征数量 n）的时候也会导致 $X^TX)^{-1}$ 不可逆。 $X^TX)^{-1}$ 不可逆的情况很少发生，如果有这种情况，其解决问题的方法之一便是使用正则化以及岭回归等来求最小二乘法。

单变量情况下利用最小二乘法求解最佳参数
在这里插入图片描述

1.4 梯度下降法与标准方程法的优缺点

算法	优点	缺点
梯度下降法	当特征值非常多的时候也可以很好的工作	需要选择合适的学习率；需要迭代多个周期；只能得到最优解的近似值
标准方程法	不需要学习率；不需要迭代；可以得到全局最优解	需要计算 $X^TX)^{-1}$ ，时间复杂度大约是 $O(n^3)$ ，n是特征数量

2. 相关系数与决定系数

常用相关系数来衡量两个变量间的相关性，相关系数越大，相关性越高，使用直线拟合样本点时效果就越好。

公式如下（两个变量的协方差除以标准差的乘积）
$r(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var[X]Var[Y]}}$
$=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum_{i=1}^n(X_i-\bar{X})^2}\sqrt{\sum_{i=1}^n(Y_i-\bar{Y})^2}}$
其中
$Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})$
下图的样本点中，左图的相关系数为0.993，右图的相关系数为0.957，即左图的样本点变量间的相关性更高。
在这里插入图片描述
相关系数用于描述两个变量之间的线性关系，但决定系数 $R^2$ 的适用范围更广，可以用于描述非线性或者有两个及两个以上自变量的相关关系，它可以用来评价模型的效果。
总平方和（SST）
$\sum_{i=1}^{n}(y_i-\bar{y})^2$
回归平方和（SSR）
$\sum_{i=1}^{n}(\hat{y}-\bar{y})^2$
残差平方和（SSE）
$\sum_{i=1}^{n}(y_i-\hat{y})^2$
三者的关系
$SST = SSR + SSE$
决定系数
$R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}=\frac{\sum_{i=1}^{n}(y_i-\hat{y})^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}$

$R^2$ 的取值范围在负无穷到1之间，值为1表示模型完全解释了因变量的变化，值为负数表示该模型的表现比简单地使用均值来预测（此时值为0）还要差。

3. 数值归一化

将取值范围处理为0-1之间
$newValue=\frac{oldValue-min}{max-min}$
将取值范围处理为-1-1之间
$newValue=2(\frac{oldValue-min}{max-min}-0.5)$
均值标准化，u为数据平均值，s为数据方差
$newValue=\frac{oldValue-u}{s}$

4. 预防过拟合的方法

减少特征
增加数据量
正则化（Regularized）

正则化代价函数
L1正则化（LASSO代价函数）
$C(\omega)=\frac{1}{2m} \left [ \sum_{i=1}^{m}(\hat{y}(x^i)-y^i)^2+\lambda \sum_{j=1}^{n}|\omega _j| \right ]$
L2正则化（岭回归代价函数）
$C(\omega)=\frac{1}{2m} \left [ \sum_{i=1}^{m}(\hat{y}(x^i)-y^i)^2+\lambda \sum_{j=1}^{n}\omega ^2_j \right ]$
其中， $\lambda \sum_{j=1}^{n}\omega ^2_j$ 称为L2正则项（也叫惩罚项）。

5. 岭回归

对上述代价函数的L2正则化（也叫岭回归代价函数）进行求导（系数m可以不用写，因为有未知参数 $\lambda$ 存在，因此惩罚项的系数 $\frac{1}{2}$ 可以不写），详细推导流程可参考[1.3 标准方程法]）在这里插入图片描述
使用到的矩阵求导公式

公式
$\omega = (X^TX+\lambda I)^{-1}X^Ty$
称为参数 $\omega$ 的岭回归估计， $\lambda$ 为岭系数， $I$ 为单位矩阵。

岭回归公式的理解：

由 $\omega=(X^TX)^{-1}X^Ty$ 可知，如果数据的特征比样本点还多，数据特征n ，样本个数 m，如果n>m ，则计算 $X^TX)^{-1}$ 时会出错，因为 $X^TX)$ 不是满秩矩阵，所以不可逆。加上 $\lambda I$ 后，由于单位矩阵 $I$ 是满秩矩阵，所以 $(X^TX+\lambda I)$ 也是满秩矩阵，故可逆。

岭系数 $\lambda$ 的选取³：

各回归系数的岭估计基本稳定
残差平方和增大不太多

岭回归的作用：

使得矩阵最终运算结果满秩，从而解决多重共线性问题
对所有特征列的因变量解释程度进⾏了惩罚，且λ越⼤惩罚作⽤越强。最终希望特征的权重越小越好，也即忽略一些不重要的特征⁴。

6. LASSO算法

LASSO（The Least Absolute Shrinkage and Selectionator operator[最小绝对收缩和选择算子]）算法通过构造一个一阶惩罚函数获得一个精炼的模型；并通过确定一些指标（变量）的系数为零（岭回归估计系数等于 0 的机会微乎其微，造成筛选变量困难）来筛选变量。LASSO算法擅长处理具有多重共线性的数据，与岭回归一样是有偏估计。

岭回归代价函数中 $\lambda$ 的值可以用于限制 $\sum_{j=1}^n\omega ^2_j \le t$ ，LASSO代价函数中 $\lambda$ 的值可以用于限制 $\sum_{j=1}^n|\omega _j| \le t$ 。
在这里插入图片描述
上图中，蓝色区域代表变量的取值范围，红色椭圆线代表代价函数的等高线，越靠近椭圆线中心，误差越小。可以发现，LASSO算法的变量取值可以为0，而岭回归算法的变量取值不容易为0。

7. 准确率与召回率

一般来说，正确率（Precision）就是检索出来的条目有多少是正确的，召回率（Recall）就是所有正确的条目有多少被检索出来。
$F_1=2\frac{precision*recall}{precision+recall}$
是综合反映整体的评价指标。

8. 逻辑回归

Sigmoid函数
$g(x)=\frac{1}{1+e^{-x}}$
函数图像
在这里插入图片描述

逻辑回归的预测函数
$\hat{y}(x)=g(\omega^Tx)=\frac{1}{1+e^{-\omega^TX}}$
损失函数
$C(\omega )=-\frac{1}{n} \sum_{i=1}^{n}[y^ilog\hat{y}(x^i) +(1-y^i)log(1-\hat{y}(x^i))]$
公式解释
在这里插入图片描述
逻辑回归的梯度下降公式
$\omega:=\omega-\alpha \frac{1}{n} X^T(\hat{y}(x)-y)$
其中， $X$ 为输入数据（矩阵或列向量）。