当前位置：首页 > news >正文

线性回归矩阵求解和梯度求解

news 2026/2/8 12:07:44

正规方程求解线性回归

首先正规方程如下：
$\begin{equation} \Theta = (X^T X)^{-1} X^T y \end{equation}$
接下来通过线性代数的角度理解这个问题。

二维空间

在二维空间上，有两个向量 $a$ 和 $b$ ，若 $b$ 投影到 $a$ 要怎么做，很简单，做垂线，那么投影后的向量记为 $p$ ，那么 $b$ 和 $p$ 之间的error记为 $e = b - p$ 。同时 $p$ 在 $a$ 上，所以 $p$ 一定是 $a$ 的 $x$ （标量）倍，记为 $p = x a$ 。因为 $e$ 垂直 $a$ ，所以 $a^T(b-xa)=0$ ，即 $xa^Ta=a^Tb$ ，得到
$x=\frac{a^Tb}{a^Ta}$
那么
$p=xa=a\frac{a^Tb}{a^Ta}$
根据上面的公式，如果 $a$ 翻倍了，那么投影不变，如果 $b$ 翻倍了，投影也翻倍。投影是由一个矩阵 $P$ 完成的， $p = P b$ ，那么投影矩阵 $P$ ：
$P=\frac{aa^T}{a^Ta}$
用任何向量乘这个投影矩阵，你总会变换到它的列空间中。同时显然有： $P^T=P$ , $P^2=P$ ，即投影两次的结果还是和第一次一样。

高维空间

为什么要做投影呢？

因为， $A x = b$ 可能无解，比如一堆等式，比未知数还多，就可能造成无解。那么该怎么办，只能求解最接近的哪个可能解，哪个才是最接近的呢？问题是 $A x$ 总是在 $A$ 的列空间中，而 $b$ 不一定在。所以要怎么微调 $b$ 将它变为列空间中最接近它的那一个，那么就将问题换作求解，有解的 $A\hat{x}=p$ 。所以得找最好的那个投影 $p$ ，以最好的接近 $b$ ，这就是为什么要引入投影的原因了。

那么我们来看高维空间，这里以三维空间举例，自然可以推广到n维空间。

现在有一个不在平面上的 $b$ 向量，想要将 $b$ 投影在平面上，平面可以由两个基向量 $a_1$ 和 $a_2$ 表示。同样的 $b$ 投影到平面上的误差记为 $e = b - p$ ，这个 $e$ 是垂直平面的。 $p=\hat{x_1}a_1+\hat{x_2}a_2=A\hat{x}$ ，我们想要解出 $\hat{x}$ 。因为 $e$ 是垂直平面，所以有 $b-A\hat{x}$ 垂直平面，即有 $a_1^T(b-A\hat{x})=0$ , $a_2^T(b-A\hat{x})=0$ ，表示为矩阵乘法便有
$A^T(b-A\hat{x})=Ae=0$
这个形式与二维空间的很像吧。对于 $A e = 0$ ，可知 $e$ 位于 $A^T$ 的零空间，也就是说 $e$ 垂直于于 $A$ 的列空间。由上面式子可得
$A^TA\hat{x}=A^Tb$
继而
$\hat{x}=(A^TA)^{-1}A^Tb$
这不就是我们的正规方程吗。到这里我们的正规方程便推导出来了，但为了内容完整，我们下面收个尾。
$p=A\hat{x}=A(A^TA)^{-1}A^Tb \\ P=A(A^TA)^{-1}A^T\\ P^T=P\\ P^2=P$
这些结论还是和二维空间上的一样， $P^T=P$ , $P^2=P$ ，即投影两次的结果还是和第一次一样。

最小二乘法

正规方程的一个常见应用例子是最小二乘法。从线性代数的角度来看，正规方程是通过最小二乘法求解线性回归问题的一种方法。以下是正规方程的概述：

1. 模型表示

在线性回归中，我们假设目标变量 $y$ 与特征矩阵 $X$ 之间存在线性关系：

$\hat{y} = X \theta$

其中：

$\hat{y}$ 是预测值（一个 $m$ 维列向量）。
$X$ 是特征矩阵（ $\times n$ ），每行代表一个样本，每列代表一个特征。
$\theta$ 是模型参数（权重向量）。

2. 目标函数

我们的目标是最小化预测值与实际值之间的误差，通常使用残差平方和：

$J(\theta) = \|y - X\theta\|^2$

3. 求解过程

为了找到使得 $J(\theta)$ 最小的 $\theta$ ，我们可以通过对 $J(\theta)$ 关于 $\theta$ 的导数求解，设导数为零：

$\nabla J(\theta) = -2X^T(y - X\theta) = 0$

展开后得到：

$X^T X \theta = X^T y$

4. 正规方程

这个方程称为正规方程，其形式为：

$X^T X \theta = X^T y$

5. 解的唯一性

若 $X^T X$ 是可逆的（即列向量线性无关），则可以通过求逆得到参数的解：

$\theta = (X^T X)^{-1} X^T y$

如果 $X^T X$ 不可逆（即存在多重共线性），则正规方程可能没有唯一解。

6. 几何解释

从几何的角度，正规方程可以被视为在特征空间中寻找一个超平面，使得目标变量 $y$ 的投影与预测值 $\theta$ 之间的误差最小化。

总结

正规方程通过线性代数的方法为线性回归提供了解的表达式，使得我们可以有效地计算参数。其核心思想是通过最小化残差平方和，寻找最佳拟合的线性模型。

梯度下降求解线性回归

import numpy as np
def linear_regression_gradient_descent(X: np.ndarray, y: np.ndarray, alpha: float, iterations: int) -> np.ndarray:m, n = X.shapetheta = np.zeros((n, 1))for _ in range(iterations):predictions = X @ thetaerrors = predictions - y.reshape(-1, 1)updates = X.T @ errors / mtheta -= alpha * updatesreturn np.round(theta.flatten(), 4)

其他都好理解，下面主要讲梯度updates的推导

1. 定义损失函数

线性回归的损失函数通常是均方误差（Mean Squared Error, MSE）：

$\text{MSE} = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2$

这里， $h_\theta(x^{(i)}) = X^{(i)} \cdot \theta$ 是模型的预测值， $y^{(i)}$ 是实际值。

2. 对损失函数求导

为了最小化损失函数，我们需要对参数 $\theta$ 求导：

$\frac{\partial \text{MSE}}{\partial \theta} = \frac{\partial}{\partial \theta} \left( \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 \right)$

应用链式法则，首先求导内部的平方项：

$\frac{\partial}{\partial \theta} (h_\theta(x^{(i)}) - y^{(i)})^2 = 2(h_\theta(x^{(i)}) - y^{(i)}) \cdot \frac{\partial h_\theta(x^{(i)})}{\partial \theta}$

而且 $h_\theta(x^{(i)}) = X^{(i)} \cdot \theta$ ，所以：

$\frac{\partial h_\theta(x^{(i)})}{\partial \theta} = X^{(i)}$

将这个结果代入：

$\frac{\partial \text{MSE}}{\partial \theta} = \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) X^{(i)}$

3. 用向量表示

将上述和式转换为向量形式。定义误差向量：

$\text{errors} = \text{predictions} - y$

其中 $\text{predictions} = X \cdot \theta$ 。这样，梯度可以表示为：

$\text{gradient} = \frac{1}{m} (X^T \cdot \text{errors})$

4. 结论

因此，梯度的计算公式来源于损失函数的求导过程，通过向量化的方式将每个样本的误差与特征相乘，得出对每个参数的影响。这是梯度下降法中更新参数的基础。