当前位置：首页 > news >正文

最小二乘法简介

news 2026/2/9 3:39:01

最小二乘法简介

- 1、背景描述
- 2、最小二乘法
- - 2.1、最小二乘准则
  - 2.2、最小二乘法
- 3、最小二乘法与线性回归
- - 3.1、最小二乘法与线性回归
  - 3.2、最小二乘法与最大似然估计
- 4、正态分布（高斯分布）

1、背景描述

在工程应用中，我们通常会用一组观测数据去估计模型的参数，模型是我们根据经验知识预先给定的。例如，我们有一组观测数据 $x_i,y_i)$ ，通过简单分析，我们猜测y与x之间存在线性关系，那么我们的模型可以给定为：
$y = k x + b$

该模型只有两个参数，理论上，我们只需要通过两组观测值建立二元一次方程组即可求解。类似的，如果模型有n个参数，我们只需要n组观测值即可求解。换句话说，这种情况下，模型的参数是唯一确定解

但是，在实际应用中，由于我们的观测会存在误差（偶然误差、系统误差等），所以我们总会做更多观测。例如，在上述例子中，尽管只有两个参数，但是我们可能会观测n组数据： $x_0,y_0)、(x_1,y_1)、...、(x_{n-1},y_{n-1})$ ，这会导致我们无法找到一条直线经过所有的点，也就是说，方程无确定解
在这里插入图片描述

于是，这就是我们要解决的问题：虽然没有确定解，但是我们能不能求出近似解，使得模型能在各个观测点上达到“最佳“拟合

那么“最佳”的准则是什么？可以是所有观测点到直线的距离和最小，也可以是所有观测点到直线预测点（真实值-理论值）的绝对值和最小，还可以是所有观测点到直线预测点（真实值-理论值）的平方和最小

在这里插入图片描述

2、最小二乘法

2.1、最小二乘准则

19世纪初（1806年），法国科学家勒让德发明了“最小二乘法”。勒让德认为，让误差（真实值-理论值）的平方和最小估计出来的模型是最接近真实情形的。换句话说，勒让德认为最佳的拟合准则是使 $y_i$ 与 $y=f(x_i)$ 的距离的平方和最小：
$L=\sum_{i=1}^m(y_i-f(x_i))^2$

这个准则也被称为最小二乘准则。这个目标函数取得最小值时的函数参数，就是最小二乘法的思想，所谓“二乘”就是平方的意思

勒让德在原文中提到：使误差平方和达到最小，在各方程的误差之间建立了一种平衡，从而防止了某一极端误差取得支配地位，而这有助于揭示系统的更接近真实的状态

至于为什么最佳准则就是误差平方而不是其它的，勒让德当时并没有给出解释，直到后来高斯建立了正态误差分析理论才成功回答了该问题

在这里插入图片描述

1829年，高斯建立了一套误差分析理论，从而证明了确实是使误差（真实值-理论值）平方和最小的情况下系统是最优的

误差分析理论其实说到底就一个结论：观察值的误差服从标准正态分布，即 $ϵ \in N (0, 1)$

关于正态分布的介绍见本文第4节

2.2、最小二乘法

最小二乘法就是一个数学公式，在数学上称为曲线拟合，不仅包括线性回归方程，还包括矩阵的最小二乘法

最小二乘法是解决曲线拟合问题最常用的方法。令

在这里插入图片描述

其中， $\varphi_k(x)$ 是事先选定的一组线性无关的函数， $a_k$ 是待定系数 $(k = 1, 2, ..., m, m < n)$ ，拟合准则是使 $y_i(i=1,2,...,n)$ 与 $f(x_i)$ 的距离 $\delta_i$ 的平方和最小，称为最小二乘准则

百度百科词条给出的基本原理如下：

在这里插入图片描述

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和最小

最小二乘法是一种在误差估计、不确定度、系统辨识及预测、预报等数据处理诸多学科领域得到广泛应用的数学工具

3、最小二乘法与线性回归

3.1、最小二乘法与线性回归

对于勒让德给定的最佳拟合准则，我们可以看到，最小二乘法其实就是用来做函数拟合的一种思想。至于如何求解具体的参数那就是另外一个问题了

最小二乘法的本质是一种数学思想，它可以拟合任意函数。而线性回归只是其中一个比较简单且常用的函数，所以讲最小二乘法基本都会以线性回归为例

线性回归因为比较简单，可以直接推导出解析解，而且许多非线性的问题也可以转化为线性问题来解决，所以得到了广泛的应用

线性回归简介见文章：传送门

3.2、最小二乘法与最大似然估计

最大似然估计：最大化给定样本集发生的概率，即就是极大化似然函数(Likelihood Function)，而似然函数就是样本的联合概率。由于我们通常都会假设样本是相互独立的，因此联合概率就等于每个样本发生的概率乘积

假设我们有m组观测数据 $x_1,y_1),...,(x_m,y_m)$ ，我们猜测其关系符合：
$y = k x + b$
假设真实值与预测值之间的误差为：
$\varepsilon_i=y_i-y=y_i-f(x_i)$
根据高斯的误差分析理论，观测值的误差服从标准正态分布（见文末），即给定一个 $x_i$ ，模型输出真实值 $y_i$ 的概率为：
$p(y_i|x_i)=\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}}$

则根据最大似然估计（似然函数）有：
$L(\omega)=\prod_{i=1}^mp(y_i|x_i)=\prod_{i=1}^m\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}}$

两边取对数得：
$J(\omega)=ln(L(\omega)) = \sum_{i=1}^mln(\frac{1}{\sqrt{2\pi}}e^{-\frac{\varepsilon_i^2}{2}}) = \sum_{i=1}^mln\frac{1}{\sqrt{2\pi}}-\frac{1}{2}\sum_{i=1}^m\varepsilon_i^2$

去掉无关常数项得：
$J(\omega)=ln(L(\omega))=-\frac{1}{2}\sum_{i=1}^m\varepsilon_i^2=-\frac{1}{2}\sum_{i=1}^m(y_i-f(x_i))^2$

要使 $L(\omega)$ （概率）最大，即 $J(\omega)$ 最大，则使下面多项式结果最小即可：
$\sum_{i=1}^m(y_i-f(x_i))^2$

上述结果表明：最大似然估计（似然函数）等价于最小二乘法，这也表明了以误差平方和作为最佳拟合准则的合理性

因此我们可以说，最小二乘法其实就是误差满足正态（高斯）分布的极大似然估计，最小化误差平方本质上等同于在误差服从正态（高斯）分布的假设下的最大似然估计

4、正态分布（高斯分布）

正态分布（Normal Distribution），也称高斯分布（Gaussian Distribution），其曲线呈钟型，两头低，中间高，左右对称，因此也被称为钟形曲线

定义：若连续型随机变量x有如下形式的密度函数：

在这里插入图片描述
则称x服从参数为 $(\mu,\sigma^2)$ 的正态分布(Normal Distribution)，记为 $X-N(\mu,\sigma^2)$

在这里插入图片描述

性质：

关于 $x = μ$ 对称，在 $x = μ$ 处达到最大值 $\frac{1}{\sqrt{2\pi}\sigma}$ ，越远离 $μ$ ，密度函数值越小
数学期望（均值）为 $μ$ ，标准差为 $\sigma$ ，方差为 $\sigma^2$

标准正态分布：又称 $μ$ 分布，是以0为均值（数学期望）、以1为标准差的正态分布，记为 $X - N (0, 1)$ ，密度函数：

在这里插入图片描述

参考文章：
https://blog.csdn.net/MoreAction_/article/details/106443383
https://blog.csdn.net/MoreAction_/article/details/121591653
https://blog.csdn.net/qq_46092061/article/details/119136137

最小二乘法简介

1、背景描述

2、最小二乘法

2.1、最小二乘准则

2.2、最小二乘法

3、最小二乘法与线性回归

3.1、最小二乘法与线性回归

3.2、最小二乘法与最大似然估计

4、正态分布（高斯分布）

相关文章：