当前位置：首页 > news >正文

最小二乘法

news 2026/2/8 12:24:29

Least Square Method

1、相关的矩阵公式
2、线性回归
3、最小二乘法
- 3.1、损失函数（Loss Function）
- 3.2、多维空间的损失函数
- 3.3、解析法求解
- 3.4、梯度下降法求解

1、相关的矩阵公式

$\begin{array}{l} Precondit{\rm{i}}on:\xi \in {R^n},A \in {R^{n*n}}\\ \\ i:\frac{{\sigma A\xi }}{{\sigma \xi }} = {A^T}\\ \\ ii:\frac{{\sigma {\xi ^T}A\xi }}{{\sigma \xi }} = {A^T}\xi + A\xi \\ \\ iii:{\left( {AB} \right)^T} = {B^T}{A^T}\\ \\ iv:{\left( {A + B} \right)^T} = {A^T} + {B^T}\\ \\ v:\left\| \xi \right\| = {\xi ^T}\xi \end{array}$

2、线性回归

线性回归（Linear Regression）个人理解大概是说，一组数据基本上服从线性分布。举一个在二维平面中线性回归的例子，如下图所示，我们可以找到一条表达式为 $y = a x + b$ 的直线来大概的拟合这些数据。进而，我们可以用这条直线去预测新输入的点的相应的坐标。那么这种寻找线性方程去拟合数据的方式我们称之为线性回归。
在这里插入图片描述

3、最小二乘法

3.1、损失函数（Loss Function）

在二维平面中，我们可以设这条可以拟合大多数数据的直线的表达式如下:
$h\left( \theta \right) = {\theta _1}{x} + {\theta _2}$
其中 ${{\theta _1}}$ 和 ${{\theta _2}}$ 就是 $y = a x + b$ 中的 $a$ 和 $b$ ，只是换了一种表达而已。
接着，可以求得平面上每一个点在这条直线上对应的坐标（即估计值）：
$\begin{array}{l} {h_1}\left( \theta \right) = {\theta _1}{x_1} + {\theta _2}\\ {h_2}\left( \theta \right) = {\theta _1}{x_2} + {\theta _2}\\ ....\\ {h_n}\left( \theta \right) = {\theta _1}{x_n} + {\theta _2} \end{array}$

再求这些点在直线上的坐标和真实坐标的差的平方，就得到损失函数的表达式。
$L\left( \theta \right) = \sum\limits_{i = 1}^m {{{\left( {{h_i}\left( \theta \right) - f\left( {{x_i}} \right)} \right)}^2}}$
其中 ${f\left( {{x_i}} \right)}$ 则是 ${{x_i}}$ 对应的真实坐标值。
因此，可以通过损失函数 $L\left( \theta \right)$ 来找出适当的 ${{\theta _1}}$ 和 ${{\theta _2}}$ ，使其 ${f\left( {{x_i}} \right)}$ 之间的方差最小。求解方法放在后面讲。

3.2、多维空间的损失函数

在 $m$ 维线性空间中，有 $n$ 个点。其对应的预测方程应该如下：

$\begin{array}{l} {h_1}\left( \theta \right) = {\theta _1}{x_{11}} + {\theta _2}{x_{12}} + ... + {\theta _{m - 1}}{x_{1m - 1}} + {\theta _m}\\ {h_2}\left( \theta \right) = {\theta _1}{x_{21}} + {\theta _2}{x_{22}} + ... + {\theta _{m - 1}}{x_{2m - 1}} + {\theta _m}\\ ...\\ {h_n}\left( \theta \right) = {\theta _1}{x_{n1}} + {\theta _2}{x_{n2}} + ... + {\theta _{m - 1}}{x_{nm - 1}} + {\theta _m} \end{array}$
其中 $n > m$ （方程数量等比未知数多才能有解）。损失函数的表达式依旧如此：
$L\left( \theta \right) = \sum\limits_{i = 1}^m {{{\left( {{h_i}\left( \theta \right) - f\left( {{x_i}} \right)} \right)}^2}}$
那么再将以上的所有变量矩阵化：
在这里插入图片描述
可以得到损失函数的表达式为：
$L\left( \theta \right) = {\left\| {X\theta - F} \right\|^2} = {\left( {X\theta - F} \right)^T}\left( {X\theta - F} \right)$
再展开化简：
$\begin{array}{l} L\left( \theta \right) = {\left\| {X\theta - F} \right\|^2} = {\left( {X\theta - F} \right)^T}\left( {X\theta - F} \right)\\ \\ = \left( {{\theta ^T}{X^T} - {F^T}} \right)\left( {X\theta - F} \right) = {\theta ^T}{X^T}X\theta - {\theta ^T}{X^T}F - {F^T}X\theta + {F^T}F\\ \\ = {\theta ^T}{X^T}X\theta - 2{F^T}X\theta + {F^T}F \end{array}$
根据上文，我们知道化简的目的是为了找到适当的 $\theta$ 使得损失函数 $L\left( \theta \right)$ 最小，而常用的求 $\theta$ 有两种，分别是解析法求解和梯度下降法。

3.3、解析法求解

从高数可以知，当偏导等于零时，该点是极值点（说的不严谨emm）。所以我们直接求偏导，另其为零即可得 $\theta$ 。
$\begin{array}{l} \frac{{\sigma L\left( \theta \right)}}{{\sigma \theta }} = 2{X^T}X\theta - 2{X^T}F = 0\\ \\ \theta = {\left( {{X^T}X} \right)^{ - 1}}{X^T}F \end{array}$
但这种方法要求 ${{{X^T}X}}$ 是可逆的，即行列式不为零or满秩。很多时候这个条件并不成立，所以在机器学习(Machine Learning)中经常用到梯度下降法。

3.4、梯度下降法求解

梯度下降基本思想是先随便取一个 ${\theta _i}$ ，然后带入下式看看损失函数多大，然后再在 ${\theta _i}$ 基础上，取一个稍微小一点或大一点的 ${\theta _j}$ 带入下式，看看此时的损失函数多大。如此往复，找到那个最优的 $\theta$ 的取值。
$L\left( {{\theta _{\rm{i}}}} \right) = {\theta _i}^T{X^T}X{\theta _i} - 2{F^T}X{\theta _i} + {F^T}F$

最小二乘法

Least Square Method

1、相关的矩阵公式

2、线性回归

3、最小二乘法

3.1、损失函数（Loss Function）

3.2、多维空间的损失函数

3.3、解析法求解

3.4、梯度下降法求解

相关文章：

最小二乘法

使用stelnet进行安全的远程管理

python 二手车数据分析以及价格预测

JAVA医药进销存管理系统（附源码+调试）

H5 ＜blockquote＞标签

nginx配置指南

【数据结构】优先级队列(堆)

前端笔试2

LeetCode:66.加一

Redis 常用命令

Integer.valueOf()用于字符和字符串的区别

机械寿命预测（基于NASA C-MAPSS数据的剩余使用寿命RUL预测，Python代码，CNN_LSTM模型，有详细中文注释）

ConfigMaps-1

docker上安装es

#循循渐进学51单片机#c语言基础和流水灯实现#not.3

算法刷题 week3

TCP详解之流量控制

mac根目录下创建文件不能问题

stable diffusion model训练遇到的问题【No module named ‘triton‘】

线性dp，优化记录，273. 分级

浅谈 React Hooks

业务系统对接大模型的基础方案：架构设计与关键步骤

OpenLayers 可视化之热力图

TDengine 快速体验（Docker 镜像方式）

深入浅出：JavaScript 中的 `window.crypto.getRandomValues()` 方法

macOS多出来了：Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用

屋顶变身“发电站” ，中天合创屋面分布式光伏发电项目顺利并网！

零基础设计模式——行为型模式 - 责任链模式

CVE-2020-17519源码分析与漏洞复现(Flink 任意文件读取)

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战