当前位置：首页 > news >正文

第1节线性回归模型

news 2026/2/8 13:08:12

1. 模型概述

对于收集到的数据 $x_i,y_i)$ ，建立线性回归模型 $yi=θTxi+εi(1)y_i=\theta^{^T} x_i +\varepsilon_i (1)$
需要估计的参数为 $θT\theta^{^T}$ ，我们的目的是让估计的参数 $θT\theta^{^T}$ 和 $x_i$ 组合后，得到的估计值 $y^i\hat{y}_i$ 与实际值 $y_i$ 越接近越好，也就是随机误差项 $εi\varepsilon_i$ 越小越好。

2. 模型求解

由于假设模型的误差项是服从独立同分布（独立：数据之间互相不影响，同分布：保证模型使用于某一类数据）的高斯分布（标准正态分布）¹，即 $ϵ∼N(0,σ2)\epsilon \sim N(0, \sigma^2)$ ，则其概率密度函数为
$p(ϵi)=12πσexp(−εi22σ2)(2)p(\epsilon_i)=\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{\varepsilon_i^2}{2\sigma^2})(2)$

对（1）式进行变形，则有 $εi=yi−θTxi\varepsilon_i=y_i-\theta^{^T} x_i$ ，将其带入（2）式，得
$p(yi∣xi,θ)=12πσexp(−(yi−θTxi)22σ2)p(y_i|x_i,\theta)=\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y_i-\theta^{^T} x_i)^2}{2\sigma^2})$

因为我们的目的是让求解得出的参数 $θ\theta$ 和和 $x_i$ 组合后，得到的估计值 $y^i=θTxi\hat{y}_i=\theta^{^T} x_i$ 是真实值 $y_i$ 的概率越大越好，也就是让这个概率越大越好。
由于以上只是单个的样本数据，假设我们有 $m$ 个样本数据，样本之间互相独立，则所有的样本的概率等于单个样本的概率的乘积，我们将所有样本的概率记为似然函数 $L(θ)L(\theta)$ ，则
$L(θ)=∏i=0m12πσexp(−(yi−θTxi)22σ2)L(\theta)=\prod \limits_{i=0}^m\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y_i-\theta^{^T} x_i)^2}{2\sigma^2})$

由于多个式子相乘难以求解，我们可利用对数将其转化为加法。两边同时取对数，得到对数似然函数 $lnL(θ)lnL(\theta)$ ,
$lnL(θ)=ln∏i=0m12πσexp(−(yi−θTxi)22σ2)lnL(\theta)=ln\prod \limits_{i=0}^m\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y_i-\theta^{^T} x_i)^2}{2\sigma^2})$
即
$lnL(θ)=mln12πσ−1σ212∑i=1m(yi−θTxi)2lnL(\theta)=mln\frac{1}{\sqrt{2\pi}\sigma }-\frac{1}{\sigma^2}\frac{1}{2}\sum_{i=1}^m(y_i-\theta^{^T} x_i)^2$

要对上述式子求最大值，则相当于对 $12∑i=1m(yi−θTxi)2\frac{1}{2}\sum_{i=1}^m(y_i-\theta^{^T} x_i)^2$ 求最小值，我们将其记为 $J(θ)J(\theta)$ ，并取名为目标函数，则目标函数为
$J(θ)=12∑i=1m(yi−θTxi)2J(\theta)=\frac{1}{2}\sum_{i=1}^m(y_i-\theta^{^T} x_i)^2$

那么，求解这个目标函数所使用的方法就是最小二乘法，最小二乘法的代数法解法就是对 $θi\theta_i$ 求偏导数，令偏导数为0，再解方程组，得到 $θi\theta_i$ 的估计值。矩阵法比代数法要简洁，下面主要讲解下矩阵法解法。
由于

$J(θ)=12∑i=1m(yi−θTxi)2=12∑i=1m(θTxi−yi)2=12（Xθ−Y)T(Xθ−Y)J(\theta)=\frac{1}{2}\sum_{i=1}^m(y_i-\theta^{^T} x_i)^2=\frac{1}{2}\sum_{i=1}^m(\theta^{^T} x_i-y_i)^2=\frac{1}{2}（X\theta-Y)^{^T}(X\theta-Y)$
我们需要对其求偏导， $∂J(θ)∂θ=12∂(θTXTXθ−θTXTY−YTXθ+YTY)∂θ=12(2XTXθ−2XTY)\frac{\partial J(\theta)}{\partial \theta}=\frac{1}{2}\frac{\partial (\theta^{^T}X^{^T}X\theta-\theta^{^T}X^{^T}Y-Y^{^T}X\theta+Y^{^T}Y)}{\partial \theta}=\frac{1}{2}(2X^{^T}X\theta-2X^{^T}Y)$ ，令其等于0，得 $θ^=(XTX)−1XTY\hat \theta=( X^{^T}X)^{-1}X^{^T}Y$

这里，需要用到矩阵求导的公式².

在了解正态分布之前，我们需要先了解一个概念——概率分布。概率分布是指：经过大量的重复试验，将随机事件的所有可能的出现结果的次数分布记录下来，并在坐标系中做出一条曲线，这条曲线就是数据的概率分布曲线，由概率分布曲线可以估算变量的概率。正态分布就是一种常见的概率分布，它的概率分布曲线是一个钟形曲线，生活中大量的变量都服从正态分布，例如：人群的身高、鞋码、学生成绩等。正态分布只依赖于数据的两个特征：均值和方差。标准正态分布的均值为0，方差为 $σ2\sigma^2$ . ↩︎
$∂XTA∂A=∂ATX∂X=A,∂XTAX∂X=AX+ATX\frac{\partial X^{^T} A }{\partial A}=\frac{\partial A^{^T} X }{\partial X}=A, \frac{\partial X^{^T} A X}{\partial X}=AX+ A^{^T} X$ ↩︎

第1节线性回归模型

1. 模型概述

2. 模型求解

相关文章：

第1节线性回归模型

CodeGeeX 130亿参数大模型的调优笔记：比FasterTransformer更快的解决方案

Linux驱动之并发与竞争

【密码学复习】第四讲分组密码（三）

JVM(内存划分，类加载，垃圾回收)

工作中遇到的问题 -- 你见过哪些写的特别好的代码

基于chatGPT设计卷积神经网络

java.sql.Date和java.util.Date的区别

动态规划---线性dp和区间dp

常见的2D与3D碰撞检测算法

STM32 10个工程篇：1.IAP远程升级（二）

Unity+ChatGpt的联动 AICommand

STM-32：按键控制LED灯程序详解

北邮22信通：（8）实验1 题目五：大整数加减法（搬运官方代码）

Fiddler抓取https史上最强教程

STM32开发基础知识入门

学习操作系统的必备教科书《操作系统：原理与实现》| 文末赠书4本

大数据的常用算法（分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘）

【数据结构】详解二叉树与堆与堆排序的关系

【Pandas】数据分析入门

使用VSCode开发Django指南

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

【算法训练营Day07】字符串part1

IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)

服务器--宝塔命令

视觉slam十四讲实践部分记录——ch2、ch3

20个超级好用的 CSS 动画库

scikit-learn机器学习

数据结构：递归的种类（Types of Recursion）

大数据治理的常见方式