当前位置：首页 > news >正文

动手学深度学习-3.2 线性回归的从0开始

news 2026/2/8 13:31:35

以下是代码的逐段解析及其实际作用：

1. 环境设置与库导入

%matplotlib inline
import random
import torch
from d2l import torch as d2l

作用：
- %matplotlib inline：在 Jupyter Notebook 中内嵌显示 matplotlib 图形。
- random：生成随机索引用于数据打乱。
- torch：PyTorch 深度学习框架。
- d2l：《动手学深度学习》提供的工具函数库（如绘图工具）。

2. 生成合成数据

假设真实权重向量为 $\mathbf{w}_{\text{true}} \in \mathbb{R}^n$ ，偏置为 $b_{\text{true}}$ ，噪声为高斯分布 $\epsilon \sim \mathcal{N}(0, \sigma^2)$ ，则合成数据生成公式为：
$\mathbf{y} = \mathbf{X} \mathbf{w}_{\text{true}} + b_{\text{true}} + \epsilon$
其中：

$\mathbf{X} \in \mathbb{R}^{m \times n}$ ：输入特征矩阵（ $m$ 个样本， $n$ 个特征）。
$\mathbf{w}_{\text{true}} \in \mathbb{R}^n$ ：真实权重向量。
$\epsilon \in \mathbb{R}^m$ ：噪声向量。

def synthetic_data(w, b, num_examples):  #@save"""生成y=Xw+b+噪声"""X = torch.normal(0, 1, (num_examples, len(w)))  # 生成标准正态分布的输入特征 num_examples行，len(w)列y = torch.matmul(X, w) + b                      # 计算线性输出 y = Xw + by += torch.normal(0, 0.01, y.shape)             # 添加高斯噪声return X, y.reshape((-1, 1))                    # y行数不定(值为-1，列数为1)true_w = torch.tensor([2, -3.4])
true_b = 4.2
features, labels = synthetic_data(true_w, true_b, 1000)

生成的函数是一个二维线性回归模型，其数学表达式为：

$w_1 x_1 + w_2 x_2 + b + \epsilon$

其中：

权重： $\mathbf{w} = [w_1, w_2] = [2, -3.4]$ ，由 true_w 定义。
偏置： $b = 4.2$ ，由 true_b 定义。
噪声： $\epsilon \sim \mathcal{N}(0, 0.01^2)$ ，即均值为 0、标准差为 0.01 的高斯噪声。

展开为标量形式：
$y_i = 2 \cdot x_{i1} - 3.4 \cdot x_{i2} + 4.2 + \epsilon_i \quad (i = 1, 2, \dots, 1000)$

3. 数据可视化

d2l.set_figsize()
d2l.plt.scatter(features[:, (1)].detach().numpy(), labels.detach().numpy(), 1);

绘制第二个特征（features[:,1] => n行第1列)与标签 labels 的散点图。

4. 定义数据迭代器

def data_iter(batch_size, features, labels):num_examples = len(features)indices = list(range(num_examples))random.shuffle(indices)  # 打乱索引顺序for i in range(0, num_examples, batch_size):batch_indices = torch.tensor(indices[i: min(i + batch_size, num_examples)])yield features[batch_indices], labels[batch_indices]  # 生成小批量数据

作用：
- 将数据集按 batch_size 划分为小批量，并随机打乱顺序。
- 使用生成器 (yield) 逐批返回数据，避免一次性加载全部数据到内存。

5. 初始化模型参数

w = torch.normal(0, 0.01, size=(2,1), requires_grad=True)
b = torch.zeros(1, requires_grad=True)

初始化w和b的值：
- w：从均值为 0、标准差为 0.01 的正态分布中初始化权重，启用梯度追踪。
- b：初始化为 0 的偏置，启用梯度追踪。
- 参数需梯度追踪以支持反向传播。

6. 定义模型、损失函数和优化器

def linreg(X, w, b):  #@save"""线性回归模型"""return torch.matmul(X, w) + bdef squared_loss(y_hat, y):  #@save"""均方损失"""return (y_hat - y.reshape(y_hat.shape)) ** 2 / 2  # 除以2便于梯度计算def sgd(params, lr, batch_size):  #@save"""小批量随机梯度下降"""with torch.no_grad():  # 禁用梯度计算for param in params:param -= lr * param.grad / batch_size  # 参数更新param.grad.zero_()                     # 梯度清零

linreg：模型预测值 $\hat{\mathbf{y}}$ 的矩阵形式为：
$\hat{\mathbf{y}} = \mathbf{X} \mathbf{w} + b$
其中：
- $\mathbf{w} \in \mathbb{R}^n$ ：待学习的权重向量。
- $\in \mathbb{R}$ ：待学习的偏置。
squared_loss：损失函数的矩阵形式为：
$\frac{1}{2} \| \hat{\mathbf{y}} - \mathbf{y} \|^2$
为
$L(\mathbf{w}, b) = \frac{1}{2m} \| \mathbf{X} \mathbf{w} + b - \mathbf{y} \|^2$
展开后：
$L(\mathbf{w}, b) = \frac{1}{2m} (\mathbf{X} \mathbf{w} + b \mathbf{1} - \mathbf{y})^\top (\mathbf{X} \mathbf{w} + b \mathbf{1} - \mathbf{y})$
sgd：小批量随机梯度下降优化器，
- 对权重 $\mathbf{w}$ 的梯度
  $\nabla_{\mathbf{w}} L = \frac{1}{m} \mathbf{X}^\top (\mathbf{X} \mathbf{w} + b \mathbf{1} - \mathbf{y})$
- 对偏置 $b$ 的梯度
  $\nabla_{b} L = \frac{1}{m} \mathbf{1}^\top (\mathbf{X} \mathbf{w} + b \mathbf{1} - \mathbf{y})，\mathbf{1} 为单位列向量$
- 使用学习率 $\eta$ ，参数更新公式为：
  $\mathbf{w} \leftarrow \mathbf{w} - \eta \nabla_{\mathbf{w}} L\\ b \leftarrow b - \eta \nabla_{b} L$

7. 训练循环

lr = 0.03
num_epochs = 3
batch_size = 10  # 需补充定义（原代码未显式定义）for epoch in range(num_epochs):for X, y in data_iter(batch_size, features, labels):l = loss(net(X, w, b), y)  # 计算小批量损失l.sum().backward()         # 反向传播计算梯度sgd([w, b], lr, batch_size) # 更新参数with torch.no_grad():train_l = loss(net(features, w, b), labels)print(f'epoch {epoch + 1}, loss {float(train_l.mean()):f}')

作用：
- 外层循环：遍历训练轮次 (num_epochs)。
- 内层循环：按小批量遍历数据，计算损失并反向传播。
- l.sum().backward()：将小批量损失求和后反向传播，计算梯度。
- sgd：根据梯度更新参数，梯度需除以 batch_size 以保持学习率一致性。
- 每个 epoch 结束后，计算并打印整体训练损失。
- mean()函数计算平均值
梯度下降

  l.sum().backward()  # 反向传播计算梯度sgd([w, b], lr, batch_size)  # 更新参数

小批量梯度计算公式：
$batch_size X batch ⊤ ( X batch w + b − y batch ) \nabla_{\mathbf{w}} L_{\text{batch}} = \frac{1}{\text{batch\_size}} \mathbf{X}_{\text{batch}}^\top (\mathbf{X}_{\text{batch}} \mathbf{w} + b - \mathbf{y}_{\text{batch}})$
$batch_size 1 ⊤ ( X batch w + b − y batch ) \nabla_{b} L_{\text{batch}} = \frac{1}{\text{batch\_size}} \mathbf{1}^\top (\mathbf{X}_{\text{batch}} \mathbf{w} + b - \mathbf{y}_{\text{batch}})$

动手学深度学习-3.2 线性回归的从0开始

以下是代码的逐段解析及其实际作用： 1. 环境设置与库导入 %matplotlib inline import random import torch from d2l import torch as d2l作用： %matplotlib inline：在 Jupyter Notebook 中内嵌显示 matplotlib 图形。random：生成…...

编程日记 2025/2/4 17:19:22

Spring 面试题【每日20道】【其二】

1、Spring MVC 具体的工作原理？ 中等 Spring MVC 是 Spring 框架的一部分，专门用于构建基于Java的Web应用程序。它采用模型-视图-控制器（MVC）架构模式，有助于分离应用程序的不同方面，如输入逻辑、业务逻辑…...

编程日记 2025/2/4 17:15:16

嵌入式八股文面试题（一）C语言部分

1. 变量/函数的声明和定义的区别？ （1）变量定义不仅告知编译器变量的类型和名字，还会分配内存空间。 int x 10; // 定义并初始化x int x; //同样是定义声明只是告诉编译器变量的名字和类型，但并不为它分配内存空间…...

编程日记 2025/2/4 17:12:12

Vue06

目录一、声明式导航-导航链接 1.需求 2.解决方案 3.通过router-link自带的两个样式进行高亮二、声明式导航的两个类名 1.router-link-active 2.router-link-exact-active 三、声明式导航-自定义类名（了解） 1.问题 2.解决方案 3.代码演示四…...

编程日记 2025/2/4 17:07:07

deepseek-r1模型本地win10部署

转载自大佬：高效快速教你deepseek如何进行本地部署并且可视化对话 deepseek 如果安装遇到这个问题 Error: Post “http://127.0.0.1:11434/api/show”: read tcp 127. 用管理员cmd打开接着再去切换盘符d: cd 文件夹重新下载模型：ollama run deepseek…...

编程日记 2025/2/4 17:05:05

自定义数据集使用scikit-learn中SVM的包实现SVM分类

生成自定义数据集生成一个简单的二维数据集，包含两类数据点，分别用不同的标签表示。 import numpy as np import matplotlib.pyplot as plt# 生成数据 np.random.seed(42) X np.r_[np.random.randn(100, 2) - [2, 2], np.random.randn(100, 2) [2, …...

编程日记 2025/2/4 17:04:03

pandas的melt方法使用

Pandas 的 melt 方法用于将宽格式（wide format）的 DataFrame 转换为长格式（long format）的 DataFrame。这种转换在数据处理和可视化中非常有用，尤其是在处理多列数据时。宽格式 vs 长格式宽格式（Wide F…...

编程日记 2025/2/4 16:53:51

一文讲解Spring中应用的设计模式

我们都知道Spring 框架中用了蛮多设计模式的： 工厂模式呢，就是用来创建对象的，把对象的创建和使用分开，这样代码更灵活。代理模式呢，是用一个代理对象来控制对真实对象的访问，可以在访问前后做一些处理。单…...

编程日记 2025/2/4 16:51:48

Linux的基本指令（下）

1.find指令 Linux下find命令在⽬录结构中搜索⽂件，并执⾏指定的操作。 Linux下find命令提供了相当多的查找条件，功能很强⼤。由于find具有强⼤的功能，所以它的选项也很多，其中⼤部分选项都值得我们花时间来了解⼀下。即使系统中含…...

编程日记 2025/2/4 16:48:42

HAO的Graham学习笔记

前置知识：凸包摘录oiwiki 在平面上能包含所有给定点的最小凸多边形叫做凸包。其定义为：对于给定集合 X，所有包含 X 的凸集的交集 S 被称为 X 的凸包。说人话就是用一个橡皮筋包含住所有给定点的形态如图： 正题&#xff1a…...

编程日记 2025/2/4 16:46:39

Elasticsearch Queries

Elasticsearch Compound Queries Elasticsearch 的 Compound Queries 是一种强大的工具，用于组合多个查询子句，以实现更复杂的搜索逻辑。这些查询子句可以是叶查询（Leaf Queries）或复合查询（Compound Queries&#xf…...

编程日记 2025/2/4 16:44:37

利用matlab寻找矩阵中最大值及其位置

目录一、问题描述1.1 max函数用法1.2 MATLAB中 : : :的作用1.3 ind2sub函数用法二、实现方法2.1 方法一：max和find2.2 方法二：max和ind2sub2.3 方法对比三、参考文献一、问题描述 matlab中求最大值可使用函数max，对于一维向量&#xff0…...

编程日记 2025/2/4 16:42:34

SQL入门到精通理论+实战 -- 在 MySQL 中学习SQL语言

目录一、环境准备 1、MySQL 8.0 和 Navicat 下载安装 2、准备好的表和数据文件： 二、SQL语言简述 1、数据库基础概念 2、什么是SQL 3、SQL的分类 4、SQL通用语法三、DDL（Data Definition Language）：数据定义语言 1、操…...

编程日记 2025/2/4 16:38:29

【智力测试——二分、前缀和、乘法逆元、组合计数】

题目代码 #include <bits/stdc.h> using namespace std; using ll long long; const int mod 1e9 7; const int N 1e5 10; int r[N], c[N], f[2 * N]; int nr[N], nc[N], nn, nm; int cntr[N], cntc[N]; int n, m, t;void init(int n) {f[0] f[1] 1;for (int i …...

编程日记 2025/2/4 16:36:27

Spring Security(maven项目) 3.0.2.9版本 --- 改

前言： 通过实践而发现真理，又通过实践而证实真理和发展真理。从感性认识而能动地发展到理性认识，又从理性认识而能动地指导革命实践，改造主观世界和客观世界。实践、认识、再实践、再认识，这种形式，循环往…...

编程日记 2025/2/4 16:35:24

并发编程中的常见问题

1 竞态条件 (Race Condition) 定义：竞态条件是指多个线程在访问共享资源时，由于执行顺序的不同导致结果不确定的情况。示例： public class Counter {private int count = 0;public void increment() {count++;}public int getCount() {return count;} }在多线程环境下，…...

编程日记 2025/2/4 16:30:13

二维前缀和：高效求解矩阵区域和问题

在处理二维矩阵时，频繁计算某一子矩阵的和是一个常见的操作。传统的做法是直接遍历该子矩阵，时间复杂度较高。当矩阵非常大且有大量的查询时，直接计算将变得低效。为了提高效率，我们可以通过二维前缀和技巧在常数时间内解决这个…...

编程日记 2025/2/4 16:25:07

鸢尾花书《编程不难》02---学习书本里面的三个案例

文章目录 1.引言2.第一个例子---模拟硬币的投掷结果3.第二个例子---混合两个一元高斯分布的随机数4.第三个例子---线性回归的作图5.关于书中的问题的解决方案 1.引言今天的这个文章主要是阅读学习鸢尾花书系列的第一本《编程不难》，今天主要是记录下书里面的两个例…...

编程日记 2025/2/4 16:24:06

MySQL（高级特性篇） 13 章——事务基础知识

一、数据库事务概述事务是数据库区别于文件系统的重要特性之一 （1）存储引擎支持情况 SHOW ENGINES命令来查看当前MySQL支持的存储引擎都有哪些，以及这些存储引擎是否支持事务能看出在MySQL中，只有InnoDB是支持事务的 &#x…...

编程日记 2025/2/4 16:17:00

CSS Display属性完全指南

CSS Display属性完全指南引言核心概念常用display值详解1. block（块级元素）2. inline（行内元素）3. inline-block（行内块级元素）4. flex（弹性布局）5. grid（网格布局&…...

编程日记 2025/2/4 16:00:44

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章传送阵>> 点我查看说明：假设每台服务器已…...

编程新知 2026/2/8 1:53:29

挑战杯推荐项目

“人工智能”创意赛 - 智能艺术创作助手：借助大模型技术，开发能根据用户输入的主题、风格等要求，生成绘画、音乐、文学作品等多种形式艺术创作灵感或初稿的应用，帮助艺术家和创意爱好者激发创意、提高创作效率。 - 个性化梦境…...

编程新知 2025/11/6 5:46:16

AI-调查研究-01-正念冥想有用吗？对健康的影响及科学指南

点一下关注吧！！！非常感谢！！持续更新！！！ 🚀 AI篇持续更新中！（长期更新） 目前2025年06月05日更新到： AI炼丹日志-28 - Aud…...

编程新知 2026/2/8 5:11:39

HTML 语义化

目录 HTML 语义化HTML5 新特性HTML 语义化的好处语义化标签的使用场景最佳实践 HTML 语义化 HTML5 新特性标准答案： 语义化标签： <header>：页头<nav>：导航<main>：主要内容<article>&#x…...

编程新知 2026/1/15 21:24:41

TRS收益互换：跨境资本流动的金融创新工具与系统化解决方案

一、TRS收益互换的本质与业务逻辑 （一）概念解析 TRS（Total Return Swap）收益互换是一种金融衍生工具，指交易双方约定在未来一定期限内，基于特定资产或指数的表现进行现金流交换的协议。其核心特征包括&am…...

编程新知 2025/11/2 0:31:23

C++ Visual Studio 2017厂商给的源码没有.sln文件易兆微芯片下载工具加开机动画下载。

1.先用Visual Studio 2017打开Yichip YC31xx loader.vcxproj，再用Visual Studio 2022打开。再保侟就有.sln文件了。易兆微芯片下载工具加开机动画下载 ExtraDownloadFile1Info.\logo.bin|0|0|10D2000|0 MFC应用兼容CMD 在BOOL CYichipYC31xxloaderDlg::OnIni…...

编程新知 2026/2/5 4:21:48

大数据治理的常见方式

大数据治理的常见方式大数据治理是确保数据质量、安全性和可用性的系统性方法，以下是几种常见的治理方式： 1. 数据质量管理核心方法： 数据校验：建立数据校验规则（格式、范围、一致性等）数据清洗&…...

编程新知 2025/10/6 12:34:16

向量几何的二元性：叉乘模长与内积投影的深层联系

在数学与物理的空间世界中，向量运算构成了理解几何结构的基石。叉乘（外积）与点积（内积）作为向量代数的两大支柱，表面上呈现出截然不同的几何意义与代数形式，却在深层次上揭示了向量间相互作用的…...

编程新知 2026/2/2 7:32:54

python打卡第47天

昨天代码中注意力热图的部分顺移至今天知识点回顾： 热力图作业：对比不同卷积层热图可视化的结果 def visualize_attention_map(model, test_loader, device, class_names, num_samples3):"""可视化模型的注意力热力图，展示模…...

编程新知 2025/12/11 8:10:41

起重机起升机构的安全装置有哪些？

起重机起升机构的安全装置是保障吊装作业安全的关键部件，主要用于防止超载、失控、断绳等危险情况。以下是常见的安全装置及其功能和原理： 一、超载保护装置（核心安全装置） 1. 起重量限制器功能：实时监测起升载荷&a…...

编程新知 2025/11/12 16:14:48