当前位置：首页 > news >正文

【DL】神经网络与机器学习基础知识介绍（二）【附程序】

news 2026/2/8 18:01:44

原文：https://mengwoods.github.io/post/dl/009-dl-fundamental-2/

文章目录

- 激活函数
- 卷积神经网络
- 超参数
- 其他
- 程序

激活函数

激活函数的目的是在模型中引入非线性，使网络能够学习和表示数据中的复杂模式。列出常见的激活函数。
- 线性函数： $y = x$ ，通常只在输出层使用。
- Sigmoid函数：S形曲线， $y = 1 / (1 + e^(-x))$ 。它是非线性的，当X值在-2到2之间时，Y值变化非常陡峭。Y值范围是0到1。通常用于二分类的输出层，结果为0或1。
- Tanh函数：效果比Sigmoid函数更好，亦称双曲正切函数，是Sigmoid函数的数学变形。 $y = tanh(x) = 2/(1+e^{-2x})-1$ 或 $y = 2 * s i g m o i d (2 x) - 1$ 。值范围是-1到1。通常用于网络的隐藏层，有助于通过将均值接近0来中心化数据。
- ReLU函数：修正线性单元，最广泛使用的激活函数，主要用于隐藏层。 $y = ma x (0, x)$ 。由于涉及的数学运算更简单，ReLU比Tanh和Sigmoid的计算开销更小。ReLU学习速度比Sigmoid和Tanh快得多。
- Softmax：也是一种Sigmoid函数，但适用于多分类问题。通常用于图像分类问题的输出层。理想情况下用于输出层，以输出概率来定义每个输入的类别。

基本规则：如果不知道使用哪种激活函数，可以简单地使用ReLU。对于输出层，二分类使用Sigmoid函数，多分类使用Softmax。

卷积神经网络

CNN专为处理结构化网格数据（如图像）而设计。它学习特征的空间层次，因此在图像分类、目标检测和语义分割等任务中效果显著。

CNN中的卷积层如何工作？
- 它对输入数据应用一组滤波器（内核），每个滤波器在输入数据上滑动，计算点积。它生成一个特征图，突出显示特定特征（如边缘或纹理）的存在。卷积操作后接一个非线性激活函数。
CNN的主要组成部分是什么？
- 输入层：保存图像的原始像素值。输入维度通常对应图像的高度、宽度和颜色通道。
- 卷积层：重要参数包括滤波器数量、滤波器大小、步幅和填充。
- 池化层：在保留最重要信息的同时，减少特征图的空间维度。常见类型包括最大池化和平均池化。
- 输出层：使用如Softmax用于多分类或Sigmoid用于二分类的激活函数产生每个类别的输出概率。
介绍一些著名的CNN网络：
- AlexNet：2012年，包含5个卷积层，一些卷积层后跟随最大池化层，三个全连接层。激活函数使用ReLU。
- VGGNet：2014年。由一系列具有小感受野（3x3）的卷积层、最大池化层和三个全连接层组成。变体包括VGG16和VGG19。它显示了网络深度是高性能的关键组成部分。

超参数

简要介绍神经网络训练中的关键超参数。
- 学习率Learning rate：控制每次模型更新时调整权重的幅度。较高的学习率意味着更大的步长，可以加速训练，但可能会超过最优解。较低的学习率意味着较小的步长和更精确的收敛。
- 批大小Batch size：一次前向/后向传递中使用的训练样本数量。较大的批大小提供更准确的梯度估计，但需要更多内存。较小的批大小可能导致估计更嘈杂，但有助于泛化。
- 训练轮数（Epochs）：整个训练数据集通过神经网络的次数。更多的训练轮数可以更好地学习，但可能导致过拟合。
- 丢弃率Dropout rate：正则化技术，在训练期间随机忽略神经元。决定丢弃的神经元比例。通常丢弃20%的节点。
- 学习率衰减Learning rate decay：随着训练的进行，减少学习率，有助于在训练结束时更平滑地收敛。

其他

什么是数据归一化？
- 标准化和重构数据，是消除数据冗余的预处理步骤。将值缩放到特定范围，达到更好的收敛效果。
前馈神经网络和循环神经网络的区别是什么？
- 前馈网络中的信号从输入到输出单向传播，层之间没有反馈环。它不能记住先前的输入。
- 循环神经网络中的信号双向传播，形成循环网络。它在生成层输出时考虑当前输入和先前收到的输入，能够由于其内部记忆而记住过去的数据。
什么是批量归一化？
- 通过在每一层中归一化输入使其具有零均值和单位标准差，以提高神经网络的性能和稳定性。
什么是长短期记忆网络？
- 是一种特殊的RNN，能够学习长期依赖性，记住信息的时间长短是其默认行为。

程序

用PyTorch编写一个简单的神经网络，包括训练步骤和通过新输入数据进行验证。

这个脚本用于创建、训练和评估一个简单的神经网络模型。首先，您可以通过设置mode='train'在main函数中运行脚本来训练模型。在训练过程中，脚本将生成合成数据，定义网络结构，进行训练，并将训练后的模型保存到文件model.pth。如果您希望评估已训练的模型，则可以将mode设置为'eval'，脚本将加载保存的模型并对新生成的输入数据进行预测，输出每个输入的特征和及其预测类别。通过调整mode参数，您可以在训练和评估模式之间切换。

# 引言
# 此脚本演示了使用PyTorch创建、训练和评估一个简单的神经网络。
# 生成的合成数据根据其特征和的特定规则，网络经过训练来分类这些数据。
# 脚本是模块化的，包括生成数据、定义模型、训练和评估的函数。
# main函数控制脚本运行在训练模式还是评估模式。# 导入必要的库
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset# 生成具有某些底层规则的合成数据的函数
def generate_synthetic_data(num_samples, input_dim, num_classes):inputs = torch.randn(num_samples, input_dim)targets = torch.empty(num_samples, dtype=torch.long)for i in range(num_samples):feature_sum = inputs[i].sum().item()# 根据特征和的范围分配目标标签if feature_sum < -10:targets[i] = 0elif feature_sum < -5:targets[i] = 1elif feature_sum < 0:targets[i] = 2elif feature_sum < 5:targets[i] = 3elif feature_sum < 10:targets[i] = 4elif feature_sum < 15:targets[i] = 5elif feature_sum < 20:targets[i] = 6elif feature_sum < 25:targets[i] = 7elif feature_sum < 30:targets[i] = 8else:targets[i] = 9return inputs, targets# 定义神经网络模型类
class SimpleNN(nn.Module):def __init__(self):super(SimpleNN, self).__init__()self.fc1 = nn.Linear(784, 128)  # 全连接层，从784个神经元到128个神经元self.fc2 = nn.Linear(128, 10)   # 全连接层，从128个神经元到10个神经元def forward(self, x):x = torch.relu(self.fc1(x))  # 在第一层之后应用ReLU激活函数x = self.fc2(x)              # 输出层，不使用激活函数return x# 训练模型的函数
def train_model(model, dataloader, criterion, optimizer, num_epochs):for epoch in range(num_epochs):running_loss = 0.0for batch_inputs, batch_targets in dataloader:optimizer.zero_grad()  # 在反向传播之前清零梯度outputs = model(batch_inputs)  # 前向传播：计算输出loss = criterion(outputs, batch_targets)  # 计算损失loss.backward()  # 反向传播：计算梯度optimizer.step()  # 更新权重running_loss += loss.item() * batch_inputs.size(0)  # 累计损失以供监控epoch_loss = running_loss / len(dataloader.dataset)  # 计算平均损失print(f'第 {epoch+1}/{num_epochs} 轮，损失: {epoch_loss:.4f}')print('训练完成。')# 评估模型的函数
def evaluate_model(model, inputs):model.eval()  # 设置模型为评估模式with torch.no_grad():  # 在推理过程中不需要计算梯度predictions = model(inputs)for i in range(len(inputs)):print(f"输入 {i+1} 的和: {inputs[i].sum().item()}")print(f"预测 {i+1}: {predictions[i].argmax().item()}")print("-" * 50)# 主函数
def main(mode='train'):# 超参数num_samples = 1000input_dim = 784num_classes = 10batch_size = 64learning_rate = 0.001num_epochs = 100# 生成合成数据inputs, targets = generate_synthetic_data(num_samples, input_dim, num_classes)# 创建一个DataLoader以进行批处理dataset = TensorDataset(inputs, targets)dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)# 实例化模型model = SimpleNN()# 定义损失函数和优化器criterion = nn.CrossEntropyLoss()  # 适用于具有多个类别的分类任务optimizer = optim.Adam(model.parameters(), lr=learning_rate)  # 学习率为0.001的Adam优化器if mode == 'train':# 训练模型train_model(model, dataloader, criterion, optimizer, num_epochs)# 保存模型状态字典torch.save(model.state_dict(), 'model.pth')print("模型已保存到 'model.pth'")elif mode == 'eval':# 加载模型model.load_state_dict(torch.load('model.pth'))print("模型已从 'model.pth' 加载")# 示例新输入数据new_inputs = torch.randn(10, 784)  # 10个新样本的批次，每个样本有784个特征# 评估模型evaluate_model(model, new_inputs)if __name__ == '__main__':main(mode='eval')  # 根据需要设置为 'train' 或 'eval'

训练过程：

$ python pytorch.py 
Epoch 1/10, Loss: 2.2189
Epoch 2/10, Loss: 1.6003
Epoch 3/10, Loss: 1.2118
Epoch 4/10, Loss: 0.8805
Epoch 5/10, Loss: 0.5897
Epoch 6/10, Loss: 0.3645
Epoch 7/10, Loss: 0.2167
Epoch 8/10, Loss: 0.1331
Epoch 9/10, Loss: 0.0879
Epoch 10/10, Loss: 0.0624
Training complete.
Model saved to 'model.pth'

使用过程：

 $ python pytorch.py 
Model loaded from 'model.pth'
Input 1 Sum: 39.23176193237305
Prediction 1: 4
--------------------------------------------------
Input 2 Sum: -3.4055228233337402
Prediction 2: 2
--------------------------------------------------
Input 3 Sum: 32.59678649902344
Prediction 3: 9
--------------------------------------------------
Input 4 Sum: 32.965431213378906
Prediction 4: 3
--------------------------------------------------
Input 5 Sum: -11.920291900634766
Prediction 5: 0
--------------------------------------------------
Input 6 Sum: -6.332043647766113
Prediction 6: 4
--------------------------------------------------
Input 7 Sum: -1.9515066146850586
Prediction 7: 0
--------------------------------------------------
Input 8 Sum: 7.156068801879883
Prediction 8: 5
--------------------------------------------------
Input 9 Sum: 2.85219669342041
Prediction 9: 0
--------------------------------------------------
Input 10 Sum: -20.769487380981445
Prediction 10: 3
--------------------------------------------------

【DL】神经网络与机器学习基础知识介绍（二）【附程序】

文章目录

激活函数

卷积神经网络

超参数

其他

程序

相关文章：

【DL】神经网络与机器学习基础知识介绍（二）【附程序】

6万字嵌入式最全八股文面试题大全及参考答案（持续更新）

iceberg 用户文档(持续更新)

基于YOLOv8的船舶检测系统

使用腾讯云域名解析实现网站重定向

为什么相比直接使用new和std::shared_ptr构造函数，make_shared在内存分配和管理方面更为高效。

7-Python数据类型——列表和元组的详解(增删改查、索引、切片、步长、循环)

大数据-61 Kafka 高级特性消息消费02-主题与分区自定义反序列化拦截器位移提交位移管理重平衡

Google Gemma2 2B：语言模型的“小时代”到来？

三线程顺序打印1-100

中央处理器CPU

用Python实现AI人脸识别

MSPM0G3507_2024电赛自动行驶小车(H题)_问题与感悟

C语言：指针(2)

数组——二维数组

深入 Vue 组件与状态管理的教程

Spring Boot 实现异步处理多个并行任务

TiDB系列之：使用Flink TiDB CDC Connector采集数据

每日一道算法题最接近的三数之和

搭建自己的金融数据源和量化分析平台（六）：下载并存储沪深两市上市公司财报

Android Wi-Fi 连接失败日志分析

Java 语言特性(面试系列2)

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

《基于Apache Flink的流处理》笔记

Spring数据访问模块设计

Python ROS2【机器人中间件框架】简介

基于Java Swing的电子通讯录设计与实现：附系统托盘功能代码详解

JS设计模式(4)：观察者模式

招商蛇口 | 执笔CID，启幕低密生活新境

Python实现简单音频数据压缩与解压算法