当前位置：首页 > news >正文

深度学习PyTorch 之 transformer-中文多分类

news 2025/7/2 14:21:24

transformer的原理部分在前面基本已经介绍完了，接下来就是代码部分，因为transformer可以做的任务有很多，文本的分类、时序预测、NER、文本生成、翻译等，其相关代码也会有些不同，所以会分别进行介绍

但是对于不同的任务其流程是一样的，所以一些重复的步骤就不过多解释了。

1、前期准备

数据和之前LSTM是一样的，同时我们还使用上次训练好的词嵌入模型

以下是代码

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset
import numpy as np
from gensim.models import KeyedVectors
from sklearn.model_selection import train_test_split
import pandas as pd
import jieba
import re
from sklearn.preprocessing import LabelEncoder# 加载数据
file_path = './data/news.csv'
data = pd.read_csv(file_path)# 显示数据的前几行
data.head()# 文本清洗和分词函数
def clean_and_cut(text):# 删除特殊字符和数字text = re.sub(r'[^a-zA-Z\u4e00-\u9fff]', '', text)# 使用jieba进行分词words = jieba.cut(text)return ' '.join(words)X_train_cut = data["text"].apply(clean_and_cut)
# 显示处理后的文本
data.head()# 将标签转换为数值形式
label_encoder = LabelEncoder()
data["label"] = label_encoder.fit_transform(data["label"])
# 加载保存的word vectors
loaded_wv = KeyedVectors.load('word_vector', mmap='r') class Word2VecDataset(Dataset):def __init__(self, texts, labels, word2vec, max_len=100):self.texts = textsself.labels = labelsself.word2vec = word2vecself.max_len = max_lendef __len__(self):return len(self.texts)def __getitem__(self, idx):text = self.texts[idx]label = self.labels[idx]embeds = [self.word2vec[word] if word in self.word2vec else np.zeros(self.word2vec.vector_size) for word in text]if len(embeds) > self.max_len:embeds = embeds[:self.max_len]else:embeds += [np.zeros(self.word2vec.vector_size) for _ in range(self.max_len - len(embeds))]return torch.tensor(embeds, dtype=torch.float), torch.tensor(label, dtype=torch.long)# texts和labels是数据集中的文本和标签列表
texts = X_train_cut.tolist()
labels = data['label'].tolist()# 划分数据集
train_texts, test_texts, train_labels, test_labels = train_test_split(texts, labels, test_size=0.2)

2、位置编码和主模型

import mathclass PositionalEncoding(nn.Module):def __init__(self, d_model, max_len=100):super(PositionalEncoding, self).__init__()# 创建一个位置编码矩阵pe = torch.zeros(max_len, d_model)position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))pe[:, 0::2] = torch.sin(position * div_term)pe[:, 1::2] = torch.cos(position * div_term)pe = pe.unsqueeze(0)  # (1, max_len, d_model)self.register_buffer('pe', pe)def forward(self, x):# x: (batch_size, max_len, d_model)x = x + self.pe.expand(x.size(0), -1, -1)return x

2.1 PositionalEncoding 类

这个类用于创建和提供位置编码。位置编码是 Transformer 模型中用于注入序列中单词的位置信息的机制。这种位置信息对于模型理解单词的顺序很重要。

初始化方法 init

d_model：模型的维度，也是词嵌入的维度。
max_len：序列的最大长度。
pe：位置编码矩阵，大小为 (1, max_len, d_model)。这个矩阵被注册为一个缓冲区，这意味着它会被保存和加载与模型的其他参数一起。

前向传播方法 forward

输入 x 的形状是 (batch_size, max_len, d_model)。
self.pe.expand(x.size(0), -1, -1)：这个操作将位置编码矩阵扩展为 (batch_size, max_len, d_model)，以便它可以与输入数据相加。
最后，将扩展后的位置编码矩阵加到输入数据上，并返回结果。

#修改Transformer模型以添加位置编码
class TransformerClassifierWithPE(nn.Module):def __init__(self, num_classes, d_model=100, nhead=2, num_layers=2, dim_feedforward=2048, dropout=0.1):super(TransformerClassifierWithPE, self).__init__()# 位置编码self.pos_encoder = PositionalEncoding(d_model)# Transformer编码器层encoder_layers = nn.TransformerEncoderLayer(d_model=d_model, nhead=nhead, dim_feedforward=dim_feedforward, dropout=dropout)self.transformer_encoder = nn.TransformerEncoder(encoder_layers, num_layers=num_layers)# 分类器self.classifier = nn.Linear(d_model, num_classes)def forward(self, x):# x: (batch_size, max_len, d_model)x = self.pos_encoder(x)x = x.permute(1, 0, 2)  # (max_len, batch_size, d_model)x = self.transformer_encoder(x)  # (max_len, batch_size, d_model)x = x.mean(dim=0)  # (batch_size, d_model)x = self.classifier(x)  # (batch_size, num_classes)return x

2.2 TransformerClassifierWithPE 类

这个类定义了一个带有位置编码的 Transformer 分类器模型。

初始化方法 init

num_classes：分类任务的类别数量。
d_model：模型的维度，也是词嵌入的维度。
nhead：多头注意力的头数。
num_layers：Transformer 编码器层的数量。
dim_feedforward：前馈网络中的隐藏层维度。
dropout：Dropout 的概率。
pos_encoder：PositionalEncoding 实例，用于位置编码。
transformer_encoder：Transformer 编码器，由多个 TransformerEncoderLayer 组成。
classifier：线性分类器，用于生成最终的分类结果。

前向传播方法 forward

输入 x 的形状是 (batch_size, max_len, d_model)。
首先，使用 self.pos_encoder(x) 获取位置编码后的输入。
然后，将输入的维度从 (batch_size, max_len, d_model) 转换为 (max_len, batch_size, d_model)，这是因为 PyTorch 的 Transformer 编码器期望的输入维度是这样的。
接下来，通过 self.transformer_encoder(x) 应用 Transformer 编码器。
然后，使用 x.mean(dim=0) 获取每个序列的平均表示。
最后，通过 self.classifier(x) 应用线性分类器，得到最终的分类结果。
这个模型可以用于文本分类任务，其中输入是文本序列的词嵌入表示。

3、训练模型


# 模型参数
d_model = 512
nhead = 8
num_encoder_layers = 3
dim_feedforward = 2048
num_classes = len(data.label.unique())  # 假设label_dict是我们的标签字典
max_len = 256model = TransformerClassifierWithPE( d_model=d_model, nhead=nhead, num_layers=num_encoder_layers, dim_feedforward=dim_feedforward, num_classes=num_classes, max_len=max_len,dropout=0.1)-----------------------------
TransformerModel((pos_encoder): PositionalEncoding()(transformer_encoder): TransformerEncoder((layers): ModuleList((0-2): 3 x TransformerEncoderLayer((self_attn): MultiheadAttention((out_proj): NonDynamicallyQuantizableLinear(in_features=512, out_features=512, bias=True))(linear1): Linear(in_features=512, out_features=2048, bias=True)(dropout): Dropout(p=0.1, inplace=False)(linear2): Linear(in_features=2048, out_features=512, bias=True)(norm1): LayerNorm((512,), eps=1e-05, elementwise_affine=True)(norm2): LayerNorm((512,), eps=1e-05, elementwise_affine=True)(dropout1): Dropout(p=0.1, inplace=False)(dropout2): Dropout(p=0.1, inplace=False))))(decoder): Linear(in_features=512, out_features=10, bias=True)
)

# 训练模型
num_epochs = 20
for epoch in range(num_epochs):for inputs, labels in train_loader:# 清除梯度optimizer.zero_grad()# 前向传播outputs = model(inputs)# 计算损失loss = criterion(outputs, labels)# 反向传播loss.backward()# 更新参数optimizer.step()print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item()}')
# 在测试集上评估模型
model.eval()
with torch.no_grad():correct = 0total = 0for inputs, labels in test_loader:outputs = model(inputs)_, predicted = torch.max(outputs.data, 1)total += labels.size(0)correct += (predicted == labels).sum().item()print(f'Accuracy of the model on the test set: {100 * correct / total}%')

深度学习PyTorch 之 transformer-中文多分类

transformer的原理部分在前面基本已经介绍完了，接下来就是代码部分，因为transformer可以做的任务有很多，文本的分类、时序预测、NER、文本生成、翻译等，其相关代码也会有些不同，所以会分别进行介绍但是对于不同的任务…...

编程日记 2024/3/20 6:22:42

STC 51单片机烧录程序遇到一直检测单片机的问题

准备工作一，需要一个USB-TTL的下载器 ，并安装好对应的驱动程序二、对应的下载软件，stc软件需要官方的软件（最好是最新的，个人遇到旧的下载软件出现问题） 几种出现一直检测的原因下载软件图标&#xf…...

编程日记 2024/3/20 6:21:41

后端系统开发之——接口参数校验

今天难得双更，大家点个关注捧个场原文地址：后端系统开发之——接口参数校验 - Pleasure的博客下面是正文内容： 前言在上一篇文章中提到了接口的开发，虽然是完成了，但还是缺少一些细节——传入参数的校验。即用户…...

编程日记 2024/3/20 6:20:40

IDEA 配置阿里规范检测

IDEA中安装插件配置代码风格检查规范使用代码风格检测在代码类中，右键然后会给出一些不符合规范的修改建议： 保存代码时自动格式化代码安装插件： 配置插件：...

编程日记 2024/3/20 6:19:39

数据仓库系列总结

一、数据仓库架构 1、数据仓库的概念数据仓库（Data Warehouse）是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。数据仓库通常包含多个来源的数据，这些数据按照主题进行组织和存储&#x…...

编程日记 2024/3/20 6:17:37

gitlab runner没有内网的访问权限应该怎么解决

如果你的GitLab Runner没有内网访问权限，但你需要访问内部资源（如私有仓库或其他服务），你可以考虑以下几种方法： VPN 或 SSH 隧道： 在允许的情况下，通过VPN或SSH隧道连接到内部网络。这将允许Gi…...

编程日记 2024/3/20 6:16:36

el-tree 设置默认展开指定层级

el-tree默认关闭所有选项，但是有添加或者编辑删除的情况下，需要刷新接口，此时会又要关闭所有选项； 需求：在编辑时、添加、删除需要将该内容默认展开 <el-tree :default-expanded-keys"expandedkeys":da…...

编程日记 2024/3/20 6:15:35

python便民超市管理系统flask-django-nodejs-php

随着人们生活节奏的加快，以前传统的购物方式发生了巨大的改变，以前一个超市要想经营好自己的门店，每天都要忙着记账出账，尤其是出库入库统计，如果忙中出乱，可能导致今天所有的营业流水，要重新换…...

编程日记 2024/3/20 6:14:34

HarmonyOS — BusinessError 不能被 JSON.stringify转换

在鸿蒙中BusinessError 继承于Error，而在JavaScript（以及TypeScript，因为它是JavaScript的超集）中，Error 对象包含一些不能被 JSON.stringify 直接序列化的属性。JSON.stringify 方法会将一个JavaScript对象或者值转换…...

编程日记 2024/3/20 6:13:33

JupyterNotebook 如何切换使用的虚拟环境kernel

在Jupyter Notebook中，如果需要修改使用的虚拟环境Kernel： 首先，需要确保虚拟环境已经安装conda上【conda基本操作】打开Jupyter Notebook。在Jupyter Notebook的顶部菜单中，选择 “New” 在弹出的窗口中，列出了…...

编程日记 2024/3/20 6:12:32

预防GPT-3和其他复杂语言模型中的“幻觉”

标题：预防GPT-3和其他复杂语言模型中的“幻觉” 正文： “假新闻”的一个显著特征是它经常在事实正确信息的环境中呈现虚假信息，通过一种文学渗透的方式，使不真实的数据获得感知权威，这是半真半假力量令人担忧的展示。…...

编程日记 2024/3/20 6:11:31

从源码解析AQS

前置概念要彻底了解AQS的底层实现就必须要了解一下线程相关的知识。包括voliatevoliate 我们使用翻译软件翻译一下volatile，会发现它有以下几个意思：易变的;无定性的;无常性的;可能急剧波动的;不稳定的;易恶化的;易挥发的;易发散的。这也正式使用vola…...

编程日记 2024/3/20 6:10:30

基于Spring Boot的云上水果超市的设计与实现

摘要伴随着我国社会的发展，人民生活质量日益提高。于是对云上水果超市进行规范而严格是十分有必要的，所以许许多多的信息管理系统应运而生。此时单靠人力应对这些事务就显得有些力不从心了。所以本论文将设计一套云上水果超市，帮助商家进行…...

编程日记 2024/3/20 6:09:28

游戏引擎中的动画基础

一、动画技术简介视觉残留理论 - 影像在我们的视网膜上残留1/24s。游戏中动画面临的挑战： 交互：游戏中的玩家动画需要和场景中的物体进行交互。实时：最慢需要在1/30秒内算完所有的场景渲染和动画数据。（可以用动画压缩解决&am…...

编程日记 2024/3/20 6:08:27

springboot3快速入门案例2024最新版

前边 springboot3 系统要求技术&工具版本（or later）maven3.6.3 or later 3.6.3 或更高版本Tomcat10.0Servlet9.0JDK17 SpringBoot的主要目标是： 为所有 Spring 开发提供更快速、可广泛访问的入门体验。开箱即用，设置合理的…...

编程日记 2024/3/20 6:07:26

软考系统架构设计师系列知识点之系统性能（1）

所属章节： 第2章. 计算机系统基础知识第9节. 系统性能系统性能是一个系统提供给用户的所有性能指标的集合。它既包括硬件性能（如处理器主频、存储器容量、通信带宽等）和软件性能（如上下文切换、延迟、执行时间等）&a…...

编程日记 2024/3/20 6:06:25

Trent-FPGA硬件设计课程

本课程涵盖FPGA硬件设计的基础概念和实践应用。学生将学习Verilog语言编程、数字电路设计原理、FPGA架构和开发工具的使用。通过项目实践，掌握FPGA设计流程和调试技巧，为硬件加速和嵌入式系统开发打下坚实基础。课程大小：4.3G 课程下载&am…...

编程日记 2024/3/20 6:05:24

【大模型学习记录】db-gpt源码安装问题汇总

1、首次源码安装时安装的其实dbgpt到conda环境中，会将路径一起安装。如果有其他的路径使用同样的conda环境会报错，一直读取的就是原先的路径的内容。需要自己新创建一个conda env 2、界面中配置知识库问答时，报错 # 1、报的错如下&#x…...

编程日记 2024/3/20 6:04:23

QB PHP 多语言配置

1： 下载QBfast .exe 的文件 2： 安装的时候 ，一定点击仅为我安装而不是所有人 3： 如果提示更新就更新 ， 安装如2 4： 如果遇到新增或者编辑已经配置的项目时不起作用 ： 右…...

编程日记 2024/3/20 6:02:22

Kubernetes实战(三十一)-使用开源CEPH作为后端StorageClass

1 引言 K8S在1.13版本开始支持使用Ceph作为StorageClass。其中云原生存储Rook和开源Ceph应用都非常广泛。本文主要介绍K8S如何对接开源Ceph使用RBD卷。 K8S对接Ceph的技术栈如下图所示。K8S主要通过容器存储接口CSI和Ceph进行交互。 Ceph官方文档：Block Devices a…...

编程日记 2024/3/20 6:01:21

golang循环变量捕获问题

在 Go 语言中，当在循环中启动协程（goroutine）时，如果在协程闭包中直接引用循环变量，可能会遇到一个常见的陷阱 - 循环变量捕获问题。让我详细解释一下： 问题背景看这个代码片段： fo…...

编程新知 2025/6/15 1:42:04

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

编程新知 2025/6/26 9:55:25

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架，支持"一次开发，多端部署"，可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务，为旅游应用带来&#xf…...

编程新知 2025/6/21 9:41:59

质量体系的重要

质量体系是为确保产品、服务或过程质量满足规定要求，由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面： 🏛️ 一、组织架构与职责质量体系明确组织内各部门、岗位的职责与权限，形成层级清晰的管理网络&#xf…...

编程新知 2025/6/27 1:45:53

零基础设计模式——行为型模式 - 责任链模式

第四部分：行为型模式 - 责任链模式 (Chain of Responsibility Pattern) 欢迎来到行为型模式的学习！行为型模式关注对象之间的职责分配、算法封装和对象间的交互。我们将学习的第一个行为型模式是责任链模式。核心思想：使多个对象都有机会处…...

编程新知 2025/6/25 0:35:06

NFT模式：数字资产确权与链游经济系统构建

NFT模式：数字资产确权与链游经济系统构建 ——从技术架构到可持续生态的范式革命一、确权技术革新：构建可信数字资产基石 1. 区块链底层架构的进化跨链互操作协议：基于LayerZero协议实现以太坊、Solana等公链资产互通，通过零知…...

编程新知 2025/6/21 16:46:58

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪宝可梦GO游戏自组网系统

目录游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性宝可梦玩法融合设计游戏构想要素1. 地图探索（基于物理空间广播范围）2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法安全性设计技术选…...

编程新知 2025/6/26 5:08:48

3-11单元格区域边界定位(End属性)学习笔记

返回一个Range 对象，只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意：它移动的位置必须是相连的有内容的单元格…...

编程新知 2025/6/26 10:08:46

Hive 存储格式深度解析：从 TextFile 到 ORC，如何选对数据存储方案？

在大数据处理领域，Hive 作为 Hadoop 生态中重要的数据仓库工具，其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式，很多开发者常常陷入选择困境。本文将从底…...

编程新知 2025/6/23 2:50:47

disk.sh #!/bin/bashcd /run/sr-mount/e54f0646-ae11-0457-b64f-eba4673b824c # 全部虚拟机物理磁盘文件存储 a$(ls -l | awk {print $NF} | cut -d. -f1) # 使用中的虚拟机物理磁盘文件 b$(xe vm-disk-list --multiple | grep uuid | awk {print $NF})printf "%s\n"…...

编程新知 2025/6/21 10:27:51

1、 前期准备

2、位置编码和主模型

2.1 PositionalEncoding 类

初始化方法 __init__

前向传播方法 forward

2.2 TransformerClassifierWithPE 类

初始化方法 __init__

前向传播方法 forward

3、训练模型

相关文章：

1、前期准备

初始化方法 init

初始化方法 init