当前位置：首页 > news >正文

pytorch bert实现文本分类

news 2025/7/3 4:02:14

以imdb公开数据集为例，bert模型可以在huggingface上自行挑选

1.导入必要的库

import os
import torch
from torch.utils.data import DataLoader, TensorDataset, random_split
from transformers import BertTokenizer, BertModel, BertConfig
from torch import nn
from torch.optim import AdamW
import numpy as np
from sklearn.metrics import accuracy_score
import pandas as pd
from tqdm import tqdmdevice = torch.device("cuda:0")
print(device)

2.加载和预处理数据：读取数据，将其转换为适合BERT的格式，并将评分映射到三个类别。

import random
def load_imdb_dataset_and_create_multiclass_labels(path_to_data, split="train"):print(f"load start: {split}")reviews = []labels = []  # 0 for low, 1 for medium, 2 for highfor label in ["pos", "neg"]:labeled_path = os.path.join(path_to_data, split, label)for file in os.listdir(labeled_path):if file.endswith('.txt'):with open(os.path.join(labeled_path, file), 'r', encoding='utf-8') as f:reviews.append(f.read())if label == "neg":# Randomly assign negative reviews to low or mediumlabels.append(random.choice([0, 1]))  else:labels.append(2)  # Assign positive reviews to highreturn reviews[:1000], labels[:1000]
#加载数据集
train_texts, train_labels = load_imdb_dataset_and_create_multiclass_labels("./data/aclImdb", split="train")
test_texts, test_labels = load_imdb_dataset_and_create_multiclass_labels("./data/aclImdb", split="test")
print("load okk")
#样本数量
print("train_texts: ",len(train_texts))
print("test_texts: ",len(test_texts))

3.文本转换为BERT的输入格式

tokenizer = BertTokenizer.from_pretrained('./bert_pretrain')def encode_texts(tokenizer, texts, max_len=512):input_ids = []attention_masks = []for text in texts:encoded = tokenizer.encode_plus(text,add_special_tokens=True,max_length=max_len,pad_to_max_length=True,return_attention_mask=True,return_tensors='pt',)input_ids.append(encoded['input_ids'])attention_masks.append(encoded['attention_mask'])return torch.cat(input_ids, dim=0), torch.cat(attention_masks, dim=0)train_inputs, train_masks = encode_texts(tokenizer, train_texts)
test_inputs, test_masks = encode_texts(tokenizer, test_texts)
print("input transfromer encode done")

4.创建TensorDataset和DataLoader

train_labels = torch.tensor(train_labels)
test_labels = torch.tensor(test_labels)train_dataset = TensorDataset(train_inputs, train_masks, train_labels)
test_dataset = TensorDataset(test_inputs, test_masks, test_labels)# Split the dataset into train and validation sets
train_size = int(0.9 * len(train_dataset))
val_size = len(train_dataset) - train_size
train_dataset, val_dataset = random_split(train_dataset, [train_size, val_size])train_dataloader = DataLoader(train_dataset, batch_size=128, shuffle=True)
val_dataloader = DataLoader(val_dataset, batch_size=128, shuffle=False)
test_dataloader = DataLoader(test_dataset, batch_size=128, shuffle=False)

5.构建模型：使用BERT进行多分类任务

class BertForMultiLabelClassification(nn.Module):def __init__(self):super(BertForMultiLabelClassification, self).__init__()self.bert = BertModel.from_pretrained('./bert_pretrain')self.dropout = nn.Dropout(0.1)self.classifier = nn.Linear(self.bert.config.hidden_size, 3)  # 3类def forward(self, input_ids, attention_mask):_, pooled_output = self.bert(input_ids=input_ids, attention_mask=attention_mask, return_dict=False)pooled_output = self.dropout(pooled_output)return self.classifier(pooled_output)

6.训练和评估模型

# 初始化模型、优化器和损失函数
model = BertForMultiLabelClassification()
# 使用多GPU
# if MULTI_GPU:
#     model = nn.DataParallel(model)
model.to(device)optimizer = AdamW(model.parameters(), lr=2e-5)
loss_fn = nn.CrossEntropyLoss()# 训练函数
def train(model, dataloader, optimizer, loss_fn, device):model.train()total_loss = 0for batch in dataloader:batch = tuple(b.to(device) for b in batch)inputs, masks, labels = batchoptimizer.zero_grad()outputs = model(input_ids=inputs, attention_mask=masks)loss = loss_fn(outputs, labels)total_loss += loss.item()loss.backward()optimizer.step()average_loss = total_loss / len(dataloader)return average_loss# 评估函数
def evaluate(model, dataloader, loss_fn, device):model.eval()total_loss = 0predictions, true_labels = [], []with torch.no_grad():for batch in dataloader:batch = tuple(b.to(device) for b in batch)inputs, masks, labels = batchoutputs = model(input_ids=inputs, attention_mask=masks)loss = loss_fn(outputs, labels)total_loss += loss.item()logits = outputs.detach().cpu().numpy()label_ids = labels.to('cpu').numpy()predictions.append(logits)true_labels.append(label_ids)average_loss = total_loss / len(dataloader)flat_predictions = np.concatenate(predictions, axis=0)flat_predictions = np.argmax(flat_predictions, axis=1).flatten()flat_true_labels = np.concatenate(true_labels, axis=0)accuracy = accuracy_score(flat_true_labels, flat_predictions)return average_loss, accuracy# 训练和评估循环
for epoch in range(3):  # 假设训练3个周期train_loss = train(model, train_dataloader, optimizer, loss_fn, device)val_loss, val_accuracy = evaluate(model, val_dataloader, loss_fn, device)print(f"Epoch {epoch+1}")print(f"Train Loss: {train_loss:.3f}")print(f"Validation Loss: {val_loss:.3f}, Accuracy: {val_accuracy:.3f}")# 在测试集上评估模型性能
test_loss, test_accuracy = evaluate(model, test_dataloader, loss_fn, device)
print(f"Test Loss: {test_loss:.3f}, Accuracy: {test_accuracy:.3f}")
#保存模型
torch.save(model.state_dict(), "./model/bert_multiclass_imdb_model.pt")

7.模型预测

from transformers import BertModel
import torchdef predict(texts, model, tokenizer, device, max_len=128):# 将文本编码为BERT的输入格式def encode_texts(tokenizer, texts, max_len):input_ids = []attention_masks = []for text in texts:encoded = tokenizer.encode_plus(text,add_special_tokens=True,max_length=max_len,pad_to_max_length=True,return_attention_mask=True,return_tensors='pt',)input_ids.append(encoded['input_ids'])attention_masks.append(encoded['attention_mask'])return torch.cat(input_ids, dim=0), torch.cat(attention_masks, dim=0)model.eval()  # 将模型设置为评估模式predictions = []input_ids, attention_masks = encode_texts(tokenizer, texts, max_len)input_ids = input_ids.to(device)attention_masks = attention_masks.to(device)with torch.no_grad():outputs = model(input_ids, attention_mask=attention_masks)logits = outputs.detach().cpu().numpy()predictions = np.argmax(logits, axis=1)return predictions# 示例文本
texts = ["I very like the movie", "the movie is so bad"]# 调用预测函数# 初始化模型
device = torch.device("cuda:0")
model = BertForMultiLabelClassification()
model.to(device)# 加载模型状态
model.load_state_dict(torch.load('./model/bert_multiclass_imdb_model.pt'))# 将模型设置为评估模式
model.eval()# 加载tokenizer
tokenizer = BertTokenizer.from_pretrained('./bert_pretrain')predictions = predict(texts, model, tokenizer, device)# 输出预测结果
for text, pred in zip(texts, predictions):print(f"Text: {text}, Predicted category: {pred}")

pytorch bert实现文本分类

以imdb公开数据集为例，bert模型可以在huggingface上自行挑选 1.导入必要的库 import os import torch from torch.utils.data import DataLoader, TensorDataset, random_split from transformers import BertTokenizer, BertModel, BertConfig from torch import…...

编程日记 2023/12/5 1:31:32

《开箱元宇宙》：Madballs 解锁炫酷新境界，人物化身系列大卖

你是否曾想过，元宇宙是如何融入世界上最具代表性的品牌和名人的战略中的？在本期的《开箱元宇宙》系列中，我们与 Madballs 的战略顾问 Derek Roberto 一起聊聊 Madballs 如何在 90 分钟内售罄 2,000 个人物化身系列，以及是什么原…...

编程日记 2023/12/5 1:30:31

4K-Resolution Photo Exposure Correction at 125 FPS with ~8K Parameters

MSLTNet开源 | 4K分辨率125FPS8K的参数量，怎养才可以拒绝这样的模型呢？ 错误的曝光照片的校正已经被广泛使用深度卷积神经网络或Transformer进行广泛修正。尽管这些方法具有令人鼓舞的表现，但它们通常在高分辨率照片上具有大量的参数数量和沉…...

编程日记 2023/12/5 1:27:28

网络初识：局域网广域网网络通信基础

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、局域网LAN是什么？二、广域网是什么：三. IP地址四.端口号五.认识协议5.1五元组总结前言一、局域网LAN是什么？ 局域网…...

编程日记 2023/12/5 1:26:27

JVM之jps虚拟机进程状态工具

jps虚拟机进程状态工具 1、jps jps：(JVM Process Status Tool)，虚拟机进程状态工具，可以列出正在运行的虚拟机进程，并显示虚拟机执行主类（Main Class，main()函数所在的类）的名称&#xff0c…...

编程日记 2023/12/5 1:24:23

C++实现顺序栈的基本操作（扩展）

#include <stdio.h> typedef char ElemType; #define StackSize 100 /*顺序栈的初始分配空间*/ typedef struct { ElemType data[StackSize]; /*保存栈中元素*/int top; /*栈顶指针*/ } SqStack; void InitStack(SqStack &st) {st.top-1; } …...

编程日记 2023/12/5 1:23:22

用python写一个简单的爬虫

爬虫是一种自动化程序，用于从互联网上获取数据。它能够模拟人类浏览网页的行为，访问网页并提取所需的信息。爬虫在很多领域都有广泛的应用，例如数据采集、信息监控、搜索引擎索引等。下面是一个使用Python编写的简单爬虫示例： …...

编程日记 2023/12/5 1:22:20

分布式追踪

目录文章目录目录自定义指标1.删除标签2.添加指标3.禁用指标分布式追踪上下文传递Jaeger 关于我最后最后自定义指标除了 Istio 自带的指标外，我们还可以自定义指标，要自定指标需要用到 Istio 提供的 Telemetry API，该 API 能够灵活地配…...

编程日记 2023/12/5 1:21:19

make -c VS make -f

make 是一个用于构建（编译）项目的工具，它通过读取一个名为 Makefile 的文件来执行构建任务。make 命令有很多选项和参数，其中包括 -c 和 -f。 make -c： 作用：指定进入指定的目录并执行相应的 Makefile。示…...

编程日记 2023/12/5 1:20:17

Unity 代码控制Color无变化

Unity中，我们给Color的赋值比较常用的方法是： 1、使用预定义颜色常量： Color color Color.white; //白色 Color color Color.black; //黑色 Color color Color.red; //红色 Color color Color.green; //绿色 Color color Color.blue; …...

编程日记 2023/12/5 1:19:16

【Erlang进阶学习】2、匿名函数

受到其它一些函数式编程开发语言的影响，在Erlang语言中，将函数作为一个对象，赋予其“变量”的属性，即为我们的匿名函数或简称 fun，它具有以下特性： （匿名函数：不是定义在Erlang模…...

编程日记 2023/12/5 1:18:15

肖sirmysql之视图009

mysql之视图一、什么是视图视图是一个虚拟表（逻辑表），它不在数据库中以存储形式保存（本身包含数据），是在使用视图的时候动态生成。二、视图作用 1、查询数据库中的非常复的数据例如：多表&a…...

编程日记 2023/12/5 1:17:13

FPGA falsh相关知识总结

1.存储容量是128M/8 Mb16MB 2.有256个sector扇区*每个扇区64KB16MB 3.一页256Byte 4.页编程地址0256 5：在调试SPI时序的时候一定注意，miso和mosi两个管脚只要没发送数据就一定要悬空（处于高组态），不然指令会通过两…...

编程日记 2023/12/5 1:16:11

升辉清洁IPO：广东清洁服务“一哥”还需要讲好全国化的故事

近日，广东物业清洁服务“一哥”升辉清洁第四次冲击IPO成功，拟于12月5日在香港主板挂牌上市。自2021年4月第一次递交招股书，时隔两年半，升辉清洁终于拿到了上市的门票。天眼查显示，升辉清洁成立于2000年，主…...

编程日记 2023/12/5 1:15:10

Python自动化办公：PDF文件的分割与合并

我们平时办公中，可能需要对pdf进行合并或者分割，但奈何没有可以白嫖的工具，此时python就是一个万能工具库。其中PyPDF2是一个用于处理PDF文件的Python库，它提供了分割和合并PDF文件的功能。在本篇博客中，我们将详细…...

编程日记 2023/12/5 1:13:09

破解app思路

1.会看smali代码逻辑一.快速定位关键代码 1.分析流程搜索特征字符串搜索关键 api 通过方法名来判断方法的功能 2.快速定位关键代码反编译 APK 程序 AndroidManifest.xml>包名/系统版本/组件程序的主 activity(程序入口界面) 每个 Android 程序…...

编程日记 2023/12/5 1:12:08

背景特效插件：Background Effects

...

编程日记 2023/12/5 1:09:05

36.位运算符

一.什么是位运算符按照二进制位来进行运算的运算符叫做位运算符，所以要先将操作数转换成二进制（补码）的形式在运算。C语言的中的位运算符有： 运算符作用举例结果& 按位与（and） 0&00; 0&10; …...

编程日记 2023/12/5 1:08:03

C#异常处理-throw语句

throw语句是我们手动引发异常的一个语句。在程序执行过程中，当某些条件不符合我们的要求时，那么我们就可以使用throw语句手动抛出异常，那么就可以在异常发生的地方终止当前代码块的执行，此时我们就可以把控制权传递给调用堆栈中…...

编程日记 2023/12/5 1:07:01

PlantUML语法（全）及使用教程-时序图

目录 1. 参与者1.1、参与者说明1.2、背景色1.3、参与者顺序 2. 消息和箭头2.1、文本对其方式2.2、响应信息显示在箭头下面2.3、箭头设置2.4、修改箭头颜色2.5、对消息排序 3. 页面标题、眉角、页脚4. 分割页面5. 生命线6. 填充区设置7. 注释8. 移除脚注9. 组合信息9.1、alt/el…...

编程日记 2023/12/5 1:06:00

C++实现分布式网络通信框架RPC(3)--rpc调用端

目录一、前言二、UserServiceRpc_Stub 三、 CallMethod方法的重写头文件实现四、rpc调用端的调用实现五、 google::protobuf::RpcController *controller 头文件实现六、总结一、前言在前边的文章中，我们已经大致实现了rpc服务端的各项功能代…...

编程新知 2025/6/27 8:45:56

微软PowerBI考试 PL300-选择 Power BI 模型框架【附练习数据】

微软PowerBI考试 PL300-选择 Power BI 模型框架 20 多年来，Microsoft 持续对企业商业智能 (BI) 进行大量投资。 Azure Analysis Services (AAS) 和 SQL Server Analysis Services (SSAS) 基于无数企业使用的成熟的 BI 数据建模技术。同样的技术也是 Power BI 数据…...

编程新知 2025/7/2 17:39:54

中南大学无人机智能体的全面评估！BEDI：用于评估无人机上具身智能体的综合性基准测试

作者：Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位：中南大学地球科学与信息物理学院论文标题：BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接：https://arxiv.…...

编程新知 2025/6/28 14:27:12

MFC内存泄露

1、泄露代码示例 void X::SetApplicationBtn() {CMFCRibbonApplicationButton* pBtn GetApplicationButton();// 获取 Ribbon Bar 指针// 创建自定义按钮CCustomRibbonAppButton* pCustomButton new CCustomRibbonAppButton();pCustomButton->SetImage(IDB_BITMAP_Jdp26)…...

编程新知 2025/6/28 14:31:27

LeetCode - 394. 字符串解码

题目 394. 字符串解码 - 力扣（LeetCode） 思路使用两个栈：一个存储重复次数，一个存储字符串遍历输入字符串： 数字处理：遇到数字时，累积计算重复次数左括号处理：保存当前状态&a…...

编程新知 2025/6/26 5:47:42

关于iview组件中使用 table , 绑定序号分页后序号从1开始的解决方案

问题描述：iview使用table 中type: "index",分页之后 ，索引还是从1开始，试过绑定后台返回数据的id, 这种方法可行，就是后台返回数据的每个页面id都不完全是按照从1开始的升序，因此百度了下，找到了…...

编程新知 2025/6/22 9:08:50

如何在看板中有效管理突发紧急任务

在看板中有效管理突发紧急任务需要：设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP（Work-in-Progress）弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中，设立专门的紧急任务通道尤为重要，这能…...

编程新知 2025/7/3 3:02:57

基础测试工具使用经验

背景 vtune，perf, nsight system等基础测试工具，都是用过的，但是没有记录，都逐渐忘了。所以写这篇博客总结记录一下，只要以后发现新的用法，就记得来编辑补充一下 perf 比较基础的用法： 先改这…...

编程新知 2025/6/17 3:13:49

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及，充电桩作为核心配套设施，其安全性与可靠性备受关注。然而，在高温、高负荷运行环境下，充电桩的散热问题与消防安全隐患日益凸显，成为制约行业发展的关键瓶颈。如何通过智慧化管理手段优化散…...

编程新知 2025/6/20 1:44:47

汇编常见指令

汇编常见指令一、数据传送指令指令功能示例说明MOV数据传送MOV EAX, 10将立即数 10 送入 EAXMOV [EBX], EAX将 EAX 值存入 EBX 指向的内存LEA加载有效地址LEA EAX, [EBX4]将 EBX4 的地址存入 EAX（不访问内存）XCHG交换数据XCHG EAX, EBX交换 EAX 和 EB…...

编程新知 2025/6/22 10:57:55