当前位置：首页 > news >正文

使用无标注的数据训练Bert

news 文章来源：https://blog.csdn.net/GCTTTTTT/article/details/130492236 2025/4/9 19:01:54

文章目录

1、准备用于训练的数据集
2、处理数据集
3、克隆代码
4、运行代码
5、将ckpt模型转为bin模型使其可在pytorch中运用

Bert官方仓库：https://github.com/google-research/bert

1、准备用于训练的数据集

此处准备的是BBC news的数据集，下载链接：https://www.kaggle.com/datasets/gpreda/bbc-news
原数据集格式（.csv）：
在这里插入图片描述

2、处理数据集

训练Bert时需要预处理数据，将数据处理成https://github.com/google-research/bert/blob/master/sample_text.txt中所示格式，如下所示：
在这里插入图片描述
数据预处理代码参考：

import pandas as pd# 读取BBC-news数据集
df = pd.read_csv("../../bbc_news.csv")
# print(df['title'])
l1 = []
l2 = []
cnt = 0
for line in df['title']:l1.append(line)for line in df['description']:l2.append(line)
# cnt=0
f = open("test1.txt", 'w+', encoding='utf8')
for i in range(len(l1)):s = l1[i] + " " + l2[i] + '\n'f.write(s)# cnt+=1# if cnt>10: break
f.close()
# print(l1)

处理完后的BBC news数据集格式如下所示：
在这里插入图片描述

3、克隆代码

使用git克隆仓库代码
http:

git clone https://github.com/google-research/bert.git

或ssh:

git clone git@github.com:google-research/bert.git

4、运行代码

先下载Bert模型：BERT-Base, Uncased
该文件中有以下文件：
在这里插入图片描述
运行代码：
在Teminal中运行：

python create_pretraining_data.py \--input_file=./sample_text.txt（数据集地址） \--output_file=/tmp/tf_examples.tfrecord（处理后数据集保存的位置） \--vocab_file=$BERT_BASE_DIR/vocab.txt（vocab.txt文件位置） \--do_lower_case=True \--max_seq_length=128 \--max_predictions_per_seq=20 \--masked_lm_prob=0.15 \--random_seed=12345 \--dupe_factor=5

训练模型：

python run_pretraining.py \--input_file=/tmp/tf_examples.tfrecord（处理后数据集保存的位置） \--output_dir=/tmp/pretraining_output（训练后模型保存位置） \--do_train=True \--do_eval=True \--bert_config_file=$BERT_BASE_DIR/bert_config.json（bert_config.json文件位置） \--init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt（如果要从头开始的预训练，则去掉这行） \--train_batch_size=32 \--max_seq_length=128 \--max_predictions_per_seq=20 \--num_train_steps=20 \--num_warmup_steps=10 \--learning_rate=2e-5

训练完成后模型输出示例：

***** Eval results *****global_step = 20loss = 0.0979674masked_lm_accuracy = 0.985479masked_lm_loss = 0.0979328next_sentence_accuracy = 1.0next_sentence_loss = 3.45724e-05

要注意应该能够在至少具有 12GB RAM 的 GPU 上运行，不然会报错显存不足。
使用未标注数据训练BERT

5、将ckpt模型转为bin模型使其可在pytorch中运用

上一步训练好后准备好训练出来的model.ckpt-20.index文件和Bert模型中的bert_config.json文件

创建python文件convert_bert_original_tf_checkpoint_to_pytorch.py：

# coding=utf-8
# Copyright 2018 The HuggingFace Inc. team.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
"""Convert BERT checkpoint."""import argparseimport torchfrom transformers import BertConfig, BertForPreTraining, load_tf_weights_in_bert
from transformers.utils import logginglogging.set_verbosity_info()def convert_tf_checkpoint_to_pytorch(tf_checkpoint_path, bert_config_file, pytorch_dump_path):# Initialise PyTorch modelconfig = BertConfig.from_json_file(bert_config_file)print("Building PyTorch model from configuration: {}".format(str(config)))model = BertForPreTraining(config)# Load weights from tf checkpointload_tf_weights_in_bert(model, config, tf_checkpoint_path)# Save pytorch-modelprint("Save PyTorch model to {}".format(pytorch_dump_path))torch.save(model.state_dict(), pytorch_dump_path)if __name__ == "__main__":parser = argparse.ArgumentParser()# Required parametersparser.add_argument("--tf_checkpoint_path", default=None, type=str, required=True, help="Path to the TensorFlow checkpoint path.")parser.add_argument("--bert_config_file",default=None,type=str,required=True,help="The config json file corresponding to the pre-trained BERT model. \n""This specifies the model architecture.",)parser.add_argument("--pytorch_dump_path", default=None, type=str, required=True, help="Path to the output PyTorch model.")args = parser.parse_args()convert_tf_checkpoint_to_pytorch(args.tf_checkpoint_path, args.bert_config_file, args.pytorch_dump_path)

在Terminal中运行以下命令：

python convert_bert_original_tf_checkpoint_to_pytorch.py \
--tf_checkpoint_path Models/chinese_L-12_H-768_A-12/bert_model.ckpt.index（.ckpt.index文件位置） \
--bert_config_file Models/chinese_L-12_H-768_A-12/bert_config.json（bert_config.json文件位置）  \
--pytorch_dump_path  Models/chinese_L-12_H-768_A-12/pytorch_model.bin（输出的.bin模型文件位置）

以上命令最好在一行中运行：

python convert_bert_original_tf_checkpoint_to_pytorch.py --tf_checkpoint_path bert_model.ckpt.index --bert_config_file bert_config.json  --pytorch_dump_path  pytorch_model.bin

然后就可以得到bin文件了
在这里插入图片描述

【BERT for Tensorflow】本地ckpt文件的BERT使用

使用无标注的数据训练Bert

文章目录 1、准备用于训练的数据集2、处理数据集3、克隆代码4、运行代码5、将ckpt模型转为bin模型使其可在pytorch中运用 Bert官方仓库：https://github.com/google-research/bert 1、准备用于训练的数据集此处准备的是BBC news的数据集，下载链接&…...

编程日记 2023/6/1 9:53:57

《Netty》从零开始学netty源码（五十二）之PoolThreadCache

PoolThreadCache Netty有一个大的公共内存容器PoolArena，用来管理从操作系统中获得的内存，在高并发下如果所有线程都去这个大容器获取内存它的压力是非常大的，所以Netty为每个线程建立了一个本地缓存，即PoolThreadCache&#xff…...

编程日记 2023/5/8 16:01:41

放弃40k月薪的程序员工作，选择公务员，我来分享一下看法

我有一个朋友，拒绝了我为他提供的4万薪水的工作，去了一个体制内的银行，做程序员，即使薪水减半。他之前在北京一家大公司做程序员，一个月30k。当我开始创业时，我拉他来和我一起干，但那时我们太小…...

编程日记 2023/5/8 15:56:39

【MybatisPlus】高级版可视化、可配置自动生成代码

今天看别人使用了一个更加智能的生成代码工具，可视化、可配置策略，非常方便，配置一次，在哪都可以使用，也不会跟项目藕合下面简单说一下使用方式。 1、介绍mybatis-plus-generator-ui 主要是封装了mybatis-plus-gener…...

编程日记 2023/5/8 15:51:38

【图像分割】【深度学习】Windows10下f-BRS官方代码Pytorch实现

【图像分割】【深度学习】Windows10下f-BRS官方代码Pytorch实现提示:最近开始在【图像分割】方面进行研究,记录相关知识点,分享学习中遇到的问题已经解决的方法。文章目录【图像分割】【深度学习】Windows10下f-BRS官方代码Pytorch实现前言f-BRS模型运行环境安装1.下载源码并…...

编程日记 2023/5/8 15:46:36

刷题： 第二周任务 - Virtual Judge (vjudge.net) 这一题用到了素筛,然后穷举即可 #include<stdio.h> #define Maxsize 500000 int a[Maxsize]; long long b[Maxsize]; long long max0; int sushu() {a[0]a[1]0;int i,j,k;for(i2,k0;i<Maxsize;i){if(a[i…...

编程日记 2023/5/8 15:41:35

electron+vue3全家桶+vite项目搭建【17】pinia状态持久化

文章目录引入问题演示实现效果展示、实现步骤1.封装状态初始化函数2.封装状态更新同步函数3.完整代码引入上一篇文章我们已经实现了electron多窗口中，pinia的状态同步，但你会发现，如果我们在一个窗口里面修改了状态，然后再打开…...

编程日记 2023/5/8 15:36:34

java基础入门-05-【面向对象进阶（static继承）】

Java基础入门-05-【面向对象进阶（static&继承）】 13、面向对象进阶（static&继承）1.1 如何定义类1.2 如何通过类创建对象1.3 封装1.3.1 封装的步骤1.3.2 封装的步骤实现 1.4 构造方法1.4.1 构造方法的作用1.4.2 构造方法的…...

编程日记 2023/5/8 15:31:31

day12 IP协议与ethernet协议

目录 IP包头 IP网的意义 IP数据报的格式 IP数据报分片以太网包头（链路层协议） IP包头 IP网的意义当互联网上的主机进行通信时，就好像在一个网络上通信一样，看不见互联的各具体的网络异构细节； 如果在这种覆盖…...

编程日记 2023/5/8 15:26:25

蓝牙耳机哪款性价比高？2023蓝牙耳机性价比排行

随着蓝牙耳机的使用愈发频繁，蓝牙耳机产品也越来越多，蓝牙耳机的功能、价格、外观设计等都不尽相同。接下来，我来给大家推荐几款性价比高的蓝牙耳机，感兴趣的朋友一起来看看吧。一、南卡小音舱Lite2蓝牙耳机参考价&#xff1a…...

编程日记 2023/5/8 15:21:19

关于C语言的一些笔记

文章目录 May4,2023常量问题基本数据类型补码printf的字符格式控制关于异或、异或的理解赋值运算i和i的区别关系运算符 Ｍay5,2023逻辑运算中‘非’的理解逗号运算运算符的优先级问题三目运算摘自加工于C技能树 May4,2023 常量问题 //定义常量 const float PI; PI…...

编程日记 2023/5/8 15:16:18

【Python入门知识】NumPy数组迭代及连接

前言嗨喽~大家好呀，这里是魔王呐 ❤ ~! 数组迭代迭代意味着逐一遍历元素，当我们在 numpy 中处理多维数组时， 可以使用 python 的基本 for 循环来完成此操作。如果我们对 1-D 数组进行迭代，它将逐一遍历每个元素。实例迭…...

编程日记 2023/5/8 15:11:16

我们公司的面试，有点不一样！

我们公司的面试，有点不一样！ 朋友们周末愉快，我是鱼皮。因为我很屑，所以大家也可以叫我屑老板。自从我发了自己创业的文章和视频后，收到了很多小伙伴们的祝福，真心非常感谢！ 不得不说&#…...

编程日记 2023/5/8 15:06:04

C++之初识STL—vector

文章目录 STL基本概念使用STL的好处容器vector1.vector容器简介2.vector对象的默认构造函数3.vector对象的带参构造函数4.vector的赋值5.vector的大小6.vector容器的访问方式7.vector的插入 STL基本概念 STL(Standard Template Library,标准模板库)STL 从广义上分为: 容器(con…...

编程日记 2023/5/8 15:01:03

资讯汇总230503

230503 12:21 【放松身心亲近自然自驾露营成旅游新风尚】今年“五一”假期，我国旅游业的快速恢复催生自驾露营休闲游、短途游、夜游等新型旅游产品提质升级。快速发展的新兴旅游业态，在促进旅游消费、培育绿色健康生活方式等方面发挥了积极作用&#xf…...

编程日记 2023/5/8 14:56:02

C++之编程规范

目录谷歌C风格指南：https://zh-google-styleguide.readthedocs.io/en/latest/google-cpp-styleguide/contents/ 编码规则： • 开闭原则：软件对扩展是开放的，对修改是关闭的 • 防御式编程：简单的说就是程序不能崩溃 •…...

编程日记 2023/5/8 14:51:01

ChatGPT做PPT方案，10组提示词方案！

今天我们要搞定的PPT内容是： 活动类型：节日活动、会员活动、新品活动分析类型：用户分析、新品立项、项目汇报内容类型：内容规划、品牌策划用到的工具： mindshow 邀请码 6509097ChatGPT传送门（免费使用…...

编程日记 2023/5/30 0:46:12

分布式夺命12连问

分布式理论 1. 说说CAP原则？ CAP原则又称CAP定理，指的是在一个分布式系统中，Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性）这3个基本…...

编程日记 2023/6/1 1:55:23

sourceTree离线环境部署

目录 1、下载sourceTree安装包，打开之后弹出注册界面（需要去国外网站注册）2、使用技术手段跳过注册步骤3、打开安装包进行安装注：建议提前安装好git 1、下载sourceTree安装包，打开之后弹出注册界面（需要去…...

编程日记 2023/5/8 14:35:57

6.1.1 图：基本概念

一，基本概念 1.基本定义 （1）图的定义顶点集不可以是空集，但边集可以是空集。 （2） 有向图的表示： 圆括号无向图的表示： 尖括号简单图、多重图： 简单图：…...

编程日记 2023/5/30 22:50:50

SlickEdit for Windows and Linux crack

SlickEdit for Windows and Linux crack 现在可以在“新建注释”对话框中对颜色进行排序，使调色板中的颜色阵列看起来更符合逻辑。在拆分或扩展行注释时添加了撤消步骤，这样您只需点击“撤消”一次即可撤消行注释扩展。已更新VHDL颜色编码，…...

编程日记 2023/5/8 14:25:54

ChatGPT实现stackoverflow 解释

stackoverflow 解释 ChatGPT 公开服务以来，程序员们无疑是最早深入体验和"测试"的一批人。出色的效果也引发了一系列知识产权上的争议。著名的 stackoverflow 网站，就宣布禁止用户使用 ChatGPT 生成的内容来回答问题，一经发现&…...

编程日记 2023/5/8 14:20:52

第五章作业（123）【编译原理】

第五章作业【编译原理】前言推荐第五章作业123 随堂练习课前热身04-17随堂练习04-17课前热身04-24 最后前言 2023-5-3 22:12:46 以下内容源自《【编译原理】》仅供学习交流使用推荐第四章作业（123）【编译原理】第五章作业 1 1.令文法G为…...

编程日记 2023/5/8 14:15:50

基于Vue的个性化网络学习笔记系统

1．系统登录：系统登录是用户访问系统的路口，设计了系统登录界面，包括用户名、密码和验证码，然后对登录进来的用户判断身份信息，判断是管理员用户还是普通用户。 2．系统用户管理：不管是…...

编程日记 2023/5/31 5:18:19

如何搭建一个HTTP实验环境

这一讲是“破冰篇”的最后一讲，我会先简单地回顾一下之前的内容，然后在 Windows 系统上实际操作，用几个应用软件搭建出一个“最小化”的 HTTP 实验环境，方便后续的“基础篇”“进阶篇”“安全篇”的学习。 “破冰篇”回顾 HTTP …...

编程日记 2023/5/8 14:05:46

Electron 环境搭建

https://start.spring.io/ 在线数据分析网站 https://tj.aldwx.com/ https://www.spsspro.com/ win10如何分屏拖到边缘 Electron 环境搭建 https://www.electronjs.org/zh/docs/latest/tutorial/%E6%89%93%E5%8C%85%E6%95%99%E7%A8%8B electron 隐藏菜单 electron 标题栏设…...

编程日记 2023/5/8 14:00:45

农机电招平台~java

摘要随着农机电招行业的不断发展，农机电招在现实生活中的使用和普及，农机电招行业成为近年内出现的一个新行业，并且能够成为大群众广为认可和接受的行为和选择。设计农机电招平台的目的就是借助计算机让复杂的销售操作变简单，变…...

编程日记 2023/5/8 13:55:44

springboot+vue体质测试数据分析及可视化设计（源码+文档）

风定落花生，歌声逐流水，大家好我是风歌，混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的体质测试数据分析及可视化设计。项目源码以及部署相关请联系风歌，文末附上联系信息。 💕💕作者&a…...

编程日记 2023/5/8 13:50:43

thinkphp+vue+html高校固定资产管理系统维修租借4h80u

本高校资产管理系统采用的数据库是Mysql，使用thinkphp框架开发。在设计过程中，充分保证了系统代码的良好可读性、实用性、易扩展性、通用性、便于后期维护、操作方便以及页面简洁等特点。运行环境:phpstudy/wamp/xammp等开发语言：php 后端框…...

编程日记 2023/5/8 13:45:41

【学习笔记】「北大集训 2021」经典游戏

我觉得很厉害。要是考场上能把这道题切了的话数据结构的水平肯定是不低的。考虑简化版问题：如果只询问一个点的答案怎么做。注意，我这么做是有风险的。我把战线拉长了。不过当然，如果连简化版的问题都做不了，那何谈正解&#…...

编程日记 2023/5/8 13:40:40

使用无标注的数据训练Bert

文章目录

1、准备用于训练的数据集

2、处理数据集

3、克隆代码

4、运行代码

5、将ckpt模型转为bin模型使其可在pytorch中运用

相关文章：

使用无标注的数据训练Bert

《Netty》从零开始学netty源码（五十二）之PoolThreadCache

放弃40k月薪的程序员工作，选择公务员，我来分享一下看法

【MybatisPlus】高级版可视化、可配置自动生成代码

【图像分割】【深度学习】Windows10下f-BRS官方代码Pytorch实现

2023/5/4总结

electron+vue3全家桶+vite项目搭建【17】pinia状态持久化

java基础入门-05-【面向对象进阶（static继承）】

day12 IP协议与ethernet协议

蓝牙耳机哪款性价比高？2023蓝牙耳机性价比排行

关于C语言的一些笔记

【Python入门知识】NumPy数组迭代及连接

我们公司的面试，有点不一样！

C++之初识STL—vector

资讯汇总230503

C++之编程规范

ChatGPT做PPT方案，10组提示词方案！

分布式夺命12连问

sourceTree离线环境部署

6.1.1 图：基本概念

SlickEdit for Windows and Linux crack

ChatGPT实现stackoverflow 解释

第五章作业（123）【编译原理】

基于Vue的个性化网络学习笔记系统

如何搭建一个HTTP实验环境

Electron 环境搭建

农机电招平台~java

springboot+vue体质测试数据分析及可视化设计（源码+文档）

thinkphp+vue+html高校固定资产管理系统维修租借4h80u

【学习笔记】「北大集训 2021」经典游戏