当前位置：首页 > news >正文

BertTokenizer的使用方法(超详细)

news 2026/4/9 17:47:38

导入

from transformers import BertTokenizer
from pytorch_pretrained import BertTokenizer

以上两行代码都可以导入BerBertTokenizer,transformers是当下比较成熟的库，pytorch_pretrained是google提供的源码(功能不如transformers全面)

加载

tokenizer = BertTokenizer.from_pretrained('bert_pretrain')

数据

首先定义一些数据：

sents = ['人工智能是计算机科学的一个分支。','它企图了解智能的实质。','人工智能是一门极富挑战性的科学。',
]

tokenize

将句子拆分为token，并不映射为对应的id

token = tokenizer.tokenize(sents[0])
print(token)
# 输出：['人', '工', '智', '能', '是', '计', '算', '机', '科', '学', '的', '一', '个', '分', '支', '。']

convert_tokens_to_ids

将token映射为其对应的id（ids是我们训练中真正会用到的数据）

ids = tokenizer.convert_tokens_to_ids(token)
print(ids)
#输出：[8, 35, 826, 52, 10, 159, 559, 98, 147, 18, 5, 7, 27, 59, 414, 12043]

同理convert_ids_to_tokens，就是上述方法的逆过程

encode(从此方法开始，只有transformers可以实现)

convert_tokens_to_ids是将分词后的token转化为id序列，而encode包含了分词和token转id过程，即encode是一个更全的过程，另外，encode默认使用basic的分词工具，以及会在句子前和尾部添加特殊字符[CLS]和[SEP]，无需自己添加。从下可以看到，虽然encode直接使用tokenizer.tokenize()进行词拆分，会保留头尾特殊字符的完整性，但是自己也会额外添加特殊字符。

token = tokenizer.tokenize(sents[0])
print(token)
ids = tokenizer.convert_tokens_to_ids(token)
print(ids)
ids_encode = tokenizer.encode(sents[0])
print(ids_encode)
token_encode = tokenizer.convert_ids_to_tokens(ids_encode)
print(token_encode)
# 输出结果：
#['人', '工', '智', '能', '是', '计', '算', '机', '科', '学', '的', '一', '个', '分', '支', '。']
#[8, 35, 826, 52, 10, 159, 559, 98, 147, 18, 5, 7, 27, 59, 414, 12043]
#[1, 8, 35, 826, 52, 10, 159, 559, 98, 147, 18, 5, 7, 27, 59, 414, 12043, 2]
#['[CLS]', '人', '工', '智', '能', '是', '计', '算', '机', '科', '学', '的', '一', '个', '分', '支', '。', '[SEP]']

从运行结果可以看到encode确实在首尾增加了特殊词元[cls]和[sep]也就是1和2

encode_plus

返回更多相关信息：

ids = tokenizer.encode_plus(sents[0])
print(ids)
# {'input_ids': [1, 8, 35, 826, 52, 10, 159, 559, 98, 147, 18, 5, 7, 27, 59, 414, 12043, 2], 
#'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
#'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

batch_encode_plus

以 batch 的形式去编码句子

ids = tokenizer.batch_encode_plus([x for x in sents])
print(ids)
# {
#'input_ids': [[1, 8, 35, 826, 52, 10, 159, 559, 98, 147, 18, 5, 7, 27, 59, 414, 12043, 2], [1, 380, 258, 429, 15, 273, 826, 52, 5, 79, 207, 12043, 2], [1, 8, 35, 826, 52, 10, 7, 232, 456, 595, 1373, 267, 92, 5, 147, 18, 12043, 2]], 
#'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 
#'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

BertTokenizer的使用方法(超详细)

导入

加载

数据

tokenize

convert_tokens_to_ids

encode(从此方法开始，只有transformers可以实现)

encode_plus

batch_encode_plus

相关文章：

BertTokenizer的使用方法(超详细)

深度学习编译器CINN(3)：编译过程中遇到的问题总结

yum 安装mysql8数据全过程

内网vCenter部署教程一

java 进阶—线程的常用方法

hadoop的运行模式

服务器(centos7.6)已经安装了宝塔面板，想在里面安装一个SVN工具(subversion)，应该如何操作呢？

从智能进化模型看用友BIP的AI平台化能力

项目管理的主要内容包括哪些？盘点好用的项目管理系统软件

Allegro如何查看PCB上器件的库路径操作指导

笔记【尚硅谷】大数据Canal教程丨Alibaba数据实时同步神器

如何重定向命令行日志信息到指定txt文件？

物理机不能访问虚拟机kali的web服务解决方案记录

服务器配置 | 在Windows本地显示远程服务器绘图程序

高级信息系统项目管理(高项软考)原创论文——质量管理（2）

从0开始学python -47

【数据结构】八大经典排序总结

BI的能力边界：能解决的企业问题和不擅长的领域

金三银四面试必备，“全新”突击真题宝典，阿里腾讯字节都稳了

MYSQL 基础篇 | 02-MYSQL基础应用

英国人正在减少社交媒体发帖，网络态度趋于保守

如何3分钟完成Windows和Office批量激活：KMS_VL_ALL_AIO终极指南

写段代码教会你什么是HOOK技术？HOOK技术能干什么？肯

JavaScript实现单词首字母大写的方法集锦

如何高效管理全面战争MOD：虎符台/Legion Seal完整指南

终极指南：如何完整解锁Steam游戏DLC内容

M2LOrder情感分析多场景：政务热线投诉文本情绪聚类与热点发现

力扣热门100题之二叉树中的最大路径和

Fan Control风扇控制软件：从入门到精通的全方位指南

构建个人数字图书馆：用fanqienovel-downloader实现小说永久保存与跨设备阅读