当前位置：首页 > news >正文

Transformer中的数据输入构造

news 2026/4/8 2:35:22

文章目录

- 1. 文本内容
- 2. 字典构造
- - 2.1 定义一个类用于字典构造
  - 2.2 拆分文本
  - 2.3 构造结果
- 3. 完整代码

1. 文本内容

假如我们有如下一段文本内容：

Optics

It is the branch of physics that studies the behaviour and properties of light .

Optical Science

这段文本有5行，第一行内容为 ’Optics‘，第二行为空行，第三行内容为 ’It is the branch of physics that studies the behaviour and properties of light .‘，第四行内容为空行，第五行内容为’Optical Science‘
根据这段文本，可以构造一个字典。在这个字典中，每一个单词有一个编号（ $\mathrm{index}$ ），根据这个编号，我们就能知道这个编号对应哪个单词。
将这段文本以 $\mathrm{.txt}$ 文件的形式放在 $\mathrm{data}$ 文件夹下。这里， $\mathrm{.txt}$ 文件和 $\mathrm{data}$ 文件夹都可以自己创建，如下图所示

2. 字典构造

2.1 定义一个类用于字典构造

import os
from io import open
import torchclass Dictionary(object):def __init__(self):self.word2idx = {}self.idx2word = []def add_word(self, word):if word not in self.word2idx:self.idx2word.append(word)self.word2idx[word] = len(self.idx2word) - 1return self.word2idx[word]def __len__(self):return len(self.idx2word)

self.word2idx = {} 是建立一个空字典来存放每一个单词对应的 $\mathrm{index}$ 。self.idx2word = [] 是建立一个空列表来存放 $\mathrm{index}$ 对应的单词；
第二个函数 add_word 用来接收输入的文本数据，然后用 self.idx2word.append(word) 一个一个的放进 self.idx2word = [] 这个空列表里。self.word2idx[word] = len(self.idx2word) - 1 是为每一个加进来的单词分配一个 $\mathrm{index}$ ，然后 $\mathrm{word:index}$ 作为键值对放进self.word2idx = {} 建立的空字典里。
第三个函数返回的是在这个字典中总共有多少个单词（包括标点符号，例如上面文本中的句号 $\cdot$ ）。

2.2 拆分文本

$\mathrm{Dictionary}$ 这个类需要输入数据来产生词典，所以接下来要制作数据，这个数据来源就是 $1$ 中的文本内容。这里，可以定义如下的一个 $\mathrm{Data}$ 类：

import os
from io import open
import torchclass Data(object):def __init__(self, path):self.dictionary = Dictionary()self.demo = self.tokenize(os.path.join(path, 'demo_text.txt'))def tokenize(self, path):"""Tokenizes a text file."""assert os.path.exists(path)# Add words to the dictionarywith open(path, 'r', encoding="utf8") as f:for line in f:words = line.split() + ['<eos>']for word in words:self.dictionary.add_word(word)# Tokenize file contentwith open(path, 'r', encoding="utf8") as f:idss = []for line in f:words = line.split() + ['<eos>']ids = []for word in words:ids.append(self.dictionary.word2idx[word])idss.append(torch.tensor(ids).type(torch.int64))ids = torch.cat(idss)return ids

self.dictionary = Dictionary() 就是将 $2.1$ 中构造的字典类实例化，以方便调用。self.demo = self.tokenize(os.path.join(path, 'demo_text.txt')) 是将 $\mathrm{demo\_text.txt}$ 中的内容转化为一个个的 $\mathrm{index}$ 。
tokenize(self, path) 这个函数就是用来实现将 $\mathrm{demo\_text.txt}$ 中的内容转化为一个个的 $\mathrm{index}$ 。
在tokenize(self, path) 这个函数中，第一个 with open(path, 'r', encoding="utf8") as f: ： $\mathrm{open}$ 函数打开文本内容后，用 $\mathrm{for}$ 循环，逐行拆分文本为一个个单词（包括标点符号），然后用 self.dictionary.add_word(word) 这个函数将每一个单词放进字典里。注意 words = line.split() + ['<eos>'] ,这里给每一行的末尾加了一个字符 $\mathrm{'<eos>'}$ 用于提示一行结束。
在tokenize(self, path) 这个函数中，第二个 with open(path, 'r', encoding="utf8") as f: ： $\mathrm{open}$ 函数打开文本内容后，用 $\mathrm{for}$ 循环，逐行拆分文本为一个个单词（包括标点符号），然后用 ids.append(self.dictionary.word2idx[word]) 这个函数将每一个单词对应的 $\mathrm{index}$ 放进列表里。
idss.append(torch.tensor(ids).type(torch.int64)) 是将每一循环得到的 $\mathrm{ids}$ 存起来。
因为每一循环得到 $\mathrm{ids}$ 是一个 $\mathrm{tensor}$ ，所以 $\mathrm{idss}$ 里有很多个 $\mathrm{tensor}$ ，最后用 ids = torch.cat(idss) 把所有数据整合成一个 $\mathrm{tensor}$ 。

2.3 构造结果

输出字典代码如下：

data = Data('./data') # 给定数据文件夹
data_dict = data.dictionary.word2idx
print(f'由给定文本构造的词典为：\n{data_dict}')

输出结果如下：

由给定文本构造的词典为：
{'Optics': 0, '<eos>': 1, 'It': 2, 'is': 3, 'the': 4, 'branch': 5, 'of': 6, 'physics': 7, 'that': 8, 'studies': 9,
'behaviour': 10, 'and': 11, 'properties': 12, 'light': 13, '.': 14, 'Optical': 15, 'Science': 16}

对比原文本，可以发现，每一个单词有一个对应的编号，其中 '<eos>' 是我们主动添加的代表一行结束的字符。

由给定的文本产生的 $\mathrm{index}$ 编码输出为：

data_demo = data.demo
print(f"给定文本所产生的index编码输出为：\n{data_demo}")
# 给定文本所产生的index编码输出为：
# tensor([ 0,  1,  1,  2,  3,  4,  5,  6,  7,  8,  9,  4, 10, 11, 12,  6, 13, 14,
#          1,  1, 15, 16,  1])

第一个数字0代表 $\mathrm{Optics}$ , 第二个数字1代表 $\mathrm{Optics}$ 后的行结束符 '<eos>' 。
第三个数字1代表空行里的结束符 '<eos>'。
第四个数字2代表第三行的第一个单词 $\mathrm{It}$ 。可以类比文本和 $\mathrm{index}$ 的编码输出，都可以通过字典一一对应。
这里的 $\mathrm{index}$ 的编码输出就是用于 $\mathrm{transformer}$ 的训练数据。

3. 完整代码

# %%
import os
from io import open
import torch# %% Dictionary
class Dictionary(object):def __init__(self):self.word2idx = {}self.idx2word = []def add_word(self, word):if word not in self.word2idx:self.idx2word.append(word)self.word2idx[word] = len(self.idx2word) - 1return self.word2idx[word]def __len__(self):return len(self.idx2word)# %% Data
class Data(object):def __init__(self, path):self.dictionary = Dictionary()self.demo = self.tokenize(os.path.join(path, 'demo_text.txt'))def tokenize(self, path):"""Tokenizes a text file."""assert os.path.exists(path)# Add words to the dictionarywith open(path, 'r', encoding="utf8") as f:for line in f:words = line.split() + ['<eos>']for word in words:self.dictionary.add_word(word)# Tokenize file contentwith open(path, 'r', encoding="utf8") as f:idss = []for line in f:words = line.split() + ['<eos>']ids = []for word in words:ids.append(self.dictionary.word2idx[word])idss.append(torch.tensor(ids).type(torch.int64))ids = torch.cat(idss)return ids# %%
data = Data('./data')  # 给定数据文件夹
data_dict = data.dictionary.word2idx
print(f'由给定文本构造的词典为：\n{data_dict}')
# 由给定文本构造的词典为：
# {'Optics': 0, '<eos>': 1, 'It': 2, 'is': 3, 'the': 4, 'branch': 5, 'of': 6, 'physics': 7, 'that': 8, 'studies': 9,
# 'behaviour': 10, 'and': 11, 'properties': 12, 'light': 13, '.': 14, 'Optical': 15, 'Science': 16}
data_demo = data.demo
print(f"给定文本所产生的index编码输出为：\n{data_demo}")
# 给定文本所产生的index编码输出为：
# tensor([ 0,  1,  1,  2,  3,  4,  5,  6,  7,  8,  9,  4, 10, 11, 12,  6, 13, 14,
#          1,  1, 15, 16,  1])

Transformer中的数据输入构造

文章目录 1. 文本内容2. 字典构造2.1 定义一个类用于字典构造2.2 拆分文本2.3 构造结果 3. 完整代码 1. 文本内容假如我们有如下一段文本内容： Optics It is the branch of physics that studies the behaviour and properties of light . Optical Science 这段…...

编程日记 2024/5/9 21:03:02

完美实现vue3异步加载组件

经过几个小时的努力，终于实现了，根据组件名异常加载组件，直接上代码，网上的很多代码方都有坑，先贴出比较坑的代码： <template><view class"main"> <view class"tops"…...

编程日记 2024/5/9 21:02:00

点云成图原理

点成图（Point Cloud）是指由一组离散的点构成的图形，它们在空间中没有任何连接关系。点成图通常是由激光雷达、相机或其他传感器获取的三维数据，用于表示现实世界中的物体或场景。三角成图（Triangulation）…...

编程日记 2024/5/9 20:59:58

如何将jsp项目转成springboot项目

昨天说过，springboot推荐使用Thymeleaf作为前后端渲染的模板引擎，为什么推荐用Thymeleaf呢，有以下几个原因： 动静结合：Thymeleaf支持HTML原型，允许在HTML标签中增加额外的属性来实现模板与数据的结合。这样…...

编程日记 2024/5/9 20:56:53

C语言：环形链表

1.例子1：环形链表 142. 环形链表 II - 力扣（LeetCode） 思路：我们先定义两个变量slow和fast，slow每次走一步，fast每次走两步，如果链表是环形链表，那么必定存在fast不会走到链表的最后…...

编程日记 2024/5/9 20:54:51

Playlist Soundness What’s up, friend?! I’m so pumped you’re joining us. We’ve got a sick project we could totally use your help on! See, someone’s giving us amazing recommendations for songs to play. But they’re not just coming in as songs. Someti…...

编程日记 2024/5/9 20:53:49

零基础入门学习Python第二阶02面向对象，迭代器生成器，并发编程

Python语言进阶面向对象相关知识三大支柱：封装、继承、多态例子：工资结算系统。 """月薪结算系统 - 部门经理每月15000 程序员每小时200 销售员1800底薪加销售额5%提成"""from abc import ABCMeta, abstractmethodcl…...

编程日记 2024/5/9 20:52:47

Unity | Shader基础知识(第十三集：编写内置着色器阶段总结和表面着色器的补充介绍)

目录前言一、表面着色器的补充介绍二、案例viewDir详解 1.viewDir是什么 2.viewDir的作用 3.使用viewDir写shader 前言注意观察的小伙伴会发现，这组教程前半部分我们在编写着色器的时候，用的是顶点着色器和片元着色器的组合。 SubShader{CGPRO…...

编程日记 2024/5/9 20:51:45

JavaScript map对象/set对象详解

文章目录一、map对象二、map对象应用场景1. 数组元素转换2. 对象数组的属性提取或转换3. 数组元素的复杂转换4. 与其他数组方法结合使用5. 与异步操作结合（使用 Promise）6. 生成新的数据结构7. 数学和统计计算三、set对象1. 基本使用2. 特性3. 注意事项…...

编程日记 2024/5/9 20:50:44

【kettle017】kettle访问DB2数据库并处理数据至execl文件（最近完善中）

1.一直以来想写下基于kettle的系列文章，作为较火的数据ETL工具，也是日常项目开发中常用的一款工具，最近刚好挤时间梳理、总结下这块儿的知识体系。 2.熟悉、梳理、总结下DB2数据库（IBM公司开发的一套关系型数据库管理系统&#xf…...

编程日记 2024/5/9 20:49:42

Spring Cloud原理详解和作用特点

当涉及到构建和管理分布式系统的微服务架构时，Spring Cloud 是一个备受欢迎的选择。它提供了一套强大的工具和组件，使开发者能够轻松地构建、部署和管理微服务应用程序。本文将深入探讨 Spring Cloud 的原理和作用特点。 1. Spring Cloud 的原理 Sprin…...

编程日记 2024/5/9 20:48:41

Linux —— 进程间通信

目录一、进程间通信的介绍二、管道三、匿名管道四、命名管道五、system V进程间通信一、进程间通信的介绍 1.进程间通信的概念进程通信（Interprocess communication），简称：IPC； 本来进程之间是相互独立的。但是…...

编程日记 2024/5/9 20:46:39

ASP.NET信息安全研究所设备管理系统的设计与实现

摘要以研究所的设备管理系统为背景，以研究所设备管理模式为研究对象，开发了设备管理系统。设备管理系统是设备管理与计算机技术相结合的产物，根据系统的功能需求分析与定义的数据模式，分析了应用程序的主要功能和系统实现的主…...

编程日记 2024/5/9 20:45:38

＜网络安全＞《81 微课堂＜安全产品微简介（1）＞》

1 简单的了解复杂的安全产品产品简要防火墙网络区域边界上部署，主要作用是隔离阻断。安全审计一般包括网络日志的分析、网络流量的监控和用户行为的跟踪等。发现网络中的潜在问题和漏洞。入侵检测IDS实时监控和检测网络中的异常活动和入侵行为。入侵防御IPS防病毒…...

编程日记 2024/5/9 20:44:36

【6D位姿估计】FoundationPose 跑通demo 训练记录

前言本文记录在FoundationPose中，跑通基于CAD模型为输入的demo，输出位姿信息，可视化结果。然后分享NeRF物体重建部分的训练，以及RGBD图为输入的demo。 1、搭建环境方案1：基于docker镜像（推荐&#xf…...

编程日记 2024/5/9 20:43:35

Python 中 “yield“ 的不同行为

在我们使用Python编译过程中，yield 关键字用于定义生成器函数，它的作用是将函数变成一个生成器，可以迭代产生值。yield 的行为在不同的情况下会有不同的效果和用途。 1、问题背景在 Python 中，“yield” 是一种生成器&#xff0…...

编程日记 2024/5/9 20:40:32

迅睿CMS中实现关键词搜索高亮

在迅睿CMS系统中实现关键词搜索高亮是提升用户体验和搜索效果的重要手段。当用户搜索某个关键词时，将搜索结果中的关键词高亮显示，可以帮助用户更快速地定位到所需信息。关键词高亮的实现在迅睿CMS中，你可以使用内置的dr_keyword_highlig…...

编程日记 2024/5/9 20:39:31

晶振的精度与稳定性有什么关系？

晶振的精度和稳定性是电子设备中非常重要的参数，它们受到多种因素的影响，主要包括： 精度的影响因素： 温度变化：晶体的温度系数会使得频率随温度变化而变化，通常在0C到55C的工业标准温度范围内，…...

编程日记 2024/5/9 20:38:29

【C】137 只出现一次的数字

给你一个整数数组 nums ，除某个元素仅出现一次外，其余每个元素都恰出现三次。请你找出并返回那个只出现了一次的元素。你必须设计并实现线性时间复杂度的算法且使用常数级空间来解决此问题。解法一 #include <stdio.h>int singleNumber(i…...

编程日记 2024/5/9 20:37:28

51单片机入门：DS1302时钟

51单片机内部含有晶振，可以实现定时/计数功能。但是其缺点有：精度往往不高、不能掉电使用等。我们可以通过DS1302时钟芯片来解决以上的缺点。 DS1302时钟芯片功能：DS1302是一种低功耗实时时钟芯片，内部有自动的计时功能&#x…...

编程日记 2024/5/9 20:36:26

从谷歌官网下载谷歌浏览器并测试能否正常访问deepseek免注册版网址

引言下载软件的时候，需要识别是否来自官网。如果下载来自非官方网站提供的软件，可能出现的危害包括但不限于，自动安装多个你并不想要安装的软件，甚至是都没听过的软件，这些软件很可能自动设置了开机自启动功能&#x…...

编程新知 2026/4/8 2:34:08

OpenClaw稳定性提升：Qwen3-14B长时运行的内存泄漏排查

OpenClaw稳定性提升：Qwen3-14B长时运行的内存泄漏排查 1. 问题背景：72小时无人值守的意外崩溃上周我尝试用OpenClawQwen3-14B搭建一个自动化内容处理流水线，期望它能724小时不间断工作。前48小时运行良好，但在第72小时突然发现…...

编程新知 2026/4/8 2:25:57

在Ubuntu里同时安装mozc和sogoupinyin输入法的后续故事

好久没有玩Ubuntu了。最近小龙虾真的是如火如荼的，想凑个热闹，就把16年的电脑革掉，安装上了Ubuntu 22.04.5 LTS。安装完了才想起来，我这台老电脑压根就没有独显，电脑自己的本地龙虾，是铁定装不上了。龙虾的…...

编程新知 2026/4/7 23:47:00

基于多时间尺度的灵活性资源优化配置关键词：多时间尺度；模型预测控制；日内滚动优化； 1. 程序

基于多时间尺度的灵活性资源优化配置关键词：多时间尺度；模型预测控制；日内滚动优化； 1. 程序:matlab-yalmip-cplex 2.设备：以包含风力场、光伏电站、微型燃气轮机、蓄电池、余热锅炉、热泵、储热罐和电/热负荷的多能源…...

编程新知 2026/4/7 23:22:45

SIGMOD 2024论文解读：5篇向量检索新研究，从混合查询到Serverless数据库的实战启示

SIGMOD 2024向量检索技术实战指南：从混合查询到Serverless架构的工程化思考当我们在构建下一代智能应用时，向量检索技术已经从实验室走向了生产环境的核心位置。今年SIGMOD会议上发布的几篇重量级论文，为这个快速发展的领域注入了新的活力。…...

编程新知 2026/4/7 23:12:33

2025届学术党必备的五大降AI率工具推荐

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 现如今的学术环境里头，各种各样的AI内容检测系统正变得越发普及，为原…...

编程新知 2026/4/7 22:43:49

Fuel vs Retrofit：哪个才是Kotlin网络库的最佳选择？

Fuel vs Retrofit：哪个才是Kotlin网络库的最佳选择？ 【免费下载链接】fuel The easiest HTTP networking library for Kotlin/Android 项目地址: https://gitcode.com/gh_mirrors/fu/fuel Fuel是一款基于Kotlinx Coroutines的HTTP网络库&#xff…...

编程新知 2026/4/7 22:05:18

从零开始：使用URDF构建ROS机器人模型实战指南

1. URDF基础概念与准备工作第一次接触URDF时，我完全被那些XML标签搞懵了。直到后来才明白，URDF其实就是用XML语法给机器人"画图纸"——就像用乐高说明书描述每个零件的位置和连接方式。这里有个生活化的理解：如果把机器人比作人体…...

编程新知 2026/4/7 22:03:14

棒板电极流注放电与氩气等离子体仿真的COMSOL研究

棒板电极流注放电， COMSOL，氩气形成的贯穿流注氩气放电等离子体仿真。在高压实验室里见过那种细金属棒和接地板之间突然爆发的紫色放电吗？那玩意儿专业名称叫棒板电极流注放电。今天咱们用COMSOL扒开这朵"电火花"的外衣&#xff0…...

编程新知 2026/4/7 21:18:37

西门子S7-1200的PID三兄弟：PID_Compact、PID_3Step、PID_Temp到底该怎么选？看完这篇不再纠结

西门子S7-1200 PID三兄弟实战选型指南：从原理到场景化决策在工业自动化领域，温度、压力和流量等过程变量的精确控制始终是核心挑战。西门子S7-1200 PLC提供的三种PID控制指令——PID_Compact、PID_3Step和PID_Temp，就像三位各有所长的技术专…...

编程新知 2026/4/7 20:54:09

Transformer中的数据输入构造

文章目录

1. 文本内容

2. 字典构造

2.1 定义一个类用于字典构造

2.2 拆分文本

2.3 构造结果

3. 完整代码

相关文章：

Transformer中的数据输入构造

完美实现vue3异步加载组件

点云成图原理

如何将jsp项目转成springboot项目

C语言：环形链表

typescript综合练习1（展开音乐播放列表）

零基础入门学习Python第二阶02面向对象，迭代器生成器，并发编程

Unity | Shader基础知识(第十三集：编写内置着色器阶段总结和表面着色器的补充介绍)

JavaScript map对象/set对象详解

【kettle017】kettle访问DB2数据库并处理数据至execl文件（最近完善中）

Spring Cloud原理详解和作用特点

Linux —— 进程间通信

ASP.NET信息安全研究所设备管理系统的设计与实现

＜网络安全＞《81 微课堂＜安全产品微简介（1）＞》

【6D位姿估计】FoundationPose 跑通demo 训练记录

Python 中 “yield“ 的不同行为

迅睿CMS中实现关键词搜索高亮

晶振的精度与稳定性有什么关系？

【C】137 只出现一次的数字

51单片机入门：DS1302时钟

从谷歌官网下载谷歌浏览器并测试能否正常访问deepseek免注册版网址

OpenClaw稳定性提升：Qwen3-14B长时运行的内存泄漏排查

在Ubuntu里同时安装mozc和sogoupinyin输入法的后续故事

基于多时间尺度的灵活性资源优化配置关键词：多时间尺度；模型预测控制；日内滚动优化； 1. 程序

SIGMOD 2024论文解读：5篇向量检索新研究，从混合查询到Serverless数据库的实战启示

2025届学术党必备的五大降AI率工具推荐

Fuel vs Retrofit：哪个才是Kotlin网络库的最佳选择？

从零开始：使用URDF构建ROS机器人模型实战指南

棒板电极流注放电与氩气等离子体仿真的COMSOL研究

西门子S7-1200的PID三兄弟：PID_Compact、PID_3Step、PID_Temp到底该怎么选？看完这篇不再纠结