当前位置：首页 > news >正文

【NLP 20、Encoding编码和 Embedding嵌入】

news 2026/2/8 5:54:39

目录

一、核心定义与区别

二、常见Encoding编码

(1) 独热编码（One-Hot Encoding）

(2) 位置编码（Positional Encoding）

(3) 标签编码（Label Encoding）

(4) 注意事项

三、常见Embedding词嵌入

(1) 基础词嵌入（nn.Embedding）

(2) 预训练嵌入（from_pretrained）

(3) 类别特征嵌入（自定义类）

(4) 注意事项

四、对比总结

五、编码与嵌入的联合使用

总结

新年快乐，这几天将之前做的笔记整理了一下，补充了一点，正式开始学习！

—— 24.2.4

一、核心定义与区别

特性	Encoding（编码）	Embedding（嵌入）
目标	将数据转换为特定格式（如数值、二进制、位置信息等），以满足模型输入要求。	将离散符号（如单词、类别）映射到低维连续向量空间，捕捉语义或结构关系。
数学形式	通常为确定性规则或固定函数（如独热编码、位置编码）。	通过可学习的参数矩阵（如神经网络中的嵌入层）生成。
维度	维度可能较高（如独热编码的维度等于类别数量）。	维度固定且较低（如词嵌入常用 100~1000 维）。
可训练性	不可训练（静态规则）。	可训练（通过反向传播优化）。
应用场景	数据预处理、位置信息编码、分类标签处理。	词向量表示、类别特征嵌入、图节点表示。

二、常见Encoding编码

(1) 独热编码（One-Hot Encoding）

定义：将离散类别映射为二进制向量，仅一个位置为1，其余为0。
注意：

独热编码 使用 torch.nn.functional.one_hot，注意设置 num_classes 参数。
示例：

# 类别：["猫", "狗", "鸟"]
"猫" → [1, 0, 0]
"狗" → [0, 1, 0]
"鸟" → [0, 0, 1]

缺点：维度爆炸（高维稀疏），无法表达类别间关系。

参数	类型	描述	是否必需	默认值
`tensor`	`torch.Tensor`	输入的整数类别索引张量（如 `[0, 2, 1]`）	是	-
`num_classes`	`int`	类别总数（决定输出维度）	是	-

(2) 位置编码（Positional Encoding）

定义：为序列数据（如文本、时间序列）添加位置信息，常用正弦/余弦函数生成。
注意：

位置编码 自定义生成矩阵后叠加到词嵌入上，需与输入张量形状匹配。
Transformer 中的公式：

参数	类型	描述	是否必需	默认值
`max_seq_len`	`int`	最大序列长度（决定编码矩阵的行数）	是	-
`d_model`	`int`	特征维度（决定编码矩阵的列数）	是

(3) 标签编码（Label Encoding）

定义：将类别映射为整数（如 "红"→0, "蓝"→1, "绿"→2），但可能引入错误的大小关系。

(4) 注意事项

独热编码的输入限制：
- 输入张量必须是整数类型（如 torch.long）。
- 索引值必须小于 num_classes，否则会越界。
位置编码的叠加方式：
- 需与词嵌入维度一致（d_model），且直接相加前确保形状匹配。

独热编码	`num_classes`	控制输出维度，避免索引越界
位置编码	`max_seq_len`, `d_model`	定义编码矩阵的尺寸和特征维度

三、常见Embedding词嵌入

(1) 基础词嵌入（`nn.Embedding`）

nn.Embedding()模块

注意：

词嵌入 使用 nn.Embedding 层，输入为整数索引张量，输出为浮点数向量。

embedding_layer = nn.Embedding(num_embeddings=10000, embedding_dim=300)

参数	类型	描述	是否必需	默认值
`num_embeddings`	`int`	词汇表大小（唯一符号数量）	是	-
`embedding_dim`	`int`	嵌入向量的维度	是	-
`padding_idx`	`int`	填充符索引（对应向量初始化为零）	否	`None`
`max_norm`	`float`	向量最大范数（超过时缩放）	否	`None`
`scale_grad_by_freq`	`bool`	根据词频缩放梯度（罕见词更大更新）	否	`False`

import torch.nn as nn# 定义嵌入层：词汇表大小=10000，嵌入维度=300
embedding_layer = nn.Embedding(num_embeddings=10000, embedding_dim=300)# 输入：单词索引（形状 [batch_size, seq_len]）
input_ids = torch.LongTensor([[1, 22, 45], [3, 8, 2]])  # 示例输入# 获取词嵌入向量
embeddings = embedding_layer(input_ids)  # 输出形状 [2, 3, 300]

(2) 预训练嵌入（`from_pretrained`）

nn.Embedding.from_pretrained()

注意：

预训练嵌入 通过 from_pretrained 加载，freeze=True 可固定嵌入参数（适用于迁移学习）。

pretrained_emb = nn.Embedding.from_pretrained(glove.vectors, freeze=True)

参数	类型	描述	是否必需	默认值
`embeddings`	`torch.Tensor`	预训练嵌入矩阵（形状 `[num_emb, dim]`）	是	-
`freeze`	`bool`	是否冻结参数（不更新）	否	`True`
`padding_idx`	`int`	同基础 `nn.Embedding`	否	`None`
`max_norm`	`float`	同基础 `nn.Embedding`	否	`None`

如GloVe：

from torchtext.vocab import GloVe# 加载预训练的 GloVe 词向量
glove = GloVe(name='6B', dim=100)  # 使用 100 维的 GloVe# 获取单词 "apple" 的向量
apple_vector = glove['apple']  # 形状 [100]# 将预训练向量转换为嵌入层
pretrained_emb = nn.Embedding.from_pretrained(glove.vectors, freeze=False)  # freeze=True 表示不更新

(3) 类别特征嵌入（自定义类）

CategoryEmbedding

user_embedding = CategoryEmbedding(num_categories=1000, embedding_dim=64)

参数	类型	描述	是否必需	默认值
`num_categories`	`int`	类别总数（如用户数、商品数）	是	-
`embedding_dim`	`int`	嵌入向量的维度	是	-

注意：

类别嵌入

将高基数类别（如用户ID）映射为低维向量，避免维度爆炸。

import torch.nn as nnclass CategoryEmbedding(nn.Module):def __init__(self, num_categories, embedding_dim):super().__init__()self.embedding = nn.Embedding(num_categories, embedding_dim)def forward(self, category_ids):return self.embedding(category_ids)# 示例：用户ID嵌入（假设有 1000 个用户）
user_embedding = CategoryEmbedding(num_categories=1000, embedding_dim=64)
user_ids = torch.tensor([5, 12, 8])  # 输入用户ID
embedded_users = user_embedding(user_ids)  # 形状 [3, 64]

(4) 注意事项

嵌入层的输入要求：
- nn.Embedding 的输入为整数索引，非浮点数。
预训练嵌入的兼容性：
- 加载预训练向量时，需确保 num_embeddings 和 embedding_dim 与预训练矩阵一致。

基础词嵌入	`num_embeddings`, `embedding_dim`	决定嵌入层的输入输出维度
预训练嵌入	`embeddings`, `freeze`	加载外部知识，控制参数更新
类别嵌入	`num_categories`, `embedding_dim`	处理高基数离散特征，避免维度灾难

四、对比总结

维度	Encoding	Embedding
语义保留	无（仅符号化）	高（捕捉语义相似性）
计算开销	低（静态计算）	高（需训练参数）
灵活性	固定规则	可自适应任务优化
典型应用	数据预处理、位置编码	词向量、推荐系统、图表示学习

场景	推荐方法
类别特征且维度低	独热编码（简单高效）
类别特征维度高（如用户ID）	嵌入（避免维度灾难）
序列位置信息	位置编码（如 Transformer）
需要捕捉语义相似性	嵌入（如词向量）
计算资源有限	优先选择静态编码（如哈希编码）

五、编码与嵌入的联合使用

在 Transformer 中，词嵌入和位置编码共同构成输入表示：

参数	类型	描述	是否必需	默认值
`vocab_size`	`int`	词汇表大小（词嵌入参数）	是	-
`d_model`	`int`	特征维度（词嵌入和位置编码共享）	是	-
`max_seq_len`	`int`	最大序列长度（位置编码参数）	是	-

import torch
import torch.nn as nnclass TransformerInput(nn.Module):def __init__(self, vocab_size, d_model, max_seq_len):super().__init__()self.token_embedding = nn.Embedding(vocab_size, d_model)self.position_encoding = self._generate_position_encoding(max_seq_len, d_model)def _generate_position_encoding(self, max_len, d_model):position = torch.arange(max_len).unsqueeze(1)div_term = torch.exp(torch.arange(0, d_model, 2) * (-math.log(10000.0) / d_model))pe = torch.zeros(max_len, d_model)pe[:, 0::2] = torch.sin(position * div_term)pe[:, 1::2] = torch.cos(position * div_term)return pe  # 形状: [max_len, d_model]def forward(self, x):# x: [batch_size, seq_len]token_emb = self.token_embedding(x)  # [batch_size, seq_len, d_model]seq_len = x.size(1)positions = self.position_encoding[:seq_len, :]  # [seq_len, d_model]return token_emb + positions  # [batch_size, seq_len, d_model]

总结

Encoding 是广义的数据转换方式，强调格式兼容性（如独热编码、位置编码）。
Embedding 是特殊的编码方法，通过可学习的低维向量捕捉语义信息（如词嵌入）。
两者常结合使用（如 Transformer 中的词嵌入+位置编码），分别处理不同维度的信息。

【NLP 20、Encoding编码和 Embedding嵌入】

目录一、核心定义与区别二、常见Encoding编码 (1) 独热编码（One-Hot Encoding） (2) 位置编码（Positional Encoding） (3) 标签编码（Label Encoding） (4) 注意事项三、常见Embedding词嵌入 (1) 基础词嵌入…...

编程日记 2025/2/5 17:23:46

雷赛LC2000

【一，概述】这个是中型PLC 【二，外观】网口编号： 【2】【3】 //默认ip：192.168.1.xxx 【0】【1】可视化授权不如禾川Q系。【三，总线轴】因为本次带的轴是台达A2系列伺服 A2最快总线是【1ms】的倍数…...

编程日记 2025/2/5 17:22:45

ESP32开发工具介绍：Thonny——初学者的MicroPython利器

文章目录引言什么是 Thonny？为什么选择 Thonny 开发 ESP32？1. **MicroPython 的天然支持**2. **极简的配置流程**3. **适合快速原型开发**如何用 Thonny 开发 ESP32？步骤 1：准备工作步骤 2：烧录 MicroPython 固件步骤 3：在 Thonny 中连接 ESP32步骤 4：编写并运行代码Th…...

编程日记 2025/2/5 17:21:43

【Go语言圣经】第六节：方法

第六章：方法 6.1 方法声明在函数声明时，在其名字之前放上一个变量，这就是声明了变量对应类型的一个方法，相当于为这种类型定义了一个独占的方法。下例为 Point 类型声明了计算两个点之间距离的方法： package mai…...

编程日记 2025/2/5 17:20:41

【Leetcode刷题记录】45. 跳跃游戏 II--贪心算法

45. 跳跃游戏 II 给定一个长度为 n 的 0 索引整数数组 nums。初始位置为 nums[0]。每个元素 nums[i] 表示从索引 i 向后跳转的最大长度。换句话说，如果你在 nums[i] 处，你可以跳转到任意 nums[i j] 处: 0 < j < nums[i]i j < n 返回到达 num…...

编程日记 2025/2/5 17:10:29

mysql_init和mysql_real_connect的形象化认识

解析总结 1. mysql_init 的作用 mysql_init 用于初始化一个 MYSQL 结构体，为后续数据库连接和操作做准备。该结构体存储连接配置及状态信息，是 MySQL C API 的核心句柄。示例： MYSQL *conn mysql_init(NULL); // 初始化连接句柄2. mysql_…...

编程日记 2025/2/5 17:04:16

Qt网络相关

“ 所有生而孤独的人，葆有的天真 ” 为了⽀持跨平台, QT对⽹络编程的 API 也进⾏了重新封装。本章会上手一套基于QT的网络通信编写。 UDP Socket 在使用Qt进行网络编程前，需要在Qt项目中的.pro文件里添加对应的网络模块( network ). QT core gui net…...

编程日记 2025/2/5 17:03:12

deepseek接入pycharm 进行AI编程

要将DeepSeek接入PyCharm进行AI编程，可以按照以下步骤操作： ### 1. 获取DeepSeek API访问权限 DeepSeek通常以API的形式对外提供服务，你需要在其官方网站注册账号，申请API访问权限。在申请通过后，会获得API密钥（API Key），这是后续调用API的关键凭证。 ### 2. 安装必要…...

编程日记 2025/2/5 16:52:54

Verilog基础（三）：过程

过程(Procedures) - Always块 – 组合逻辑 (Always blocks – Combinational) 由于数字电路是由电线相连的逻辑门组成的，所以任何电路都可以表示为模块和赋值语句的某种组合. 然而，有时这不是描述电路最方便的方法. 两种always block是十分有用的&am…...

编程日记 2025/2/5 16:41:41

生成式AI安全最佳实践 - 抵御OWASP Top 10攻击 (上)

今天小李哥将开启全新的技术分享系列，为大家介绍生成式AI的安全解决方案设计方法和最佳实践。近年来，生成式 AI 安全市场正迅速发展。据 IDC 预测，到 2025 年全球 AI 安全解决方案市场规模将突破 200 亿美元，年复合增长率超过 30%…...

编程日记 2025/2/5 16:39:36

.Net WebAPI -[HttpPut(“{fileServiceId:int}“)]

[HttpPut("{fileServiceId:int}")] 这个写法是 ASP.NET Core 中的一个路由特性，用于定义一个 HTTP PUT 请求的路由，并指定路由参数的类型。解析 HttpPut [HttpPut]： 这是一个 ASP.NET Core 的路由特性，用于标记一个方…...

编程日记 2025/2/5 16:28:21

[EAI-027] RDT-1B，目前最大的用于机器人双臂操作的机器人基础模型

Paper Card 论文标题：RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 论文作者：Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, Jun Zhu 论文链接：https://arxiv.org/ab…...

编程日记 2025/2/5 16:26:18

C基础寒假练习(7)

一、有 1、2、3、4个数字，能组成多少互不相同且无重复的三位？ 都是多少？ #include <stdio.h> int main() {// 定义数字数组int digits[] {1, 2, 3, 4};int n sizeof(digits) / sizeof(digits[0]);// 嵌套循环遍历所有排列for (int …...

编程日记 2025/2/5 16:23:14

Ajax：重塑Web交互体验的人性化探索

在数字化时代，网页的交互性和响应速度已成为衡量用户体验的关键指标。Ajax（Asynchronous JavaScript and XML），作为前端与后端沟通的桥梁，凭借其异步通信的能力，极大地提升了网页的动态性和用户友好度&…...

编程日记 2025/2/5 16:22:12

【DeepSeek背后的技术】系列二：大模型知识蒸馏（Knowledge Distillation）

目录 1 引言2 操作步骤和公式说明2.1 准备教师模型（Teacher Model）和学生模型（Student Model）2.2 生成软标签（Soft Labels）2.3 定义蒸馏损失函数2.4 训练学生模型2.5 调整超参数2.6 评估与部署 3 其他知识蒸…...

编程日记 2025/2/5 16:17:05

【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】2.14 内存映射：处理超大型数组的终极方案

2.14 内存映射：处理超大型数组的终极方案目录 #mermaid-svg-G91Kn9O4eN2k8xEo {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-G91Kn9O4eN2k8xEo .error-icon{fill:#552222;}#mermaid-svg-G91Kn9O4eN2k…...

编程日记 2025/2/5 16:12:54

【C++】STL——vector的使用

目录 💕1.vector介绍 💕2.vector的基本用法 💕3.vector功能的具体用法 （讲解） 💕4.vector——size，capacity函数的使用 （简单略讲） 💕5.resize&#xff…...

编程日记 2025/2/5 16:11:52

springboot/ssm互联网智慧医院体检平台web健康体检管理系统Java代码编写

springboot/ssm互联网智慧医院体检平台web健康体检管理系统Java代码编写基于springboot(可改ssm)vue项目开发语言：Java 框架：springboot/可改ssm vue JDK版本：JDK1.8（或11） 服务器：tomcat 数据库&am…...

编程日记 2025/2/5 16:08:49

介绍一下Mybatis的Executor执行器

Executor执行器是用来执行我们的具体的SQL操作的有三种基本的Executor执行器： SimpleExecutor简单执行器每执行一次update或select，就创建一个Statement对象，用完立刻关闭Statement对象 ReuseExecutor可重用执行器可重复利用Statement…...

编程日记 2025/2/5 16:07:47

Wide Deep 模型：记忆能力与泛化能力

实验和完整代码完整代码实现和jupyter运行：https://github.com/Myolive-Lin/RecSys--deep-learning-recommendation-system/tree/main 引言 Wide & Deep 模型是一种结合了线性模型（Wide）和深度神经网络（Deep）的混…...

编程日记 2025/2/5 16:06:47

关于iview组件中使用 table , 绑定序号分页后序号从1开始的解决方案

问题描述：iview使用table 中type: "index",分页之后 ，索引还是从1开始，试过绑定后台返回数据的id, 这种方法可行，就是后台返回数据的每个页面id都不完全是按照从1开始的升序，因此百度了下，找到了…...

编程新知 2026/1/29 20:58:41

VTK如何让部分单位不可见

最近遇到一个需求，需要让一个vtkDataSet中的部分单元不可见，查阅了一些资料大概有以下几种方式 1.通过颜色映射表来进行，是最正规的做法 vtkNew<vtkLookupTable> lut; //值为0不显示，主要是最后一个参数，透明度…...

编程新知 2025/12/12 4:55:21

docker 部署发现spring.profiles.active 问题

报错： org.springframework.boot.context.config.InvalidConfigDataPropertyException: Property spring.profiles.active imported from location class path resource [application-test.yml] is invalid in a profile specific resource [origin: class path re…...

编程新知 2025/9/20 12:14:18

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

上一章用到了V2 的概念，其实 Fiori当中还有 V4，咱们这一章来总结一下 V2 和 V4。 SAP学习笔记 - 开发25 - 前端Fiori开发 Remote OData Service(使用远端Odata服务)，代理中间件（ui5-middleware-simpleproxy）-CSDN博客…...

编程新知 2026/2/3 8:20:06

人机融合智能 | “人智交互”跨学科新领域

本文系统地提出基于“以人为中心AI(HCAI)”理念的人-人工智能交互(人智交互)这一跨学科新领域及框架,定义人智交互领域的理念、基本理论和关键问题、方法、开发流程和参与团队等,阐述提出人智交互新领域的意义。然后,提出人智交互研究的三种新范式取向以及它们的意义。最后,总结…...

编程新知 2026/1/25 13:33:35

R 语言科研绘图第 55 期 --- 网络图-聚类

在发表科研论文的过程中，科研绘图是必不可少的，一张好看的图形会是文章很大的加分项。为了便于使用，本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中，获取方式： R 语言科研绘图模板 --- sciRplothttps://mp.…...

编程新知 2026/1/30 2:34:31

论文阅读：Matting by Generation

今天介绍一篇关于 matting 抠图的文章，抠图也算是计算机视觉里面非常经典的一个任务了。从早期的经典算法到如今的深度学习算法，已经有很多的工作和这个任务相关。这两年 diffusion 模型很火，大家又开始用 diffusion 模型做各种 CV 任务了&am…...

编程新知 2026/1/27 19:36:39

React从基础入门到高级实战：React 实战项目 - 项目五：微前端与模块化架构

React 实战项目：微前端与模块化架构欢迎来到 React 开发教程专栏的第 30 篇！在前 29 篇文章中，我们从 React 的基础概念逐步深入到高级技巧，涵盖了组件设计、状态管理、路由配置、性能优化和企业级应用等核心内容。这一次&…...

编程新知 2025/10/18 20:50:06

32位寻址与64位寻址

32位寻址与64位寻址 32位寻址是什么？ 32位寻址是指计算机的CPU、内存或总线系统使用32位二进制数来标识和访问内存中的存储单元（地址），其核心含义与能力如下： 1. 核心定义地址位宽：CPU或内存控制器用32位…...

编程新知 2025/9/26 20:18:15

react更新页面数据，操作页面，双向数据绑定

// 路由不是组件的直接跳转use client，useEffect，useRouter，需3个结合， use client表示客户端 use client; import { Button,Card, Space,Tag,Table,message,Input } from antd; import { useEffect,useState } from react; impor…...

编程新知 2026/1/31 6:40:35

一、核心定义与区别

二、常见Encoding编码

(1) 独热编码（One-Hot Encoding）

(2) 位置编码（Positional Encoding）

(3) 标签编码（Label Encoding）

(4) 注意事项

三、常见Embedding词嵌入

(1) 基础词嵌入（nn.Embedding）

(2) 预训练嵌入（from_pretrained）

(3) 类别特征嵌入（自定义类）

(4) 注意事项

四、对比总结

五、编码与嵌入的联合使用

总结

相关文章：

(1) 基础词嵌入（`nn.Embedding`）

(2) 预训练嵌入（`from_pretrained`）