预训练语言模型实践笔记
Roberta
output_hidden_states=True和last_hidden_states和pooler_output
在使用像BERT或RoBERTa这样的transformer模型时,output_hidden_states
和last_hidden_state
是两个不同的概念。
-
output_hidden_states
: 这是一个布尔值,决定了模型是否应该返回所有隐藏层的输出。如果设置为True,模型将返回一个元组,其中包含每一层的隐藏状态。这对于某些任务(如特征提取或fine-tuning)可能是有用的,因为不同的隐藏层可能会捕获不同类型的信息。 -
last_hidden_state
: 这是模型的最后一个隐藏层的输出,通常用作下游任务的输入(如文本分类或命名实体识别)。这是模型的主要输出,通常包含了输入序列的高级表示。
在大多数情况下,您只需要last_hidden_state
。但是,如果您想要进行更深入的分析或实验,可以设置output_hidden_states=True
以获取所有隐藏层的输出。
在您的代码中,您已经正确地获取了最后一层的[CLS]
嵌入。这是通过以下代码行完成的:
result = out.last_hidden_state[:, 0]
这行代码从最后一个隐藏状态(即最后一层的输出)中获取了每个序列的第一个标记(即[CLS]
标记)的嵌入。
另一种方法是在模型配置中设置output_hidden_states=True
,然后从输出的隐藏状态列表中获取最后一层的[CLS]
嵌入。这将返回一个包含每一层隐藏状态的列表,您可以从中选择最后一层的[CLS]
嵌入。
以下是如何实现的示例:
from transformers import BertModel, BertTokenizer, BertConfig# Load pre-trained model tokenizer (vocabulary)
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')# Tokenize input
text = "[CLS] Who was Jim Henson ? [SEP] Jim Henson was a puppeteer [SEP]"
tokenized_text = tokenizer.tokenize(text)# Convert token to vocabulary indices
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)# Convert inputs to PyTorch tensors
tokens_tensor = torch.tensor([indexed_tokens])# Load pre-trained model (weights)
config = BertConfig.from_pretrained('bert-base-uncased', output_hidden_states=True)
model = BertModel.from_pretrained('bert-base-uncased', config=config)# Set the model in evaluation mode to deactivate the DropOut modules
model.eval()# Predict hidden states features for each layer
with torch.no_grad():outputs = model(tokens_tensor)# `outputs` is a tuple, we are interested in the third element which is all hidden states
all_hidden_states = outputs[2]# Get the last layer's [CLS] embedding
cls_embedding = all_hidden_states[-1][0, 0]
在这个例子中,cls_embedding
是一个形状为[hidden_size]
的张量,包含了最后一层的[CLS]
嵌入。
pooler_output
pooler_output
是一个变量,通常在自然语言处理(NLP)中,它是指经过池化(Pooling)操作后的输出。
在使用预训练的 Transformer 模型(如 BERT、RoBERTa 等)进行特征提取时,模型的每一层都会输出一个隐藏状态(Hidden State)张量,这个张量通常是 3D 的,其形状为 [batch_size, sequence_length, hidden_size]
。
然而,为了进行下游任务(如分类、序列标注等),我们通常需要将这个 3D 张量转换为 2D 张量。这就需要进行池化操作。最常见的池化操作是取每个序列的第一个隐藏状态(对应于 CLS 标记),或者对所有隐藏状态进行平均或最大化。这个池化后的输出就是 pooler_output
。
在 BERT 和 RoBERTa 等模型中,pooler_output
通常是取自每个序列的第一个隐藏状态,然后经过一个线性层和一个 Tanh 激活函数。其形状为 [batch_size, hidden_size]
,可以直接用于下游任务。
last_hidden_state
通常是一个三维张量,其形状为 [batch_size, sequence_length, hidden_size]
。
当我们执行 last_hidden_state[:, 0]
时(等价于last_hidden_state[:, 0,:]
,我们实际上是在获取每个批次中第一个序列的所有隐藏状态。这将返回一个二维张量,其形状为 [batch_size, hidden_size]
。
这个操作通常在 Transformer 模型(如 BERT、RoBERTa 等)中使用,其中每个序列的第一个隐藏状态(对应于特殊的 CLS 标记)被用作整个序列的代表,用于下游任务(如文本分类、情感分析等)。
last_hidden_state[:, 0, :] 和 last_hidden_state[:, 0]等价
是的,last_hidden_state[:, 0, :]
和 last_hidden_state[:, 0]
在这个上下文中是等价的。
在 Python 和 PyTorch 中,如果你在切片操作中省略了某个维度,那么将会选取该维度的所有数据。因此,last_hidden_state[:, 0]
实际上等价于 last_hidden_state[:, 0, :]
。
这两个表达式都是选取了 last_hidden_state
张量中每个批次的第一个序列的所有隐藏状态,返回的是一个二维张量,其形状为 [batch_size, hidden_size]
。
相关文章:
预训练语言模型实践笔记
Roberta output_hidden_statesTrue和last_hidden_states和pooler_output 在使用像BERT或RoBERTa这样的transformer模型时,output_hidden_states和last_hidden_state是两个不同的概念。 output_hidden_states: 这是一个布尔值,决定了模型是否应该返回所…...
Perl 哈希
Perl 哈希 Perl 哈希是一种强大的数据结构,用于存储键值对集合。它是 Perl 语言的核心特性之一,广泛应用于各种编程任务中。本文将详细介绍 Perl 哈希的概念、用法和最佳实践。 什么是 Perl 哈希? Perl 哈希是一种关联数组,其中…...
Linux之Mysql索引和优化
一、MySQL 索引 索引作为一种数据结构,其用途是用于提升数据的检索效率。 1、索引分类 - 普通索引(INDEX):索引列值可重复 - 唯一索引(UNIQUE):索引列值必须唯一,可以为NULL - 主键索引(PRIMARY KEY):索引列值必须唯一,不能为NULL,一个表只能有一个主键索引 - 全…...
springboot业务逻辑写在controller层吗
Spring Boot中的业务逻辑不应该直接写在Controller层。 在Spring Boot项目中,通常将业务逻辑分为几个层次,包括Controller层、Service层、Mapper层和Entity层。 1.其中,Controller层主要负责处理HTTP请求,通过注…...
Ubuntu 24.04 LTS 桌面安装MT4或MT5 (MetaTrader)教程
运行脚本即可在 Ubuntu 24.04 LTS Noble Linux 上轻松安装 MetaTrader 5 或 4 应用程序,使用 WineHQ 进行外汇交易。 MetaTrader 4 (MT4) 或 MetaTrader 5 是用于交易外汇对和商品的流行平台。它支持各种外汇经纪商、内置价格分析工具以及通过专家顾问 (EA) 进行自…...
Go基础编程 - 12 -流程控制
流程控制 1. 条件语句1.1. if...else 语句1.2. switch 语句1.3. select 语句1.3.1. select 语句的通信表达式1.3.2. select 的基特性1.3.3. select 的实现原理1.3.4. 经典用法1.3.4.1 超时控制1.3.4.2 多任务并发控制1.3.4.3 监听多通道消息1.3.4.4 default 实现非堵塞读写 2. …...
汽车信息安全--TLS,OpenSSL
目录 TLS相关知识 加密技术 对称加密 非对称加密 数字签名和CA 信任链 根身份证和自签名 双方TLS认证 加密和解密的性能 TLS相关知识 加密技术 TLS依赖两种加密技术 1. 对称加密(symmetric encryption) 2. 非对称加密(asymmetri…...
深入探索 SQL 中的 LIKE 右模糊匹配(LIKE RIGHT)与左模糊匹配(LIKE LEFT)
引言 在数据库操作中,LIKE 子句是执行模糊搜索的强大工具,用于匹配列中的数据与指定的模式。本文将详细介绍 LIKE 子句中的两种常用模式:右模糊匹配(LIKE RIGHT)和左模糊匹配(LIKE LEFT)&#…...
mybatis 多数据源 TDataSource required a single bean, but 2 were found
情况说明: 项目中本来就有一个数据源了,运行的好好的后来又合并了另一个项目,另一个项目也配置了数据源。 于是出现了如下错误: mybatis 多数据源 TDataSource required a single bean, but 2 were found 解决方法:…...
Dubbo SPI 之路由器
1. 背景介绍 Dubbo 是一个高性能的 Java RPC 框架,由阿里巴巴开源并广泛应用于分布式系统中。在 Dubbo 的架构中,SPI(Service Provider Interface)是一个关键组件,允许在运行时动态加载不同的服务实现。SPI 机制提供了…...
Python深度学习环境配置(Pytorch、CUDA、cuDNN),包括Anaconda搭配Pycharm的环境搭建以及基础使用教程(保姆级教程,适合小白、深度学习零基础入门)
全流程导览 一、前言二、基本介绍2.1全过程软件基本介绍2.1.1 Pytorch2.1.2 Anaconda2.1.3 Pycharm2.1.4 显卡GPU及其相关概念2.1.5 CUDA和cuDNN 2.2 各部分相互间的联系和安装逻辑关系 三、Anaconda安装3.1安装Anaconda3.2配置环境变量3.3检验是否安装成功 四、Pycharm安装五、…...
月影护眼大路灯怎么样?书客|月影|霍尼韦尔超硬核实力性能测评pk!
月影护眼大路灯怎么样?选到专业优质的护眼大路灯是真的可以使我们在用眼时减少疲劳感,达到护眼效果,但如果不慎买到劣质的护眼灯产品,不仅达不到健康的环境光,还越用越觉得眼睛疲劳感加重,在水深的护眼灯市…...
邮件安全篇:邮件传输加密(SSL/TLS or STATRTTLS)
1. 前言 使用过邮件客户端的同学一定见过下面这张图。这是客户端账号配置界面,里面有SSL、STARTTLS选项。刚接触邮件客户端的同学肯定会有这些疑问:什么是SSL?什么是STARTTLS?两者有什么区别?具体该如何选择呢&#x…...
【系统架构设计 每日一问】三 Redis支持事务么,Redis的事务如何保证
实际上,关于Redis事务的说法“Redis 的事务只能保证隔离性和一致性(I 和 C),无法保证原子性和持久性(A 和 D)”并不完全准确。下面我将分别解释Redis事务的四个特性:原子性(Atomicit…...
【中项】系统集成项目管理工程师-第4章 信息系统架构-4.3应用架构
前言:系统集成项目管理工程师专业,现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。 软考同样是国家人社部和工信部组织的国家级考试,全称为“全国计算机与软件专业技术资格(水平)考试”&…...
DasViewer打开Revit输出的fbx格式的模型,为啥一团黑?
答:这个应该是没有读取到贴图文件。贴图文件和obj文件需要在同级目录下面。 DasViewer是由大势智慧自主研发的免费的实景三维模型浏览器,采用多细节层次模型逐步自适应加载技术,让用户在极低的电脑配置下,也能流畅的加载较大规模实景三维模型,提供方便快捷的数据浏览操作。 免…...
【05】LLaMA-Factory微调大模型——初尝微调模型
上文【04】LLaMA-Factory微调大模型——数据准备介绍了如何准备指令监督微调数据,为后续的微调模型提供高质量、格式规范的数据支撑。本文将正式进入模型微调阶段,构建法律垂直应用大模型。 一、硬件依赖 LLaMA-Factory框架对硬件和软件的依赖可见以下…...
Training for Stable Diffusion
1.Training for Stable Diffusion 笔记来源: 1.Denoising Diffusion Probabilistic Models 2.最大似然估计(Maximum likelihood estimation) 3.Understanding Maximum Likelihood Estimation 4.How to Solve ‘CUDA out of memory’ in PyTorch 5.pytorch-stable-d…...
初学51单片机之指针基础与串口通信应用
开始之前推荐一个电路学习软件,这个软件笔者也刚接触。名字是Circuit有在线版本和不在线版本,这是笔者在B站看视频翻到的。 Paul Falstadhttps://www.falstad.com/这是地址。 离线版本在网站内点这个进去 根据你的系统下载你需要的版本红线的是windows…...
【启明智显分享】甲醛检测仪HMI方案:ESP32-S3方案4.3寸触摸串口屏,RS485、WIFI/蓝牙可选
今年,“串串房”一词频繁引发广大网友关注。“串串房”,也被称为“陷阱房”“贩子房”——炒房客以低价收购旧房子或者毛坯房,用极度节省成本的方式对房子进行装修,之后作为精修房高价租售,因甲醛等有害物质含量极高&a…...
Linux 驱动学习笔记
1、驱动程序分为几类? • 内核驱动程序(Kernel Drivers):这些是运行在操作系统内核空间的驱动程序,用于直接访问和控制硬件设备。它们提供了与硬件交互的底层功能,如处理中断、访问寄存器、数据传输等。 •…...
ip地址设置了重启又改变了怎么回事
在数字世界的浩瀚星海中,IP地址就如同每个设备的“身份证”,确保它们在网络中准确无误地定位与通信。然而,当我们精心为设备配置好IP地址后,却时常遭遇一个令人费解的现象:一旦设备重启,原本设定的IP地址竟…...
layui table 浮动操作内容收缩,展开
layui table 隐藏浮动操作内容 fixed: right, style:, title: 操作,align:left, minWidth: 450, toolbar:#id分析: 浮动一块新增一个class layui-table-fixed-r 可以隐藏整块内容进行,新增一个按钮点击时间,然后进行收缩和展开 $(‘.layui-…...
Ubuntu24.04 NFS 服务配置
1、NFS 介绍 NFS 是 Network FileSystem 的缩写,顾名思义就是网络文件存储系统,它允许网络中的计算机之间通过 TCP/IP 网络共享资源。通过 NFS,我们本地 NFS 的客户端应用可以透明地读写位于服务端 NFS 服务器上的文件,就像访问本…...
vue3使用html2canvas
安装 yarn add html2canvas 代码 <template><div class"container" ref"container"><div class"left"><img :src"logo" alt"" class"logo"><h2>Contractors pass/承包商通行证&l…...
OpenCV分水岭算法watershed函数的使用
操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 描述 我们将学会使用基于标记的分水岭算法来进行图像分割。我们将看到:watershed()函数的用法。 任何灰度图像都可以被视为一个地形表…...
laravel为Model设置全局作用域
如果一个项目中存在这么一个sql条件在任何情况下或大多数情况都会被使用,同时很容易被开发者遗忘,那么就非常适用于今天要提到的这个功能,Eloquent\Model的全局作用域。 首先看一个示例,有个数据表,结构如下࿱…...
Leetcode之string
目录 前言1. 字符串相加2. 仅仅反转字母3. 字符串中的第一个唯一字符4. 字符串最后一个单词的长度5. 验证回文串6. 反转字符串Ⅱ7. 反转字符串的单词Ⅲ8. 字符串相乘9. 打印日期 前言 本篇整理了一些关于string类题目的练习, 希望能够学以巩固. 博客主页: 酷酷学!!! 点击关注…...
OS:处理机进程调度
1.BackGround:为什么要进行进程调度? 在多进程环境下,内存中存在着多个进程,其数目往往多于处理机核心数目。这就要求系统可以按照某种算法,动态的将处理机CPU资源分配给处于就绪状态的进程。调度算法的实质其实是一种…...
【车辆轨迹处理】python实现轨迹点的聚类(一)——DBSCAN算法
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、单辆车轨迹的聚类与分析1.引入库2.聚类3.聚类评价 二、整个数据集多辆车聚类1.聚类2.整体评价 前言 空间聚类是基于一定的相似性度量对空间大数据集进行分组…...
沧州做网站公司/腾讯广点通广告投放平台
在Windows上开发桌面应用程序最快的方式无疑是使用C#,前有WinForm现有WPF,都是很好的开发框架,不管是MFC还是QT总还是复杂了一些。但是C#有一个最最大的缺点,就是没办法避免反编译,虽然我也经常反编译别人程序…...
公司网站首页布局图/买友情链接
文章目录前言一、推视频流1.sps、pps2.视频帧二、推音频流1.音频帧三、完整推流1.实时流总结前言 librtmp可以用于推rtmp流,有时候我们需要将采集的摄像头或桌面的视频数据以及麦克风的音频数据推流出去,这时候就需要使用librtmp的推流功能了࿰…...
泰州网站建设 思创/百度推广助手怎么用
LNMP由于 Nginx 轻量与高效的性能,Linux Nginx Mysql PHP 的部署模式,被更多的应用于 PHP 的开发与生产环境中。本文介绍 Nginx php-fpm 的部署模式的安装与配置过程,先介绍下几个概念cgi 是 web 服务器如 Apache、Nginx 等与 php 解释器…...
wordpress ecshop/全国十大跨境电商排名
榜单解读: 2021年12月影音娱乐行业上榜的20个视频号共发布作品2518个,平均点赞数70143个, 平均转发数46761个,平均评论数2076个。 依据榜单可知:1)从作品数来看,12月影音娱乐行业上榜的20个视频…...
辽阳网站建设企业/淘宝搜索关键词查询工具
2017年福建省银行招聘考试计算机学:红头文件的制作及标准试题本卷共分为1大题50小题,作答时间为180分钟,总分100分,60分及格。一、单项选择题(共50题,每题2分。每题的备选项中,只有一个最符合题意)1.在Word…...
南宁网站制作超薄网络/建站abc
在做开源项目的时候,想传一个gif效果图上去。但是,要有连贯的动画效果。所以,就想到先录制视频,然后视频转gif。但是,用第三录屏软件总是不完美。那么,怎么办呢?android4.4 提供了自带录屏工具&…...