当前位置: 首页 > news >正文

大型语言模型:SBERT — Sentence-BERT

@slavahead

一、介绍

        Transformer 在 NLP 方面取得了进化进步,这已经不是什么秘密了。基于转换器,许多其他机器学习模型已经发展起来。其中之一是BERT,它主要由几个堆叠的变压器编码器组成。除了用于情感分析或问答等一系列不同的问题外,BERT在构建词嵌入(表示词的语义含义的数字向量)方面也越来越受欢迎。

        以嵌入的形式表示单词具有巨大的优势,因为机器学习算法不能处理原始文本,但可以对向量的向量进行操作。这允许通过使用欧几里得或余弦距离等标准度量来比较不同单词的相似性。

        问题在于,在实践中,我们经常需要构造嵌入,而不是为单个单词,而是为整个句子。但是,基本的 BERT 版本仅在单词级别上构建嵌入。因此,后来开发了几种类似 BERT 的方法来解决此问题,本文将对此进行讨论。通过逐步讨论它们,我们将达到称为 SBERT 的最先进的模型。

为了深入了解 SBERT 在后台的工作原理,建议您已经熟悉 BERT。如果没有,本系列文章的前一部分将对此进行详细解释。

二、Bert

首先,让我们提醒一下 BERT 如何处理信息。作为输入,它采用一个 [CLS] 令牌和两个句子,由一个特殊的 [SEP] 标记分隔。根据型号配置,多头注意力块会处理 12 或 24 次此信息。然后,将输出聚合并传递到简单的回归模型以获取最终标签。

BERT架构

有关 BERT 内部工作原理的更多信息,您可以参考本系列文章的前一部分:

2.1 交叉编码器架构

可以使用BERT来计算一对文档之间的相似性。考虑在大型集合中查找最相似的句子对的目标。为了解决这个问题,每个可能的对都被放在BERT模型中。这会导致推理过程中的二次复杂度。例如,处理 n = 10 000 个句子需要 n * (n — 1) / 2 = 49 995 000 次推理 BERT 计算,这实际上不可扩展。

2.2 其他方法

分析交叉编码器架构的低效率,为每个句子独立预计算嵌入似乎是合乎逻辑的。之后,我们可以直接计算所有文档对上所选的距离度量,这比将二次数的句子对提供给 BERT 要快得多。

不幸的是,这种方法在BERT中是不可能的:BERT的核心问题是,每次同时传递和处理两个句子时,很难获得仅独立表示单个句子的嵌入。

研究人员试图通过使用 [CLS] 标记嵌入的输出来消除这个问题,希望它包含足够的信息来表示一个句子。然而,事实证明,[CLS]对这项任务根本没有用,因为它最初是在BERT中预先训练的,用于下一个句子预测。

另一种方法是将单个句子传递给 BERT,然后对输出标记嵌入进行平均。然而,获得的结果甚至比简单地平均GLoVe嵌入还要糟糕。

推导独立的句子嵌入是BERT的主要问题之一。为了缓解这一方面,开发了SBERT。

三、SBERT

SBERT 引入了连体网络概念,这意味着每次两个句子通过同一个 BERT 模型独立传递。在讨论 SBERT 架构之前,让我们先看一下关于连体网络的一个微妙的注释:

大多数时候,在科学论文中,暹罗网络架构被描述为几个模型接收如此多的输入。实际上,可以将其视为具有相同配置和权重的单个模型,这些配置和权重在多个并行输入之间共享。每当为单个输入更新模型权重时,它们也会为其他输入同样更新。

左边是非连体(交叉编码器)架构,右边是连体(双编码器)架构。主要区别在于,在左侧,模型同时接受两个输入。在右侧,模型并行接受两个输入,因此两个输出不相互依赖。

回到 SBERT,在通过 BERT 传递句子后,将池化层应用于 BERT 嵌入以获得其低维表示:最初的 512 个 768 维向量被转换为单个 768 维向量。对于池化层,SBERT的作者建议选择均值池化层作为默认层,尽管他们也提到可以使用最大池化策略,或者简单地采用[CLS]令牌的输出。

当两个句子都通过池化层时,我们有两个 768 维向量 u 和 v。通过使用这两个向量,作者提出了三种优化不同目标的方法,这些方法将在下面讨论。

3.1 分类目标函数

        此问题的目标是在几个类之一中正确地对给定的一对句子进行分类。

        在生成嵌入 u 和 v 之后,研究人员发现生成从这两个源得出的另一个向量作为元素绝对差 |u-v| 是有用的。他们还尝试了其他特征工程技术,但这种技术显示出最好的结果。

        最后,将三个向量 uv 和 |u-v| 连接起来,乘以可训练的权重矩阵 W,并将乘法结果输入 softmax 分类器,该分类器输出对应于不同类的句子的归一化概率。交叉熵损失函数用于更新模型的权重。

        用于分类目标的 SBERT 架构。参数 n 代表嵌入的维度(默认为 768 作为 BERT base),而 k 表示标签的数量。

      NLI(自然语言推理)是用于解决该目标的最流行的现有问题之一,其中对于定义假设和前提的给定句子 A 和 B 对,有必要预测假设是真(蕴涵)、假(矛盾)还是未确定(中性)给定前提。对于此问题,推理过程与训练相同。

        如本文所述,SBERT模型最初是在SNLI和MultiNLI两个数据集上训练的,这两个数据集包含一百万个句子对,具有相应的标签蕴涵矛盾中性。之后,论文研究人员提到了有关SBERT调谐参数的细节:

“我们用一个 3 分 softmax 分类器目标函数对 SBERT 进行微调,用于一个时期。我们使用了 16 个批处理大小、学习率为 2e−5 的 Adam 优化器,以及超过 10% 的训练数据的线性学习率预热。我们默认的池化策略是卑鄙的。

3.2 回归目标函数

        在此公式中,在获得向量 u 和 v 后,它们之间的相似性分数由所选的相似性指标直接计算。将预测的相似度分数与真实值进行比较,并使用 MSE 损失函数更新模型。默认情况下,作者选择余弦相似度作为相似度指标。

回归目标的SBERT架构。参数 n 代表嵌入的维数(默认为 768 作为 BERT 基数)。

在推理过程中,可以通过以下两种方式之一使用此体系结构:

  • 通过给定的句子对,可以计算相似度分数。推理工作流与训练完全相同。
  • 对于给定的句子,可以提取其句子嵌入(在应用池化层之后)以供以后使用。当我们得到大量句子以计算它们之间的成对相似性分数时,这特别有用。通过仅通过 BERT 运行每个句子一次,我们提取了所有必要的句子嵌入。之后,我们可以直接计算所有向量之间选择的相似度指标(毫无疑问,它仍然需要二次比较,但同时我们避免了像以前那样使用 BERT 进行二次推理计算)。

3.3 三重目标函数

        三元组目标引入了三元组损失,该损失由三个句子计算,通常称为。假设锚句和肯定句彼此非常接近,而句和否定句则非常不同。在训练过程中,模型会评估对(锚,正)与对(锚,负)相比的接近程度。在数学上,以下损失函数最小化:

原始论文中的三元组损失函数。变量 sₐ、sp、sn 分别表示锚嵌入、正嵌入和负嵌入。符号 ||小号||是向量 s 的范数。参数 ε 称为边距。

边距 ε 确保肯定句比否定句更接近锚点至少ε。否则,损失将大于 0。默认情况下,在此公式中,作者选择欧几里得距离作为向量范数,参数 ε 设置为 1。

三元组 SBERT 架构与前两个架构的不同之处在于,该模型现在并行接受三个输入语句(而不是两个)。

回归目标的SBERT架构。参数 n 代表嵌入的维数(默认为 768 作为 BERT 基数)。

四、代码

SentenceTransformers 是一个最先进的 Python 库,用于构建句子嵌入。它包含用于不同任务的多个预训练模型。使用 SentenceTransformer 构建嵌入很简单,下面的代码片段中显示了一个示例。

使用 SentenceTransformer 构造嵌入

        然后,构造的嵌入可用于相似性比较。每个模型都是针对特定任务进行训练的,因此通过参考文档选择适当的相似度指标进行比较始终很重要。

五、结论

        我们已经介绍了一种用于获取句子嵌入的高级 NLP 模型。通过将 BERT 推理执行的二次次数减少到线性,SBERT 在保持高精度的同时实现了速度的大幅增长。

        为了最终理解这种差异有多显着,参考论文中描述的例子就足够了,研究人员试图在n = 10000个句子中找到最相似的一对。在现代 V100 GPU 上,使用 BERT 时此过程大约需要 65 小时,使用 SBERT 时只需 5 秒!这个例子表明 SBERT 是 NLP 的巨大进步。

相关文章:

大型语言模型:SBERT — Sentence-BERT

slavahead 一、介绍 Transformer 在 NLP 方面取得了进化进步,这已经不是什么秘密了。基于转换器,许多其他机器学习模型已经发展起来。其中之一是BERT,它主要由几个堆叠的变压器编码器组成。除了用于情感分析或问答等一系列不同的问题外&#…...

高效编写软件测试报告的关键技巧

引言: 软件测试报告是测试团队与开发团队之间沟通的重要工具,它记录了测试过程中的发现、问题和建议。一个清晰、准确、高效的软件测试报告可以帮助开发团队更好地理解测试结果,并及时修复问题。本文将介绍一些高效编写软件测试报告的关键技巧…...

编写CI/CD自动化部署脚本

编写CI/CD自动化部署脚本 什么是CI/CD CI/CD 是现代软件开发过程中的关键实践,它包含两个缩写: CI,或者持续集成(Continuous Integration)CD,可以指持续交付(Continuous Delivery&#xff09…...

Pandas实践_分类数据

文章目录 一、cat对象1.cat对象的属性2.类别的增加、删除和修改 二、有序分类1.序的建立2.排序和比较 三、区间类别1.利用cut和qcut进行区间构造2.一般区间的构造3.区间的属性与方法 一、cat对象 1.cat对象的属性 在pandas中提供了category类型,使用户能够处理分类…...

git的使用思维导图

源文件在github主页:study_collection/cpp学习/git at main stu-yzZ/study_collection (github.com)...

Qt 软件界面点击QCombBox控件,造成整个界面移位

Qt 软件界面点击QCombBox控件,造成整个界面移位 最近项目中,遇到了一个问题,在绘制界面的时候,使用了QCombBox控件,在点击QCombBox控件下拉中的item时,会造成整个界面移位的现象。 我重写了下面三个事件函…...

AI Native工程化:百度App AI互动技术实践

作者 | GodStart 导读 随着AI浪潮的兴起,越来越多的应用都在利用大模型重构业务形态,在设计和优化Prompt的过程中,我们发现整个Prompt测评和优化周期非常长,因此,我们提出了一种Prompt生成、评估与迭代的一体化解决方案…...

DDPM推导笔记

各位佬看文章之前,可以先去看看这个视频,并给这位up主点赞投币,这位佬讲解的太好了:大白话AI 1.前置知识的学习 1.1 正态分布特性 ​ (1)正态分布的概率密度函数 f ( x ) 1 2 π σ e − ( x − μ ) …...

【C#/Java】【小白必看】不要只会读写文本文件了!对象序列化助你提高效率

【C#/Java】【小白必看】不要只会读写文本文件了!对象序列化助你提高效率 ​ 在编程的世界里,文件的读写操作是我们经常面对的任务之一。 ​ 当我们只涉及简单的文本文件时,这个任务似乎并不复杂。但是,当我们处理更为复杂的类对…...

排障启示录-无线终端信号弱

现象:无线终端显示信号弱 信息收集: AP的实际发射功率低。外置天线型AP,天线松动或者没插天线现场环境问题,信号穿透衰减终端接入远端AP终端个体问题 排查步骤: 1、AP的发射功率低 查看AP的射频功率,判…...

gem5 RubyPort: mem_request_port作用与连接 simple-MI_example.py

简介 回答这个问题:RubyPort的口下,一共定义了六个口,分别是mem_request_port,mem_response_port,pio_request_port,pio_response_port,in_ports, interrupt_out_ports,他们分别有什…...

无人机支持的空中无蜂窝大规模MIMO系统中上行链路分布式检测

无人机支持的空中无蜂窝大规模MIMO系统中上行链路分布式检测 无人机支持的空中无蜂窝大规模MIMO系统中上行链路分布式检测介绍题目一. 背景(解决的问题)二. 系统模型信道模型信道系数进行标准化 信道估计 和 数据传输信道估计上行数据传输 三. 具体的流程…...

文献速递:生成对抗网络医学影像中的应用—— CG-3DSRGAN:用于从低剂量PET图像恢复图像质量的分类指导的3D生成对抗网络

文献速递:生成对抗网络医学影像中的应用—— CG-3DSRGAN:用于从低剂量PET图像恢复图像质量的分类指导的3D生成对抗网络 本周给大家分享文献的主题是生成对抗网络(Generative adversarial networks, GANs)在医学影像中的应用。文献…...

前端验收测试驱动开发

我们听说过很多关于测试驱动开发(TDD)的内容。那么什么是ATDD? ATDD代表验收测试驱动开发,这是一种定义验收标准并创建自动化测试来验证是否满足这些标准的软件开发方法。ATDD是一种协作方法,涉及客户、开发人员和测试…...

图像卷积操作

目录 一、互相关运算 二、卷积层 三、图像中目标的边缘检测 四、学习卷积核 五、特征映射和感受野 一、互相关运算 严格来说,卷积层是个错误的叫法,因为它所表达的运算其实是互相关运算(cross-correlation),而不是…...

目标检测入门体验,技术选型,加载数据集、构建机器学习模型、训练并评估

Hi, I’m Shendi 1、目标检测入门体验,技术选型,加载数据集、构建机器学习模型、训练并评估 在最近有了个物体识别的需求,于是开始学习 在一番比较与询问后,最终选择 TensorFlow。 对于编程语言,我比较偏向Java或nod…...

【UE5插件推荐】运行时,通过HTTP / HTTPS下载文件(Runtime Files Downloader)

UE5 github Home gtreshchev/RuntimeFilesDownloader Wiki (github.com)...

信息论安全与概率论

目录 一. Markov不等式 二. 选择引理 三. Chebyshev不等式 四. Chernov上限 4.1 变量大于 4.2 变量小于 信息论安全中会用到很多概率论相关的上界,本文章将梳理几个论文中常用的定理,重点关注如何理解这些定理以及怎么用。 一. Markov不等式 假定…...

各种不同语言分别整理的拿来开箱即用的8个开源免费单点登录(SSO)系统

各种不同语言分别整理的拿来开箱即用的8个开源免费单点登录(SSO)系统。 单点登录(SSO)是一个登录服务层,通过一次登录访问多个应用。使用SSO服务可以提高多系统使用的用户体验和安全性,用户不必记忆多个密…...

Netty Review - 优化Netty通信:如何应对粘包和拆包挑战

文章目录 概述Pre概述场景复现解决办法概览方式一: 特殊分隔符分包 (演示Netty提供的众多方案中的一种)流程分析 方式二: 发送长度(推荐) DelimiterBasedFrameDecoder 源码分析 概述 Pre Netty Review - 借助SimpleTalkRoom初体验…...

在软件开发中正确使用MySQL日期时间类型的深度解析

在日常软件开发场景中,时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志,到供应链系统的物流节点时间戳,时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库,其日期时间类型的…...

【杂谈】-递归进化:人工智能的自我改进与监管挑战

递归进化:人工智能的自我改进与监管挑战 文章目录 递归进化:人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管?3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景 应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。 相对于RMAN恢复需要很长时间, 数据库闪回只需要几分钟。 2.技术实现 数据库设置 2个db_recovery参数 创建guarantee闪回点,不需要开启数据库闪回。…...

docker详细操作--未完待续

docker介绍 docker官网: Docker:加速容器应用程序开发 harbor官网:Harbor - Harbor 中文 使用docker加速器: Docker镜像极速下载服务 - 毫秒镜像 是什么 Docker 是一种开源的容器化平台,用于将应用程序及其依赖项(如库、运行时环…...

深入浅出:JavaScript 中的 `window.crypto.getRandomValues()` 方法

深入浅出:JavaScript 中的 window.crypto.getRandomValues() 方法 在现代 Web 开发中,随机数的生成看似简单,却隐藏着许多玄机。无论是生成密码、加密密钥,还是创建安全令牌,随机数的质量直接关系到系统的安全性。Jav…...

将对透视变换后的图像使用Otsu进行阈值化,来分离黑色和白色像素。这句话中的Otsu是什么意思?

Otsu 是一种自动阈值化方法,用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理,能够自动确定一个阈值,将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...

反射获取方法和属性

Java反射获取方法 在Java中,反射(Reflection)是一种强大的机制,允许程序在运行时访问和操作类的内部属性和方法。通过反射,可以动态地创建对象、调用方法、改变属性值,这在很多Java框架中如Spring和Hiberna…...

dify打造数据可视化图表

一、概述 在日常工作和学习中,我们经常需要和数据打交道。无论是分析报告、项目展示,还是简单的数据洞察,一个清晰直观的图表,往往能胜过千言万语。 一款能让数据可视化变得超级简单的 MCP Server,由蚂蚁集团 AntV 团队…...

Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析 一、第一轮提问(基础概念问题) 1. 请解释Spring框架的核心容器是什么?它在Spring中起到什么作用? Spring框架的核心容器是IoC容器&#…...

20个超级好用的 CSS 动画库

分享 20 个最佳 CSS 动画库。 它们中的大多数将生成纯 CSS 代码,而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库,可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画,可以包含在你的网页或应用项目中。 3.An…...