GPT与BERT模型
NLP任务的核心逻辑是“猜概率”的游戏。BERT和GPT都是基于预训练语言模型的思想,通过大量语料训练得到语言模型。两种模型都是基于Transformer模型。
Bert 类似于Transformer的Encoder部分,GPT类似于Transformer的Decoder部分。两者最明显的在结构上的差异为Multi-Head-Attention和Masked Multi-Head-Attention。
- BERT:双向 预训练语言模型+fine-tuning(微调)
BERT是基于Transformer网络架构和预训练语言模型提出的。在不同语言任务上达到最先进的水平,展示了预训练语言模型对于自然语言理解任务的巨大潜力。
BERT分为预训练和微调两部分,预训练是BERT模型的基础部分,使用大量的文本来训练语言模型。预训练时BERT模型会学习语言知识,如词汇、语法、句子结构等,预训练是为了让BERT模型有足够的语言能力处理不同的自然语言任务;微调过程是在预训练模型的基础上,使用少量标注数据调整模型参数。
BERT更适用于自然语言理解任务:
问答系统:在问答系统中用来理解问题并生成答案。
句子相似度比较:比较两个句子之间的相似程度。
文本分类:对文本进行分类。
情感分析:对文本进行情感分析。
命名实体识别:识别文本中的命名实体。
Bert 使用填空的方式完成预训练,随机盖住一些输入的文字,被mask的部分是随机决定的。
第一种方法,用一个特殊的符号替换句子中的一个词, MASK 标记来表示特殊符号,作为一个新字,这个字完全是一个新词,它不在字典里,代表mask了原文。另外一种方法是随机把某一个字换成另一个字。两种方法方法随机使用,BERT 训练时,向BERT输入一个句子,先随机决定哪一部分的汉字被mask,mask后输入一个序列,把BERT的相应输出看作是另一个序列,在输入序列中寻找mask部分的相应输出,这个向量通过一个Linear transform,输入向量将与一个矩阵相乘,在做softmax,输出一个分布,一个很长的向量,包含要处理的每个汉字,每个字对应一个分数。mask的字符类似标签,用one-hot vector 表示这个字符,使输出和one-hot vector之间的交叉熵损失最小。BERT 是预测被MASK的内容,在训练中,在BERT后添加一个线性模型一起训练,预测被MNASK的字符。
- GPT:自回归 预训练语言模型+Prompting(指示/提示)
起源于对传统预训练语言模型(ELMO\ULMFit)的改进和升级,采用Transformer架构,使用预训练+微调的方式实现语言理解和生成。GPT预训练数据来源于网络文本数据。模型学习了基本的语言知识和结构,再在特定任务上微调,模型根据特定任务的需要来学习相关的知识。
GPT主要具体应用:文本生成、文本自动完成、语言翻译、对话生成、摘要生成
GPT 的任务是预测后面的序列,相同大小数据集时Bert 会更好,如果预训练数据很大,GPT网络训练是不需要标注的,适于超大数据量的情况的特点。
GPT与BERT训练的不同:
- GPT使用的是Transformer模型;BERT使用的是双向Transformer模型。
- GPT的预训练使用大量的网络文本数据;BERT的预训练使用Wikipedia和BooksCorpus。
- GPT预训练采用语言模型的方法,通过预测下一个词来学习语言模型;BERT预训练过程中采用了双向预测的方法,即通过预测句子中丢失的词来学习语言模型。
- GPT微调时,需要指定输入输出的语言模型任务;BERT微调时可应用在多种任务上。
参考:
关于ChatGPT:GPT和BERT的差别(易懂版) - 知乎
相关文章:
![](https://img-blog.csdnimg.cn/2c9934576acf4e71aa516ee2a3b09c30.png)
GPT与BERT模型
NLP任务的核心逻辑是“猜概率”的游戏。BERT和GPT都是基于预训练语言模型的思想,通过大量语料训练得到语言模型。两种模型都是基于Transformer模型。 Bert 类似于Transformer的Encoder部分,GPT类似于Transformer的Decoder部分。两者最明显的在结构上的差…...
![](https://www.ngui.cc/images/no-images.jpg)
2023-09-06力扣每日一题-摆烂暴力
链接: [1123. 最深叶节点的最近公共祖先](https://leetcode.cn/problems/form-smallest-number-from-two-digit-arrays/) 题意: 如题 解: 今天搞一手暴力,按层存,按层取,直到只取到一个 实际代码&…...
![](https://img-blog.csdnimg.cn/img_convert/a531cbfef4d3971d99d0112fac114b18.png)
【Flutter】Flutter 使用 timego 将日期转换为时间描述
【Flutter】Flutter 使用 timego 将日期转换为时间描述 文章目录 一、前言二、安装与基本使用三、如何添加新的语言四、如何覆盖现有的语言或添加自定义消息五、完整示例六、总结 一、前言 你好!我是小雨青年,今天我要为你介绍一个非常实用的 Flutter 包…...
![](https://img-blog.csdnimg.cn/3f53183e3aa449359ceb3fd91084b543.png)
并发容器11
一 JDK 提供的并发容器总结 JDK 提供的这些容器大部分在 java.util.concurrent 包中。 ConcurrentHashMap: 线程安全的 HashMap CopyOnWriteArrayList: 线程安全的 List,在读多写少的场合性能非常好,远远好于 Vector. ConcurrentLinkedQueue: 高效的并…...
![](https://img-blog.csdnimg.cn/2441345ccfed4f22be67e074853bf2e1.png)
Java8实战-总结22
Java8实战-总结22 使用流数值流原始类型流特化数值范围数值流应用:勾股数 使用流 数值流 可以使用reduce方法计算流中元素的总和。例如,可以像下面这样计算菜单的热量: int calories menu.stream().map(Dish::getcalories).reduce(0, Int…...
![](https://www.ngui.cc/images/no-images.jpg)
matlab 实现点云ICP 配准算法
一、算法步骤 (1)在目标点云P中取点集pi∈P; (2)找出源点云Q中的对应点集qi∈Q,使得||qi-pi||=min; (3)计算旋转矩阵R和平移矩阵t,使得误差函数最小; (4)对pi使用上一步求得的旋转矩阵R和平移矩阵t进行旋转和平移变换,的到新的对应点集pi’={pi’=Rpi+t,pi∈P};…...
![](https://www.ngui.cc/images/no-images.jpg)
python提取word文本和word图片
提取文本 docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可 import docx # pip3 install python-docx doc docx.Document(three.docx) for paragraph in doc.paragraphs:print(paragraph.text)提取图片 import zipfile import os, re # docx本质上…...
![](https://img-blog.csdnimg.cn/img_convert/49c14f21c1d00aaf8bc5ef45fb19f68f.png)
iOS开发Swift-9-SFSymbols,页面跳转,view屏幕比例,启动页-和风天气AppUI
1.创建项目 2.设置好测试机型,App显示名称,以及关闭横向展示. 3.下载SF Symbols. https://developer.apple.com/sf-symbols/ 右上角搜索 search ,可以找到很多系统自带图标.选择喜欢的图标,拷贝图标的名字. 插入一个Button,在Image中粘贴图标名称并选择,即可将Button变成想要的…...
![](https://img-blog.csdnimg.cn/f7e6ecdf6f3142cda590f7449ed77cc1.png)
代码优化工具-测试程序执行时间-IDEAdebug+StopWatch
参考: [技巧]IDEA的debugStopWatch监测程序运行时间 添加链接描述 1创建类StopWatchExpand import lombok.extern.slf4j.Slf4j;import org.springframework.util.StopWatch;import java.text.NumberFormat;/*** 检测程序片段运行时间拓展** author sdevil507* cr…...
![](https://img-blog.csdnimg.cn/240df8d1741e4d4f8e17e0ac0a0e1759.png)
力扣每日一题---2594. 修车的最少时间
文章目录 思路解题方法复杂度Code 思路 请注意,能力值越低,修车越快,应该翻译成「排名」,排名越靠前,修车越快。)根据题意可以知道r * n * n < t 的,所以可以利用数学知识进行改变公式&#…...
![](https://img-blog.csdnimg.cn/dd4a5ad7583a4a379d05f0c96c6bee2c.png)
【jvm】运行时数据区
目录 一、运行时数据区一、作用二、说明三、线程共用与私有区域 一、运行时数据区 一、作用 1.内存是非常重要的系统资源,是硬盘和CPU 的中间仓库及桥梁,承载着操作系统和应用程序的实时运行。JVM内存布局规定了Java在运行过程中内存申请、分配、管理的策…...
![](https://img-blog.csdnimg.cn/71badcdb71d94dbd90fca4da2c122cc0.png)
SpringMVC相对路径和绝对路径
1.相对地址与绝对地址定义 在jsp,html中使用的地址,都是在前端页面中的地址,都是相对地址 地址分类:(1),绝对地址,带有协议名称的是绝对地址,http://www.baidu.com&…...
![](https://img-blog.csdnimg.cn/519d3d533d2b4690aeed81f1dc051bca.png)
IIS perl python cbrother php脚本语言配置及简单测试样例程序
上篇笔记写了 IIS 配置 CGI, IIS CGI配置和CGI程序FreeBasic, VB6, VC 简单样例_Mongnewer的博客-CSDN博客 这篇在IIS上配置一些脚本语言。为了操作方便,每种语言在站点下分设文件夹。 1. IIS perl配置 Perl CGI方式是曾经流行的做法。先下载一个开源…...
![](https://www.ngui.cc/images/no-images.jpg)
Oracle Scheduler中日期表达式和PLSQL表达式的区别
参考文档: Database Administrator’s Guide 29.4.5.4 Differences Between PL/SQL Expression and Calendaring Syntax Behavior There are important differences in behavior between a calendaring expression and PL/SQL repeat interval. These differenc…...
![](https://www.ngui.cc/images/no-images.jpg)
Java设计模式:一、六大设计原则-06:依赖倒置原则
文章目录 一、定义:依赖倒置原则二、模拟场景:依赖倒置原则三、违背方案:依赖倒置原则3.1 工程结构3.2 抽奖系统**3.2.1 定义抽奖用户类**3.2.2 抽奖控制 3.3 单元测试 四、改善代码:依赖倒置原则4.1 工程结构4.2 抽奖控制改善4.2…...
![](https://www.ngui.cc/images/no-images.jpg)
信息系统数据同步解决方案
实施数据同步解决方案时,重要的是确保数据同步是安全的、可靠的,并且能够适应系统变化。定期测试和监控数据同步过程,以确保其稳定运行,并随着需求的变化进行适当的调整和优化。 应用场景:信息系统A和信息系统B实现员…...
![](https://img-blog.csdnimg.cn/093c6e7b8ceb4214827fff55250fb84d.png)
LRU算法 vs Redis近似LRU算法
LRU(Least Recently Use)算法,是用来判断一批数据中,最近最少使用算法。它底层数据结构由Hash和链表结合实现,使用Hash是为了保障查询效率为O(1),使用链表保障删除元素效率为O(1)。 LRU算法是用来判断最近最少使用到元素…...
![](https://img-blog.csdnimg.cn/81bd38e9725c42c5bd8a515289f9c511.png)
浅析ARMv8体系结构:异常处理机制
文章目录 概述异常类型中断终止Abort复位Reset系统调用 异常处理流程异常入口异常返回异常返回地址 堆栈选择 异常向量表异常向量表的配置 同步异常解析相关参考 概述 异常处理指的是处理器在运行过程中发生了外部事件,导致处理器需要中断当前执行流程转而去处理异…...
![](https://www.ngui.cc/images/no-images.jpg)
Golang开发--Goroutine的使用
Go 语言天生支持并发编程,提供了丰富的原语和工具来编写并发程序。Goroutine 是 Go 语言中的轻量级执行单位。它们是由 Go 运行时(runtime)管理的,并且能够在单个线程上运行成千上万个 Goroutine。创建 Goroutine 非常高效&#x…...
![](https://www.ngui.cc/images/no-images.jpg)
【Linux】package ‘python-yaml‘ has no installation candidate 如何解决
要解决此问题,可以尝试以下几个步骤: 确保系统已经更新到最新版本。可以使用以下命令进行系统更新: sudo apt update sudo apt upgrade确保您的软件源列表中包含了正确的软件源。可以使用以下命令编辑软件源列表: sudo nano /etc/…...
![](https://www.ngui.cc/images/no-images.jpg)
Selector选择器在AspNetCore中的用法
Selector选择器在AspNetCore中的用法 背景 项目编辑过程中会选择其所属的上级项目,而上级项目在数据结构中是以ParentID的方式表达,而非Project类型,用户不会记录也不应该记录ID值,因此应提供Selector项目下拉框供用户选择。 但…...
![](https://img-blog.csdnimg.cn/d7e8ff4642ea4fd790db223118b92f1c.png)
anaconda3最新版安装|使用详情|Error: Please select a valid Python interpreter
Win11查看安装的Python路径及安装的库 anaconda3最新版安装|使用详情|Error: Please select a valid Python interpreter 介绍开源包管理系统和环境管理系统 ,包括多种语言的包安装,运行,更新,删除,最重要的是可以解…...
![](https://www.ngui.cc/images/no-images.jpg)
java八股文面试[多线程]——锁的分类
1.1 可重入锁、不可重入锁 Java中提供的synchronized,ReentrantLock,ReentrantReadWriteLock都是可重入锁。 重入:当前线程获取到A锁,在获取之后尝试再次获取A锁是可以直接拿到的。 不可重入:当前线程获取到A锁&…...
![](https://img-blog.csdnimg.cn/aa605302508b42d999f817dcc71628c3.png)
儿童安全门和围栏,以及游戏围栏等美国站要求的合规标准是什么?
儿童安全门和围栏 儿童安全门和围栏用于在门口(如门道)内设置围栏,或用作自支撑围栏,将幼儿可能在其中活动的区域围起来。这些商品可能由塑料、金属、乙烯树脂或木制组件等材料制成。此政策包括但不限于可扩展围栏、伸缩安全门和…...
![](https://www.ngui.cc/images/no-images.jpg)
kafka配合ElasticStack技术栈的搭配使用
今日内容: - kafka生产环境调优; - kafka配合ElasticStack技术栈的搭配使用; - zookeeper集群部署; - zookeeper的ACL; - zookeeper的调优; - PB级别项目; - ES8集群搭建/elk; (待定...) 订阅1个的topic: 老男孩: 10 多个不同的主题…...
![](https://img-blog.csdnimg.cn/b8ab9974c102475c99984ffcce7e52e9.png)
对极几何与三角化求3D空间坐标
一,使用对极几何约束求R,T 第一步:特征匹配。提取出有效的匹配点 void find_feature_matches(const Mat &img_1, const Mat &img_2,std::vector<KeyPoint> &keypoints_1,std::vector<KeyPoint> &keypoints_2,std::vector&l…...
![](https://www.ngui.cc/images/no-images.jpg)
英语语法笔记
1.英语五大句型 主谓(主语动词) 主谓宾(主语动词宾语) 主谓宾宾(主语动词简接宾语直接宾语) 主谓宾补(主语动词宾语宾语补语) 主系表(主语系动词主语补语) 1…...
![](https://img-blog.csdnimg.cn/66a66efd3f474a7e81918e0057a84292.png)
ES6的面向对象编程以及ES6中的类和对象
一、面向对象 1、面向对象 (1)是一种开发思想,并不是具体的一种技术 (2)一切事物均为对象,在项目中主要是对象的分工协作 2、对象的特征 (1)对象是属性和行为的结合体 &#x…...
![](https://www.ngui.cc/images/no-images.jpg)
ConfigMaps in K8s
摘要 ConfigMaps是Kubernetes(K8s)中用于存储应用程序配置信息的一种资源对象。它将key-value对存储为Kubernetes集群中的一个资源,并可以在Pod中以卷或环境变量的形式使用。 ConfigMaps的设计目的是将应用程序配置与应用程序本身解耦。它可…...
![](https://img-blog.csdnimg.cn/c643553189c643b78ff10d72e3fb5d37.png)
《机器人学一(Robotics(1))》_台大林沛群 第 6 周 【轨迹规划_直线转折处抛物线平滑】Quiz 6
步骤: 1、 编程 将PPT 的例子 跑一遍, 确保代码无误 2、根据题目 修改 相关参数 文章目录 求解代码_Python 解决的问题: 线段间转折点 的 速度 不连续 解决方法: 将直线段 两端 修正为 二次方程式 二次项圆滑 求解代码_Python …...
![](https://www.oschina.net/img/hot3.png)
wordpress图片下载主题/北京口碑最好的教育机构
2019独角兽企业重金招聘Python工程师标准>>> 相信作为一个开发人员应该对XML与JSON 非常熟悉。关于两者的介绍与区别网上已经有很多资料,java对于XML的解析也有很多工具包,主要解析的方式有三种: 1.DOM解析方式:适用于…...
![](/images/no-images.jpg)
国外哪些做问卷的网站/云南网络推广
Object类是所有类的超类,也就是说,Java中的每一个类都是由Object扩展而来的。因而每当你创建一个对象,它都将拥有Object类中的全部方法。让我们先来看看java.lang.Object的中的主要方法有哪些: public class Object{//公共构造函…...
![](/images/no-images.jpg)
品牌手机网站开发公司哪家好/百度推广竞价是什么意思
创建文件:touch filename 删除文件:rm filename 复制文件:cp filename dirname 移动文件:mv filename dirname 注 意:上面的dirname必须是已经存在的目录,如果该目录不存在,cp filename d…...
西安有哪些做网站的公司/深圳网络公司推广平台
上文(https://mp.csdn.net/editor/html/115607641)我们用实例讲解了如何利用.m文件实现对simulink系统的动态仿真,实例中有一句代码为: [t1,x1,y1]sim(new,10) 该语句中x1,y1均为空数组,其表示什么含义呢?…...
![](/images/no-images.jpg)
公司如何登录网站做就业登记/如何做好seo基础优化
第一题:账户类 题目描述 定义一个基类Account,数据成员包含string类变量userName用于保存账户主人姓名,函数成员包括默认构造函数、带参构造函数用于初始化数据成员和输出姓名的成员函PrintName()。从Account类派生出CreditAccount类…...
![](https://img-blog.csdnimg.cn/20200313125934509.png)
推送网站建设/seo教程有什么
每个期刊或者会议都有自己的篇幅限制,比如近期准备试水的Signal Processing, Elsevier的期刊,要求单栏,双倍行距,所有文字,表格,图,参考文献加起来不超过30页,我觉得还好,…...