当前位置：首页 > news >正文

【深度学习】GPT系列模型：语言理解能力的革新

news 文章来源：https://blog.csdn.net/weixin_46803857/article/details/129204870 2025/4/26 20:25:25

GPT-1🏡

自然语言理解包括一系列不同的任务，例如文本蕴涵、问答、语义相似度评估和文档分类。尽管大量的未标记文本语料库很充足，但用于学习这些特定任务的标记数据却很稀缺，使得判别式训练模型难以达到良好的表现。我们证明，在多样化的未标记文本语料库上进行生成式预训练语言模型，然后在每个具体任务上进行判别式微调，可以实现这些任务的大幅提升。与以往方法相比，我们在微调过程中利用了任务感知型输入转换，从而实现了有效的迁移学习，而对模型架构的改变也是最小化的。我们在自然语言理解的广泛基准测试上展示了我们方法的有效性。

Framework🏣

我们的训练过程包括两个阶段。第一阶段是在大量文本语料库上学习高容量的语言模型。接下来是微调阶段，我们使用带标签的数据将模型适应于不同的任务。

GPT（Generative Pre-trained Transformer）使用的模型是Transformer的Decoder，我们知道BERT使用的模型是Transformer的Encoder。在GPT模型中，start、delim、extract是一些特殊的token，它们分别代表以下含义：

start：表示生成文本的开始，通常在文本生成任务中，我们需要给定一个开始的文本片段，然后让模型继续生成后续的文本内容。在GPT中，start就是这个开始的标记，可以用于标记生成文本的开始。
delim：表示文本片段之间的分隔符，通常用于在文本生成任务中，将生成的文本分成多个片段，每个片段之间用delim进行分隔。
extract：表示从生成的文本中抽取出有意义的部分。在一些文本生成任务中，我们需要将生成的文本中的某些部分提取出来，例如答案、关键词等等。在GPT中，可以用extract标记生成的文本中需要抽取的部分。
上图主要包括两个部分。左侧显示了Transformer的架构和在该工作中使用的训练目标，它们是语言模型预训练和针对不同任务的微调。右侧显示了针对不同任务进行微调时的输入转换方式，这些结构化输入都被转换成由预训练模型处理的令牌序列，然后通过线性+softmax层进行处理。

GPT-2🏪

GPT-2（Generative Pre-trained Transformer 2）相对于GPT-1做了以下几方面的改进：

更大规模的模型：GPT-2使用了更多的参数，达到了1.5亿个参数，比GPT-1的1.17亿个参数更多，从而提高了模型的能力。

更多的训练数据：GPT-2使用了更多、更广泛的文本数据来预训练模型，包括了包括维基百科、网页文本、书籍、新闻、社交媒体等多个来源。

更长的上下文：GPT-2在输入时使用了更长的上下文，即前面的文本内容，这使得模型能够更好地理解文本语境。

更好的遮盖策略：GPT-2采用了更好的遮盖策略来避免模型在预测时泄露后面文本的信息，从而提高了模型的准确性。

更好的生成策略：GPT-2引入了一些新的技术来改进文本生成的策略，包括无偏采样、重复惩罚等，使得生成的文本更加准确和自然。

综上所述，GPT-2相比于GPT-1在模型规模、训练数据、上下文长度、遮盖策略和生成策略等方面都做出了改进，使得其在自然语言处理任务上的表现更加出色。

Zero-Shot💒

GPT-2的zero-shot功能是其最引人注目的特点之一。这意味着，即使在没有进行任何特定任务的监督训练的情况下，GPT-2模型也能够自然地生成与特定任务相关的文本输出。这使得GPT-2模型可以在许多不同的NLP任务上表现出色，而无需进行大量的监督训练。此外，GPT-2还具有非常大的参数容量和表现力，使其成为自然语言处理领域的前沿技术。

GPT-3🏤

GPT-3是GPT模型系列中最新的一款模型，相比于之前的版本有以下改进和新特点：

模型规模更大：GPT-3的模型规模比GPT-2大了数倍，达到了175亿个参数，这使得它能够处理更长、更复杂的文本，并且能够解决一些之前的GPT模型难以处理的任务。

更广泛的语言能力：GPT-3在多种语言的自然语言处理任务上都有出色的表现，包括英语、西班牙语、法语、德语、意大利语、荷兰语、葡萄牙语、俄语、阿拉伯语和中文等多种语言。

支持更多的任务和应用场景：GPT-3不仅可以处理自然语言生成任务，还能够处理一些其他的任务，比如翻译、问答、推理、代码生成等。此外，GPT-3还能够处理一些比较特殊的应用场景，比如情感分析、文本摘要、机器写作等。

Zero-shot 和 Few-shot 能力更强：GPT-3可以通过阅读只有几个例子的新任务来学习如何完成该任务，这使得GPT-3具有更强的Zero-shot 和 Few-shot 能力，能够快速适应新任务并表现出色。

更加灵活的模型结构：GPT-3采用了一种新的模型结构，即可重复模块（可重用模块），使得模型更加灵活和高效。此外，GPT-3还采用了一种新的模型架构，即分层模型架构，使得模型能够自适应不同的任务和输入。

总之，GPT-3是目前自然语言处理领域中最先进的模型之一，具有更广泛的语言能力和更强的任务适应性，可以应用于各种自然语言处理任务和场景中。

Few-Shot🏯

GPT-3 (Generative Pre-trained Transformer 3)是OpenAI于2020年发布的最新版本的语言模型。除了具有GPT-2的zero-shot学习能力外，GPT-3还具备了few-shot学习的能力，这是它的一个显著特点和优势。
Few-shot learning是一种机器学习方法，它可以使模型在仅有少量标注数据的情况下学会新任务。与传统的机器学习方法需要大量标注数据不同，few-shot学习使用少量数据进行训练，能够显著减少数据收集和标注的成本。
在GPT-3中，few-shot学习是通过在预训练的语言模型之上引入一个新的递归神经网络（Meta-learner）来实现的。这个递归神经网络可以根据输入的few-shot任务和数据快速学习出一个新的模型，然后将这个新的模型用于实际的任务中。这个过程称为元学习（Meta-learning）。
在few-shot学习中，GPT-3使用了所谓的prompt技术。Prompt是指在输入中添加一个特定的文本片段，以提示模型执行特定的任务。在GPT-3中，prompt不仅限于简单的问题和答案，还可以是一系列的指令、约束和条件，从而使模型能够执行更加复杂的任务。
GPT-3的few-shot学习使得这个模型可以在许多不同的任务上进行快速的适应和学习，并且在很多情况下，它的表现甚至可以超过一些专门为这些任务设计的模型。这使得GPT-3成为了一个强大的通用语言模型，可以应用于许多自然语言处理任务中。

在相同参数量的情况下，Few-Shot的结果更好。

in-context learning🏭

GPT-3的in-context learning是指在进行自然语言处理任务时，将上下文信息引入到模型中以更好地理解和生成文本。传统的自然语言处理模型通常是针对特定任务进行训练的，而且需要大量的标注数据，而GPT-3的in-context learning则允许模型在不需要显式的任务指导和大量标注数据的情况下进行学习。

具体来说，in-context learning可以通过以下两种方式实现：

Prompt-based learning: 在进行自然语言处理任务时，模型会根据给定的提示信息生成相应的文本，这些提示信息可以是文本、问题、任务描述等等。模型在生成文本的同时，可以同时理解上下文信息，从而更好地完成任务。

Generative pre-training: 在in-context learning的训练过程中，模型会预先进行大量的语言模型训练，学习各种类型的文本和语言结构，从而能够更好地理解和生成各种类型的文本。在进行特定任务时，模型可以通过微调来适应该任务，同时也可以通过in-context learning引入上下文信息，从而更好地完成任务。

总之，GPT-3的in-context learning允许模型在不需要显式的任务指导和大量标注数据的情况下进行学习，并且能够通过引入上下文信息来更好地理解和生成文本。这一特点在自然语言处理领域中具有重要的意义，为实现更加智能和人性化的自然语言处理系统提供了新的思路和方法。与传统的fine-tuning方法不同，GPT-3在所有任务上都没有进行任何梯度更新或微调，拿来即用。

Summary🏩

在本文中，我们探讨了GPT系列模型的语言理解能力革新。GPT模型的核心是基于Transformer的自回归语言模型，通过无监督学习大规模文本数据，学习到了丰富的语言知识，具备了强大的语言理解能力。GPT-2和GPT-3相比于GPT-1，在模型规模、训练数据和fine-tuning等方面都有了进一步的提升，尤其是GPT-3通过大规模参数和few-shot学习，在NLP任务上取得了极具竞争力的结果。通过GPT系列模型的研究和探索，我们可以看到自然语言处理的发展方向，同时也为我们提供了构建更强大、更智能的语言处理系统的启示。
本文大部分内容由chatGPT翻译和生成。

【深度学习】GPT系列模型：语言理解能力的革新

GPT-1🏡 自然语言理解包括一系列不同的任务，例如文本蕴涵、问答、语义相似度评估和文档分类。尽管大量的未标记文本语料库很充足，但用于学习这些特定任务的标记数据却很稀缺，使得判别式训练模型难以达到良好的表现。我们证明&…...

编程日记 2023/3/12 20:33:04

【Vue.js】全局状态管理模式插件vuex

文章目录全局状态管理模式Vuexvuex是什么？什么是“状态管理模式”？vuex的应用场景Vuex安装开始核心概念一、State1、单一状态树2、在 Vue 组件中获得 Vuex 状态3、mapState辅助函数二、Getter三、Mutation1、提交载荷（Payload）2、…...

编程日记 2023/3/12 20:28:02

JPA 之 Hibernate EntityManager 使用指南

Hibernate EntityManager 专题参考： JPA – EntityManager常用API详解EntityManager基本概念基本概念及获得 EntityManager 对象基本概念在使用持久化工具的时候，一般都有一个对象来操作数据库，在原生的Hibernate中叫做Session&…...

编程日记 2023/3/12 20:23:01

英语作文提示（持续更新）

星期（介词on）Monday星期一Tuesday星期二Wednesday星期三Thursday星期四Friday星期五Saturday星期六Sunday星期日月份（介词in）lunar calendar农历on the second day of the second lunar农历初二January1月February2月March3月Apri…...

编程日记 2023/3/12 20:18:00

【计算机组成原理】计算机的性能指标、数据的表示和运算、BCD码和余3码

计算机组成原理(二) 计算机的性能指标: 存储器的性能指标： 存储器中，MAR为存储单元的个数 MDR为机械字长也就是存储单元的长度存储器的大小MAR*MDR n为二进制位能表示出几种不同的状态呢？ 2的n次方种不同的状态 CPU的性能指标&#xf…...

编程日记 2023/3/12 20:12:57

三天吃透MySQL八股文（2023最新整理）

本文已经收录到Github仓库，该仓库包含计算机基础、Java基础、多线程、JVM、数据库、Redis、Spring、Mybatis、SpringMVC、SpringBoot、分布式、微服务、设计模式、架构、校招社招分享等核心知识点，欢迎star~ Github地址：https://github.com/…...

编程日记 2023/3/12 20:07:54

队列_23约瑟夫问题+_24猫狗收容所

约瑟夫问题 n 个小孩围坐成一圈，并按顺时针编号为1,2,…,n，从编号为 p 的小孩顺时针依次报数，由1报到m ，当报到 m 时，该小孩从圈中出去，然后下一个再从1报数，当报到 m 时再出去。如此反复&#…...

编程日记 2023/3/12 20:02:53

gradle

Gradle环境介绍OpenJDK 17.0.5Gradle 7.6示例代码 fly-gradleGradle 项目下文件介绍如果你的电脑安装了 gradle，可以使用 gradle init 去初始化一个新的 gradle 工程，然后使用电脑安装的 gradle 去执行构建命令。但是每个开发电脑上的 gradle 版本不一样…...

编程日记 2023/3/12 20:01:14

[牛客]链表中倒数第k个结点

使用快慢指针法:两种思路:1.fast先向后走k-1次,slow再向后走1次,然后fast和slow同时向后走,当fast走到最后一个结点时,slow刚好在倒数第k个位置上;2.fast先向后走k次,slow再向后走1次,然后fast和slow同时向后走,当fast走到最后一个结点的后面时(此时为NULL),slow刚好在倒数第k个…...

编程日记 2023/3/12 9:22:57

English Learning - L2 语音作业打卡双元音 [eɪ] [aɪ] Day14 2023.3.6 周一

English Learning - L2 语音作业打卡双元音 [eɪ] [aɪ] Day14 2023.3.6 周一💌发音小贴士：💌当日目标音发音规则/技巧:🍭 Part 1【热身练习】🍭 Part2【练习内容】🍭【练习感受】🍓元音 /eɪ/…...

编程日记 2023/3/12 9:21:50

C++ this 指针与静态成员

文章目录参考描述实例成员与静态成员实例成员静态成员静态成员属性隐式形参 this 指针冲突this 指针静态成员函数this 指针与静态成员函数参考项目精通C （第九版）托尼加迪斯、朱迪沃尔特斯、戈德弗雷穆甘达 （著） / 黄刚等 &…...

编程日记 2023/3/12 9:20:46

REDIS16_LRU算法概述、查看默认内存、默认是如何删除数据、缓存淘汰策略

文章目录①. LRU算法概述②. 查看默认内存③. 如何删除数据④. 缓存淘汰策略①. LRU算法概述 ①. LRU是Least Recently Used的缩写,即最近最少使用,是一种常用的页面置换算法,选择最近最久未使用的数据给予淘汰 (leetcode-cn.com/problems/lru-cache) ②. LRU算法题来源 ③.…...

编程日记 2023/3/12 9:19:42

ClassMix: Segmentation-Based Data Augmentation for Semi-Supervised Learning学习笔记

ClassMix相关介绍主要思想方法Mean-Teacher损失函数交叉熵损失标签污染实验实验反思参考资料相关介绍从DAFormer溯源到这篇文章，ClassMix主要是集合了伪标签和一致性正则化，思想来源于CutMix那条研究路线，但是优化了CutMix中的标签污染的情…...

编程日记 2023/3/12 9:18:41

CSDN竞赛第35期题解

CSDN竞赛第35期题解 1、题目名称：交换后的or 给定两组长度为n的二进制串，请问有多少种方法在第一个串中交换两个不同位置上的数字，使得这两个二进制串“或”的结果发生改变？ int n;cin>>n; string a,b;cin>>a>…...

编程日记 2023/3/12 9:17:36

Java应用服务系统安全性，签名和验签浅析

1 前言随着互联网的普及，分布式服务部署越来越流行，服务之间通信的安全性也是越来越值得关注。这里，笔者把应用与服务之间通信时，进行的的安全性相关，加签与验签，进行了一个简单的记录。 2 安全性痛点 …...

编程日记 2023/3/12 9:16:30

spring中bean的实例化

构造方法实现实例化无参构造器实例化我们之前用的就一直是无参构造器实现实例化，虽然没有在类中写构造器，但是每个类都会有一个默认的无参构造器有参构造器实例化相比于无参构造器，我们只需要传入参数就可以了我们可以通过construc…...

编程日记 2023/3/12 9:15:24

磨皮插件portraiture2023最新中文版

Portraiture滤镜是一款 Photoshop，Lightroom 和 Aperture 插件，DobeLighttroom 的 Portraiture 消除了选择性掩蔽和逐像素处理的繁琐的手工劳动，以帮助您在肖像修整方面取得卓越的效果。它是一个强大的，但用户友好的插件照明.这是…...

编程日记 2023/3/12 9:14:21

记录每日LeetCode 2269.找到一个数组的K美丽值 Java实现

题目描述： 一个整数 num 的 k 美丽值定义为 num 中符合以下条件的子字符串数目： 子字符串长度为 k 。子字符串能整除 num 。给你整数 num 和 k ，请你返回 num 的 k 美丽值。注意： 允许有前缀 0 。 0 不能整除任何…...

编程日记 2023/3/12 9:13:15

代码管理--svnadmin工具介绍

1、简介 SVNAdmin2 是一款通过图形界面管理服务端SVN的web程序。正常情况下配置SVN仓库的人员权限需要登录到服务器手动修改 authz 和 passwd 两个文件，当仓库结构和人员权限上了规模后，手动管理就变的非常容易出错，本系统能够识别人员和权限…...

编程日记 2023/4/11 22:16:26

Git的基本使用以及上传到GitHub

GIT的基本使用一、安装并配置GIT二、Git的基本操作三、使用GIT上传至GitHub四、Git分支一、安装并配置GIT 1.安装GIT连接 GIT安装包链接 2.打开GIT 鼠标右键点击Git Bash Here 安装完 Git 之后，第一件事就是设置自己的用户名和邮件地址。因为通过 Git 对项目进行…...

编程日记 2023/3/12 9:10:00

国科大论文latex模板中可能的注意事项

背景国科大2022年9月发布了毕业论文的LaTeX模板，它是在ucasthesis上修改而来的，但近日使用国科大发布版本时发现有几点不同以及需要注意的地方。本人只会简单使用latex，但并不熟悉latex样式编辑，因此以下介绍与方法仅供参考。仅…...

编程日记 2023/3/12 9:08:58

ABAP 怎样将XML和JSON格式转换为HTML格式显示

ABAP 怎样将XML和JSON格式转换为HTML格式显示一、将JSON格式转换为HTML格式 BAP接口程序开发中时常会用到JSON格式来传输数据，在监控传输的JSON串内容时，把JSON转换为HTML格式来显示会很便利。下面提供一个简单例子来实现JSON转化为HTML并显示的功能。…...

编程日记 2023/3/12 9:07:53

基础课DP

DP 背包问题01背包问题完全背包问题多重背包问题多重背包问题II分组背包问题线性DP数字三角形最长上升子序列最长上升子序列II最长公共子序列编组距离区间DP石子合并计数类DP整数划分数位统计DP计数问题状态压缩DP蒙德里安的梦想最短Ha路径树形DP没有上司的舞会...

编程日记 2023/3/12 9:06:51

基于支持向量机SVM的风电场NWP数据预测，SVM的详细原理

目录支持向量机SVM的详细原理 SVM的定义 SVM理论 Libsvm工具箱详解简介参数说明易错及常见问题 SVM应用实例，基于SVM的风电场NWP预测结果分析展望支持向量机SVM的详细原理 SVM的定义支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定…...

编程日记 2023/3/12 9:05:48

webRtc概念

webRtc概念以下的文档整理来自此链接文档整理了一系列实现web通用接口的ECMAScript APIs ，这些接口是为了支持浏览器或者一些其他实现了实时交换协议的设备进行媒体信息和程序数据交换。 1、实现点对点通信的规范： NAT穿透实现与远端节点链接比如&a…...

编程日记 2023/4/11 7:00:51

数据结构与算法基础（王卓）（16）：KMP算法详解（代码实现）

实现代码的过程中具体细节、问题： （1）：关于写Get_next函数的标题： 现象： PPT上写的是： void get_next(SString T, int &next[]) 然而并不能运行，而当我们去掉了引用符号&…...

编程日记 2023/3/12 9:01:18

九龙证券|盘前直接腰斩，银行巨头紧急“拔网线”！美股银行股又崩了？

见证历史了，又有一家银行巨子倒下？ 美股银行股团体暴降上一交易日暴降超60%的硅谷银行持续面对腥风血雨。盘前，硅谷银行跌幅超50%，随后，公司宣布盘前暂停交易，等待刊发消息。而最新消息显现&#xff0c…...

编程日记 2023/3/12 8:59:05

接口优化常用思路

空间换时间计算机程序中最大的矛盾是空间和时间的矛盾，那么，从这个角度出发逆向思维来考虑程序的效率问题，我们就有了解决问题的第1招–以空间换时间合理使用缓存就是一个很好的例子，针对一些频繁使用且不频繁变更的数据&#…...

编程日记 2023/3/12 8:58:00

【SpringCloud】SpringCloud面试题整理

文章目录1、什么是Spring Cloud？2、Spring Cloud和Dubbo的区别3、REST和RPC的区别4、SpringCloud如何实现服务的注册和发现5、什么是服务熔断和服务降级？6、项目中zuul常用的功能7、服务网关的作用8、ribbon和feign区别9、ribbon的负载均衡策略10、简述什…...

编程日记 2023/3/12 8:55:46

一些数据库知识点总结

DB2数据库：从数据库表中第I条记录开始检索J条记录SELECT * FROM (SELECT A.*, ROW_NUMBER() OVER() AS NFROM (SELECT * FROM table_name) AS A)WHERE N > I AND N < J;Oracle数据库：从数据库表中第M条记录开始检索N条记录SELECT * FROM (SELECT R…...

编程日记 2023/5/13 10:34:28