了解针对基座大语言模型(类似 ChatGPT 的架构,Decoder-only)的重头预训练和微调训练
🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/
随着自然语言处理(NLP)技术的飞速进步,基于 Transformer 架构的大语言模型在众多任务中取得了显著成就。特别是 Decoder-only 架构,如 GPT 系列模型,因在生成任务和零样本泛化中的出色表现而备受瞩目。本文旨在深入剖析从头预训练及微调此类大型基座语言模型的核心策略与面临的挑战。
一、重头预训练
Decoder-only 模型仅采用 Transformer 的解码器部分,专注于连续文本的生成。其核心思想是利用自回归机制,根据给定的上下文预测下一个词元。该架构在处理语言生成任务时,展现出以下显著优势:
- 训练高效:无需编码器,从而简化了模型结构,降低了计算复杂度。
- 生成能力强:擅长产出连贯且高度上下文相关的长文本。
数据集准备
多样性和规模在预训练中至关重要,因为它要求大量且多样化的文本数据来全面捕获语言的广泛特征。常用的数据源主要分为两类:
- 开放数据集:这类资源广泛可用,包括如 Common Crawl、BooksCorpus 以及维基百科等,它们为预训练模型提供了丰富的文本素材。
- 专有数据集:这类数据则是根据特定行业或领域的需求收集而来,能够针对性地增强模型在相关领域的理解和表现。
数据清洗是保障数据质量的关键步骤,具体涉及以下几方面的处理:
- 去重与去噪:有效删除重复及无实际意义的文本,确保数据的纯净性。
- 内容过滤:严格移除包含偏见、仇恨言论或任何其他不恰当内容的文本,以维护数据的正面性和适用性。
- 标准化处理:统一文本的编码方式、标点符号使用及整体格式,提升数据的一致性和可处理性。
模型架构设计
层数与隐藏单元:模型的深度和宽度直接关联到其学习能力。具体配置如下:
- 层数(Layers):常见的层数设置包括 12 层、24 层、48 层等。
- 隐藏维度(Hidden Size):常见的隐藏维度设置如 768、1024、2048 等。
- 此外,多头注意力机制通过增加注意力头的数量,使模型能够捕获更丰富的语义关系。
位置编码方面,模型可采用绝对或相对位置编码方式,以更有效地理解序列中的信息。
预训练目标和策略
大语言模型目标:典型的预训练目标是最大化序列中下一个词元的概率,即最小化以下损失函数: L = − ∑ t = 1 T log P ( x t ∣ x < t ) L=-\sum_{t=1}^T\log P\left(x_t|x_{<t}\right) L=−∑t=1TlogP(xt∣x<t)
训练策略优化建议:
- 批量大小调整:增大批量大小能有效提升训练速度,但需注意硬件资源限制。为解决此问题,可考虑采用梯度累积技术,以在不增加硬件负担的前提下,模拟大批量训练的效果。
- 学习率精细化调控:建议实施预热(Warm-up)阶段,随后采用学习率衰减策略,如线性衰减或余弦退火,以更细致地控制学习过程,加速收敛同时避免震荡。
- 强化正则化措施:为防范模型过拟合,应综合运用 Dropout 技术和权重衰减等方法,有效减少模型复杂度,提升泛化能力。
计算资源和优化:
- 硬件需求:预训练大型模型通常需要大量的 GPUs 或 TPUs 资源,以支持分布式训练的高效进行。
- 混合精度训练:采用半精度(FP16)或混合精度技术,能够显著加速训练过程并减少内存占用。
- 分布式训练框架:利用如 Horovod、DeepSpeed 或 Megatron-LM 等框架,可助力实现多机多卡环境下的高效训练。
二、微调方法
传统微调 - 全参数微调:此方法涉及在特定任务的数据集上,运用与该任务紧密相关的损失函数,对模型的所有参数进行全面更新。其优点在于能够高度适应新任务的需求,实现更好的任务性能。然而,也存在一些不足,主要包括计算与存储成本高昂,以及容易引发过拟合问题。
参数高效微调方法:
- Adapter:在 Transformer 的层之间插入小巧的适配器模块,并仅针对这些模块的参数进行微调。
- LoRA(Low-Rank Adaptation):通过将权重的更新过程分解为低秩矩阵的形式,有效降低了需要更新的参数总数。
- Prefix Tuning:专注于优化输入序列的前缀嵌入部分,而不直接修改模型的原有权重。
优势:
- 参数效率高:显著减少了需要调整的参数数量,提高了训练效率。
- 迁移性强:微调后的模块具有良好的可迁移性,能够轻松地在不同任务之间共享使用。
流程:
- 初始模型微调:利用监督数据对模型执行初步微调。
- 收集人类反馈:让人类评估模型的输出,据此构建偏好数据集。
- 训练奖励模型:基于人类偏好数据,训练一个奖励模型,用于评估生成结果的质量。
- 策略优化:采用强化学习算法(如 PPO、DPO),优化模型以最大化奖励。
挑战:
- 数据收集成本高昂:需要大规模的人类标注工作。
- 训练稳定性问题:强化学习过程存在使模型性能退化的风险,需精细调整参数以确保稳定。
三、面临的挑战
道德与安全性。有害内容生成问题:人工智能模型在生成内容时,有可能包含偏见、仇恨言论或虚假信息,这对社会和个人都可能造成不良影响。隐私泄露风险:另一个值得关注的方面是隐私泄露。由于训练数据中可能包含敏感信息,模型在生成内容的过程中有可能不经意间泄露这些信息,从而侵犯个人隐私。
解决方案:
- 数据过滤:在预训练和微调阶段,实施严格的内容审查机制,以过滤并排除不良内容。
- 后处理过滤器:在模型生成内容的阶段,采用安全过滤器来屏蔽并防止有害输出的产生。
- 应用差分隐私技术:在训练过程中,引入差分隐私技术以保护用户个人信息的安全性和隐私。
计算与资源限制:
- 高昂的训练成本源于对大量计算资源和时间的需求。
- 部署挑战:大型模型在推理阶段同样需要高性能硬件的支撑。
解决方案包括:
- 模型压缩:利用剪枝、量化等技术手段来缩减模型规模。
- 知识蒸馏:通过该方法,将大型模型的知识有效传递给更小巧的模型。
技术复杂性:
- 训练不稳定性:在训练过程中,可能会遇到梯度爆炸或梯度消失的问题,这会影响模型的稳定性和收敛性。
- 长程依赖处理:面对超长序列数据时,模型往往难以有效捕获其中的依赖关系,这限制了其在处理复杂任务时的能力。
解决方案:
- 优化算法改进:采用更稳定的优化器,并结合适当的正则化方法来改善训练过程中的稳定性,减少梯度问题。
- 架构改进:通过引入相对位置编码和循环机制等创新设计,增强模型对长程依赖的捕捉能力,从而提升模型的整体性能。
最佳实践与建议
- 循序渐进:建议从处理小规模模型和数据集开始,随着项目的进展逐步扩大其规模。
- 精细超参数调优:根据具体的任务特性和数据分布,细致调整如学习率、批量大小等关键超参数。
- 严密监控训练过程:实时跟踪并监测损失值、梯度变化及模型生成质量,以便及时发现问题并迅速解决。
- 积极利用社区资源:广泛参考并借鉴开源项目、研究成果及社区经验,以加速项目的研发进程。
重头预训练和微调仅解码器的大语言模型是一项既复杂又具挑战性的任务,然而,其潜在价值极为显著。通过深入剖析模型架构、精心设计的训练策略以及直面挑战,并结合实际需求与可用资源,我们能够打造出性能卓越、应用广泛的通用或垂域大语言模型,为自然语言处理与理解领域的进步贡献重要力量。
小结一下:
- 预训练过程侧重于在大规模无标签文本数据上进行,旨在使模型掌握语言的通用规律和知识。此阶段利用自监督学习任务,如“下一个词元预测”,其核心在于依据给定的上下文,精确计算并预测下一个词元出现的概率,从而选取最可能的词元。通过这一过程,模型能够汲取大量的语法、语义及上下文信息,为后续针对特定任务的训练奠定坚实而全面的基础。
- 微调训练是在预训练模型的基础上,采用特定任务的标注数据进行深入训练的过程。其目的在于使模型适应特定的应用场景,进而提升在特定任务上的执行效果。微调过程往往需求较少的数据和计算资源,却能显著增强模型在特定领域的性能表现。
- 这两个训练阶段中,模型参数会逐步调整,旨在提升其对自然语言的理解与生成能力。首先,重头预训练阶段赋予模型通用的语言能力;随后,微调训练阶段则针对特定任务需求,对模型进行精细调整。这种分阶段训练策略已被验证为增强大型语言模型性能及扩展其应用范围的有效手段。
相关文章:
了解针对基座大语言模型(类似 ChatGPT 的架构,Decoder-only)的重头预训练和微调训练
🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 随着自然语言处理(NLP)技术的飞速进步,基于 Transformer 架构的大语言模型在众多任务中取得了显著成就。特别是 Decoder-only 架构,如 GPT 系列模型&…...
cmake如何在编译时区分-std=c++17和-std=gnu++17?检查宏
如何在编译时区分-stdc17和-stdgnu17?检查宏?-腾讯云开发者社区-腾讯云 我正在使用__int128扩展的g。-stdc17的问题是,一些C库不具备对该扩展的全部支持(即std::make_unsigned<>失败)。当使用-stdgnu17时,它工作得很好。 我…...
速通数据结构与算法第七站 排序
系列文章目录 速通数据结构与算法系列 1 速通数据结构与算法第一站 复杂度 http://t.csdnimg.cn/sxEGF 2 速通数据结构与算法第二站 顺序表 http://t.csdnimg.cn/WVyDb 3 速通数据结构与算法第三站 单链表 http://t.csdnimg.cn/cDpcC 4 速通…...
灵当CRM index.php接口SQL注入漏洞复现 [附POC]
文章目录 灵当CRM index.php接口SQL注入漏洞复现 [附POC]0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现 0x06 修复建议 灵当CRM index.php接口SQL注入漏洞复现 [附POC] 0x01 前言 免责声明:请勿利用文章内的相关技…...
修复: Flux女生脸不再油光满面, 屁股下巴 -- 超实用Comfyui小技巧
ComfyUI上目前最强画图模型公认为Flux. 初次用Flux基础模型画真实的女生时, 和SD比起来, 会觉得画出来细节更多, 更真实. 但是当画多了, 就会觉得画出来的女生总是似曾相识. 仔细观察, 会发现一些共同的特征. 人偏老气, 像30~50的女生. 改了提示词也效果不大. 颧骨凸起, 嘴…...
Actions Speak Louder than Words Meta史诗级的端到端推荐大模型落地
发现好久之前整理的推荐系统被遗忘在了草稿箱,让它出来见见世面。。。后续空了持续更新 文章目录 1.Background2.Related works2.1 典型推荐模型2.1.1 DIN2.1.2 DIEN2.1.3 SIM2.1.4 MMoE2.1.5 其他 2.2. 生成式推荐 3.Method3.1 统一特征空间3.2 重塑召回排序模型3.…...
金智维KRPA之Excel自动化
Excel自动化操作概述 Excel自动化主要用于帮助各种类型的企业用户实现Excel数据处理自动化,Excel自动化是可以从单元格、列、行或范围中读取数据,向其他电子表格或工作簿写入数据等活动。 通过相关命令,还可以对数据进行排序、进行格式…...
哪款宠物空气净化器能有效去除浮毛?希喂、352实测分享
你是否曾经站在家电卖场里,面对琳琅满目的宠物空气净化器产品而感到无所适从?或者在浏览网上商城时,被海量的参数和功能描述搞得头晕眼花?别担心,你不是一个人。在这个科技飞速发展的时代,选择一台既能满足…...
2024.9.28更换启辰R30汽车火花塞
2024.9.28周六汽车跑了11万公里,实在加速肉,起步顿挫,油耗在8个,决定更换火花塞。第一个火花塞要拆掉进气歧管。第二和第三个可以直接换。打开第二个火花塞一看电极都被打成深坑,针电极都被打凸。我有两个旧的火花塞&a…...
2024上海网站建设公司哪家比较好TOP3
判断一家网建公司的好坏,第一是看公司背景,包括成立时间,工商注册信息等,第二可以去看看建站公司做的案例,例如,网站开发、设计、引流等等的以往案例,了解清楚具体的业务流程。 一、公司背景 …...
TDesign组件库+vue3+ts 如何视觉上合并相同内容的table列?(自定义合并table列)
背景 当table的某一列的某些内容相同时,需要在视觉上合并这一部分的内容为同个单元格 如上图所示,比如需要合并当申请人为同个字段的列。 解决代码 <t-table:data"filteredData":columns"columns":rowspan-and-colspan"…...
BACnet协议-(基于ISO 8802-3 UDP)(2)
1、模拟设备的工具界面如下: 2、使用yet another bacnet explorer 用作服务,用于发现设备,界面如下: 3、通过wireshark 抓包如下: (1)、整体包如下: (2)、m…...
android 根据公历日期准确节气计算年月日时天干地支 四柱八字
1 年柱 判断当前日期是否超过本年的立春 未超过年份-1 已超过按当前年份计算 2月柱 当前日期是否超过当月的第一个节气 未超过-1 超过当前月份计算 节气对日柱时柱没影响。 获取某年某月第一个节气的准确日期 private int sTerm(int y, int n) {int[] sTermInfo…...
VMware虚拟机连接公网,和WindTerm
一、项目名称 vmware虚拟机连接公网和windterm 二、项目背景 需求1:windows物理机,安装了vmware虚拟机,需要访问公网资源,比如云服务商的yum仓库,国内镜像加速站的容器镜像,http/https资源。 需求2…...
游戏盾SDK真的能无视攻击吗
游戏盾SDK真的能无视攻击吗?在当今的互联网环境中,游戏行业蓬勃发展,但同时也面临着日益严峻的安全挑战。DDoS攻击、CC攻击、外挂作弊等恶意行为频发,不仅威胁着游戏的稳定性和公平性,也严重影响了玩家的游戏体验。为了…...
【QT】亲测有效:“生成的目标文件包含了过多的段,超出了编译器或链接器允许的最大数量”错误的解决方案
在使用dlib开发人脸对齐功能时,出现了”生成的目标文件包含了过多的段,超出了编译器或链接器允许的最大数量的错误“。 主要功能代码如下: #include <QApplication> #include <QImage> #include <QDebug>#include <dlib…...
什么是 Apache Ingress
Apache Ingress 主要用于管理来自外部的 HTTP 和 HTTPS 流量,并将其路由到合适的 Kubernetes 服务。 容器化与 Kubernetes 是现代云原生应用程序的基础。Kubernetes 的主要职责是管理容器集群,确保它们的高可用性和可扩展性,同时还提供自动化…...
SpringBoot助力墙绘艺术市场创新
3 系统分析 当用户确定开发一款程序时,是需要遵循下面的顺序进行工作,概括为:系统分析–>系统设计–>系统开发–>系统测试,无论这个过程是否有变更或者迭代,都是按照这样的顺序开展工作的。系统分析就是分析系…...
Antlr的使用
概念 ANTLR(ANother Tool for Language Recognition)是一个强大的解析器生成工具,用于读取、处理、执行或翻译结构化文本或二进制文件。ANTLR通过定义文法(grammar)来识别、构建和访问语言中的元素。 ANTLR为包括Jav…...
HealChat心理大语言模型 丨OPENAIGC开发者大赛高校组AI创作力奖
在第二届拯救者杯OPENAIGC开发者大赛中,涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到,我们特意开设了优秀作品报道专栏,旨在展示其独特之处和开发者的精彩故事。 无论您是技术专家还是爱好者,希望能带给…...
PyQt5整合爬虫制作图片爬取器-幽络源
前言 本篇教程适合对Python爬虫和Python软件制作感兴趣的小伙伴阅读,看完本篇教程,你将能更深入了解PyQt5与实际功能的整合方式。 1.设计界面 首先在pycharm中创建一个新目录,这里我建立的目录名为爬图片,然后按如图打开Qt设计…...
DC00023基于jsp+MySQL新生报到管理系统
1、项目功能演示 DC00023基于jsp新生报到管理系统java webMySQL新生管理系统 2、项目功能描述 基于jspMySQL新生报到管理系统项目分为学生、辅导员、财务处和系统管理员四个角色。 2.1 学生功能 1、系统登录 2、校园新闻、报到流程、学校简介、在线留言、校园风光、入校须知…...
AdaptIoT——制造业中使用因果关系的自我标签系统
0.概述 论文地址:https://arxiv.org/abs/2404.05976 在许多制造应用中,机器学习(ML)已被证明可以提高生产率。针对制造业应用提出了一些软件和工业物联网(IIoT)系统,以接收这些 ML 应用。最近&…...
代码随想录算法训练营Day15
654.最大二叉树 力扣题目链接:. - 力扣(LeetCode) 前序递归、循环不变量 class Solution {public TreeNode constructMaximumBinaryTree(int[] nums) {return findmax(nums,0,nums.length);}public TreeNode findmax(int[] nums,int lefti…...
Thinkphp/Laravel旅游景区预约系统的设计与实现
目录 技术栈和环境说明具体实现截图设计思路关键技术课题的重点和难点:框架介绍数据访问方式PHP核心代码部分展示代码目录结构解析系统测试详细视频演示源码获取 技术栈和环境说明 采用PHP语言开发,开发环境为phpstudy 开发工具notepad并使用MYSQL数据库…...
SpringCloud学习记录|day1
学习材料 2024最新SpringCloud微服务开发与实战,java黑马商城项目微服务实战开发(涵盖MybatisPlus、Docker、MQ、ES、Redis高级等) 学redis讲到微服务就停了,nginx也是。 所以嘛,我终于来到微服务了。 复习MyBatisP…...
Elasticsearch讲解
1.Elasticsearch基本知识 1.基本认识和安装 Elasticsearch是由elastic公司开发的一套搜索引擎技术,它是elastic技术栈中的一部分。完整的技术栈包括: Elasticsearch:用于数据存储、计算和搜索 Logstash/Beats:用于数据收集 Kib…...
Linux嵌入式有发展吗,以及对uboot,kernel,rootfs的领悟
工作多年后,对uboot,kernel,rootfs的领悟,总结 上大学时,51单片机,正点原子的stm32,linux arm开发。对uboot,kernel,rootfs的理解云里雾里,感觉自己很懂了 其…...
基于Springboot+Vue的公寓管理系统(含源码+数据库)
1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 该系统…...
多功能声学气膜馆:承载梦想与希望的舞台—轻空间
在9月29日上午,苏州大学应用技术学院的2024级新生开学典礼暨开学第一课在轻空间建造的多功能声学气膜馆内盛大举行。这一盛典不仅见证了2849名新生的入学,也展示了气膜馆的独特魅力与优越功能。 卓越的声学表现 声学气膜馆采用高性能材料,确保…...
中线企业网站建设的问题/哪里的网络推广培训好
http://my.oschina.net/goal/blog/195749?p1 目录[-] 写在前面的话什么是字节序MSB和LSB大端序小端序网络字节序主机字节序总结pack/unpack详解格式字符翻译格式字符详解unpack的用法一些例子PHP作为一门为web而生的服务器端开发语言,被越来越多的公司所采用。其中…...
廊坊网站建设精灵/外贸网站推广的方法
swal()方法是一个提示框;swal({title: "",text: "请扫描用户手机上的付款码",type: "input",showCancelButton: true,closeOnConfirm: false,cancelButtonText: "取消",confirmButtonText: "确认",imageUrl: &qu…...
ios wordpress连接站点/江苏网站推广
请下载安装文档:https://github.com/lpx20181019/document...
策划公司网站建设/抖音搜索引擎优化
背景:导出excel表,需要导出特定列,EXCEL注解有一个属性isColumnHidden,当为true时候,该列就不会导出 怎么动态修改? // 通过反射 获取目标实体类的目标字段 Field file ForceTaskExpVo.class.getDeclared…...
做网站客户最关心哪些问题/搜索引擎成功案例分析
704. 二分查找 给定一个 n 个元素有序的(升序)整型数组 nums 和一个目标值 target ,写一个函数搜索 nums 中的 target,如果目标值存在返回下标,否则返回 -1。 class Solution { public:int search(vector<int>&…...
北京响应式网站建设费用/高级搜索入口
旋转字符串 解法一:暴力移位法 初看此题,可能最先想到的方法是按照题目所要求的,把需要移动的字符一个一个地移动到字符串的尾部,如此我们可以实现一个函数LeftShiftOne(char* s, int n) ,以完成移动一个字符到字符串…...