当前位置：首页 > news >正文

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）

news 2026/2/8 1:54:43

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）

flyfish

四个阶段

预训练（pre-training）
监督微调（supervised fine tuning, SFT）
奖励建模（reward modeling）
强化学习（reinforcement learning）

每个阶段又分为三个部分（从上到下）：数据集、算法和输出的模型。

翻译图，最后附上原图

在这里插入图片描述
GPT助手（GPT Assistant）的训练流程，分为四个主要阶段：预训练（Pretraining）、有监督微调（Supervised Finetuning）、奖励建模（Reward Modeling）和强化学习（Reinforcement Learning）。每个阶段的详细内容如下：
一. 预训练阶段（Pretraining Stage）

数据集（Dataset）：
原始互联网数据（Raw Internet Data） ：使用来自互联网的原始文本数据，数据量达到万亿级别的单词（tokens）。这些数据量巨大但质量较低，涵盖了各种类型的内容。
算法（Algorithm）：
语言建模（Language Modeling） ：模型通过预测文本序列中的下一个token来进行训练。这是标准的自回归语言模型训练方式。
模型（Model）：
基础模型（Base Model） ：经过预训练的基础语言模型，例如GPT、LLaMA、PaLM等模型，经过数月使用成千上万块GPU训练而成。这些模型可以独立部署并用于各种任务。
备注（Notes）：
使用了数千块GPU，耗费数月时间训练 。这些基础模型是诸如GPT、LLaMA、PaLM等。

二. 有监督微调阶段（Supervised Finetuning Stage）

数据集（Dataset）：
展示数据（Demonstrations）： 由人工编写的理想助手响应数据集，包含约10到10万个问题及其响应。这些数据量相对较少，但质量非常高。
算法（Algorithm）：
语言建模（Language Modeling） ：继续通过语言建模的方式，对模型进行微调，专注于学习这些高质量的问答对。
模型（Model）：
微调模型（SFT Model）： 在基础模型的基础上，通过有监督微调训练得到的模型，例如Vicuna-13B。这些模型可以用于更具体的任务并部署。
备注（Notes）：
使用了1到100块GPU，耗时数天进行训练 。例如Vicuna-13B模型，经过微调后可以部署。

三. 奖励建模阶段（Reward Modeling Stage）

数据集（Dataset）：
比较数据（Comparisons）： 使用由人工编写的10万到100万个回答的好坏对比数据。这些数据量虽然较少，但质量非常高，用于训练模型区分高质量和低质量的回答。
算法（Algorithm）：
二值分类（Binary Classification）： 训练奖励模型，预测根据用户偏好进行奖励的结果。该模型用来评估和指导模型生成更好的回答。
模型（Model）：
奖励模型（RM Model）： 通过二值分类训练得到的奖励模型，它不能独立部署，主要用于强化学习阶段的模型优化。
备注（Notes）：
使用了1到100块GPU，耗时数天进行训练 。此模型用于指导强化学习阶段的训练。

四. 强化学习阶段（Reinforcement Learning Stage）

数据集（Dataset）：
提示数据（Prompts）： 使用由人工编写的约1到10万个提示语句进行训练。数据量较少但质量很高，帮助模型在特定上下文中生成更优质的响应。
算法（Algorithm）：
强化学习（Reinforcement Learning）： 使用奖励模型指导生成token，通过生成使奖励最大化的token序列来优化模型的表现。
模型（Model）：
强化学习模型（RL Model）： 经过强化学习训练的最终模型，初始化自微调模型，并利用奖励模型进行优化。这些模型可以在实际应用中部署，如ChatGPT、Claude等。
备注（Notes）：
使用了1到100块GPU，耗时数天进行训练 。最终模型例如ChatGPT、Claude，可以进行部署和实际应用。

原图

在这里插入图片描述

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ） flyfish 四个阶段预训练（pre-training） 监督微调（supervised fine tuning, SFT） 奖励建模（reward modeling&#xff09…...

编程日记 2024/8/17 21:56:08

网络如何发送一个数据包

网络如何发送一个数据包网络消息发送就是点一点屏幕。骚瑞，这一点都不好笑。（小品就是我的本质惹） 之前我就是会被这个问题搞的不安宁。是怎么知道对方的IP地址的呢？怎么知道对方的MAC呢？世界上计算机有那么多&…...

编程日记 2024/8/17 21:53:46

// 自定义class类对象类型 class Article {public id: numberpublic title: stringpublic content: stringconstructor(id: number, title: string, content: string) {this.id idthis.title titlethis.content content} }// 子组件 Component struct ArticleComponent {Pro…...

编程日记 2024/8/17 21:52:45

SQL基础教程（八）SQL高级处理

※食用指南：文章内容为《SQL基础教程》系列学习笔记，该书对新手入门非常友好，循序渐进，浅显易懂，本人主要用来补全学习MySQL中未涉及的部分，便于刷题和做项目。官方电子书：《SQL基础教程》第2…...

编程日记 2024/8/17 21:51:44

[论文笔记] Data-Juicer: A One-Stop Data Processing System for Large Language Models

https://arxiv.org/pdf/2309.02033 GitHub - modelscope/data-juicer: A one-stop data processing system to make data higher-quality, juicier, and more digestible for (multimodal) LLMs! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷为大模型提供更高质量、更丰富、更易”…...

编程日记 2024/8/17 21:50:42

期末速成复习资料——操作系统

体型：选择20判断10填空10*2简答4*5计算2*10 第一章在一个计算机系统中，通常都含有多种硬件和软件资源。归纳起来可将这些资源分为四类：处理机、存储器、I/O设备以及文件（数据和程序）。相应地，OS的主要功能…...

编程日记 2024/8/17 21:49:41

Android之Service与IntentService区别

目录 Service特点使用场景示例 IntentService特点使用场景示例区别总结线程管理：生命周期：使用场景：自动停止： 总结在Android开发中，Service是一个可以在后台执行长时间运行操作的组件。主要有两种类型的Service&…...

编程日记 2024/8/17 21:48:36

【MySQL】表的设计

系列文章目录第一章数据库基础第二章数据库基本操作第三章数据库约束文章目录系列文章目录前言一、表的设计二、表的关系总结前言在前文中，我们学会了基本的CRUD操作，对数据库中的数据进行约束以提高数据库的准确性。接下来介绍的表的设计就是…...

编程日记 2024/8/17 21:46:33

NC 用两个栈实现队列

系列文章目录文章目录系列文章目录前言前言前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站，这篇文章男女通用，看懂了就去分享给你的码吧。描述用两个栈来实…...

编程日记 2024/8/17 21:44:31

用后端实现一个简单的登录模块2 前端页面

该模块能做到的功能： 1阶：输入账号和密码，输入正确即可返回登录成功的信息，反之则登录失败 2阶：有简单的前端页面，有登录成功和失败的弹窗，还有登录成功的主页面 3阶：前端页面的注…...

编程日记 2024/8/17 21:38:22

MySQL慢查询的查找语法

一、引言数据库查询快慢是影响项目性能的一大因素，对于数据库，我们除了要优化SQL，更重要的是得先找到需要优化的SQL语句。性能优化的思路首先需要使用慢查询功能，去获取所有查询时间比较长的SQL语句其次使用explain命令去查…...

编程日记 2024/8/17 21:37:20

SQL中的聚合方法与Pandas的对应关系

在SQL和Pandas中，聚合方法是用来对数据进行汇总统计的重要工具。下面是SQL中的各种聚合方法及其与Pandas中相应操作的对应关系： 1. COUNT SQL: COUNT(*) 返回表中的行数。COUNT(column) 返回指定列中非空值的数量。 Pandas: count() 方法用于计算非空值…...

编程日记 2024/8/17 21:33:14

计算机毕业设计选题推荐-计算中心高性能集群共享平台-Java/Python项目实战

✨作者主页：IT毕设梦工厂✨ 个人简介：曾从事计算机专业培训教学，擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…...

编程日记 2024/8/17 21:32:13

仿RabbitMq实现简易消息队列基础篇（future操作实现异步线程池）

TOC 介绍 std::future 是C11标准库中的一个模板类，他表示一个异步操作的结果，当我们在多线程编程中使用异步任务时，std::future可以帮助我们在需要的时候，获取任务的执行结果，std::future 的一个重要特性是能…...

编程日记 2024/8/17 21:30:08

经典算法题总结：数组常用技巧（双指针，二分查找和位运算）篇

双指针在处理数组和链表相关问题时，双指针技巧是经常用到的，双指针技巧主要分为两类：左右指针和快慢指针。所谓左右指针，就是两个指针相向而行或者相背而行；而所谓快慢指针，就是两个指针同向而行&#xf…...

编程日记 2024/8/17 21:29:07

版本控制基础理论

一、本地版本控制在本地记录文件每次的更新，可以对每个版本做一个快照，或是记录补丁文件，适合个人使用，如RCS. 二、集中式版本控制（代表SVN） 所有的版本数据都保存在服务器上，协同开发者从…...

编程日记 2024/8/17 21:26:02

微分方程（Blanchard Differential Equations 4th）中文版Section1.4

1.4 NUMERICAL TECHNIQUE: EULER’S METHOD 上一节中讨论的斜率场的几何概念与近似微分方程解的基本数值方法密切相关。给定一个初值问题 d y d t = f ( t , y ) , y ( t 0 ) = y 0 , \frac{dy}{dt}=f(t,y), \quad y(t_0) = y_0, dtdy=f(t,y),y(t0)=y0, 我们可以通过首…...

编程日记 2024/8/17 21:25:01

求职Leetcode算法题（7）

1.搜索旋转排序数组这道题要求时间复杂度为o（log n），那么第一时间想到的就是二分法，二分法有个前提条件是在有序数组下，我们发现在这个数组中存在两部分是有序的，所以我们只需要对前半部分和后半部分分别…...

编程日记 2024/8/17 21:21:56

ActiveMQ、RabbitMQ、Kafka、RocketMQ在事务性消息、性能、高可用和容错、定时消息、负载均衡、刷盘策略的区别

ActiveMQ、RabbitMQ、Kafka、RocketMQ这四种消息队列在事务性消息、性能、高可用和容错、定时消息、负载均衡、刷盘策略等方面各有其特点和差异。以下是对这些方面的详细比较： 1. 事务性消息 ActiveMQ：支持事务性消息。ActiveMQ可以基于JMS&#xff08…...

编程日记 2024/8/17 21:19:53

HanLP分词的使用与注意事项

1 概述 HanLP是一个自然语言处理工具包，它提供的主要功能如下： 分词转化为拼音繁转简、简转繁提取关键词提取短语提取词语自动摘要依存文法分析下面将介绍其分词功能的使用。 2 依赖下面是依赖的jar包。 <dependency><groupId>com.ha…...

编程日记 2024/8/17 21:18:52

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

编辑：陈萍萍的公主一点人工一点智能未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

编程新知 2026/2/7 23:18:28

Spring Boot 实现流式响应（兼容 2.7.x）

在实际开发中，我们可能会遇到一些流式数据处理的场景，比如接收来自上游接口的 Server-Sent Events（SSE） 或流式 JSON 内容，并将其原样中转给前端页面或客户端。这种情况下，传统的 RestTemplate 缓存机制会…...

编程新知 2025/8/11 8:18:44

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一）

宇树机器人多姿态起立控制强化学习框架论文解析论文解读：交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一） 论文解读：交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化…...

编程新知 2025/8/27 0:58:09

NPOI Excel用OLE对象的形式插入文件附件以及插入图片

static void Main(string[] args) {XlsWithObjData();Console.WriteLine("输出完成"); }static void XlsWithObjData() {// 创建工作簿和单元格,只有HSSFWorkbook,XSSFWorkbook不可以HSSFWorkbook workbook new HSSFWorkbook();HSSFSheet sheet (HSSFSheet)workboo…...

编程新知 2025/10/6 2:06:51

Rust 开发环境搭建

环境搭建 1、开发工具RustRover 或者vs code 2、Cygwin64 安装 https://cygwin.com/install.html 在工具终端执行： rustup toolchain install stable-x86_64-pc-windows-gnu rustup default stable-x86_64-pc-windows-gnu 2、Hello World fn main() { println…...

编程新知 2026/2/2 3:59:34

苹果AI眼镜：从“工具”到“社交姿态”的范式革命——重新定义AI交互入口的未来机会

在2025年的AI硬件浪潮中，苹果AI眼镜（Apple Glasses）正在引发一场关于“人机交互形态”的深度思考。它并非简单地替代AirPods或Apple Watch，而是开辟了一个全新的、日常可接受的AI入口。其核心价值不在于功能的堆叠，而在于如何通过形态设计打破社交壁垒，成为用户“全天佩戴…...

编程新知 2025/12/22 12:09:15

LangFlow技术架构分析

🔧 LangFlow 的可视化技术栈前端节点编辑器底层框架：基于 （一个现代化的 React 节点绘图库） 功能： 拖拽式构建 LangGraph 状态机实时连线定义节点依赖关系可视化调试循环和分支逻辑与 LangGraph 的深…...

编程新知 2025/6/10 21:26:51

Kafka主题运维全指南：从基础配置到故障处理

#作者：张桐瑞文章目录主题日常管理1. 修改主题分区。2. 修改主题级别参数。3. 变更副本数。4. 修改主题限速。5.主题分区迁移。6. 常见主题错误处理常见错误1：主题删除失败。常见错误2：__consumer_offsets占用太多的磁盘。主题日常管理 …...

编程新知 2025/6/10 21:14:43

热烈祝贺埃文科技正式加入可信数据空间发展联盟

2025年4月29日，在福州举办的第八届数字中国建设峰会“可信数据空间分论坛”上，可信数据空间发展联盟正式宣告成立。国家数据局党组书记、局长刘烈宏出席并致辞，强调该联盟是推进全国一体化数据市场建设的关键抓手。郑州埃文科技有限公司&am…...

编程新知 2026/2/7 20:23:55

【java面试】微服务篇

【java面试】微服务篇一、总体框架二、Springcloud（一）Springcloud五大组件（二）服务注册和发现1、Eureka2、Nacos （三）负载均衡1、Ribbon负载均衡流程2、Ribbon负载均衡策略3、自定义负载均衡策略4、总结 …...

编程新知 2026/1/26 19:23:29

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）

四个阶段

翻译图，最后附上原图

原图

相关文章：

GPT助手的训练流程四个主要阶段（ GPT Assistant training pipeline ）

网络如何发送一个数据包

【Harmony OS 4.0】向上滑动加载案例

SQL基础教程（八）SQL高级处理

[论文笔记] Data-Juicer: A One-Stop Data Processing System for Large Language Models

期末速成复习资料——操作系统

Android之Service与IntentService区别

【MySQL】表的设计

NC 用两个栈实现队列

用后端实现一个简单的登录模块2 前端页面

MySQL慢查询的查找语法

SQL中的聚合方法与Pandas的对应关系

计算机毕业设计选题推荐-计算中心高性能集群共享平台-Java/Python项目实战

仿RabbitMq实现简易消息队列基础篇（future操作实现异步线程池）

经典算法题总结：数组常用技巧（双指针，二分查找和位运算）篇

版本控制基础理论

微分方程（Blanchard Differential Equations 4th）中文版Section1.4

求职Leetcode算法题（7）

ActiveMQ、RabbitMQ、Kafka、RocketMQ在事务性消息、性能、高可用和容错、定时消息、负载均衡、刷盘策略的区别

HanLP分词的使用与注意事项

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

Spring Boot 实现流式响应（兼容 2.7.x）

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一）

NPOI Excel用OLE对象的形式插入文件附件以及插入图片

Rust 开发环境搭建

苹果AI眼镜：从“工具”到“社交姿态”的范式革命——重新定义AI交互入口的未来机会

LangFlow技术架构分析

Kafka主题运维全指南：从基础配置到故障处理

热烈祝贺埃文科技正式加入可信数据空间发展联盟

【java面试】微服务篇