当前位置：首页 > news >正文

RLHF的替代算法之DPO原理解析：从Zephyr的DPO到Claude的RAILF

news 文章来源：https://blog.csdn.net/v_JULY_v/article/details/134242910 2025/4/21 16:23:07

前言

本文的成就是一个点顺着一个点而来的，成文过程颇有意思

首先，如上文所说，我司正在做三大LLM项目，其中一个是论文审稿GPT第二版，在模型选型的时候，关注到了Mistral 7B(其背后的公司Mistral AI号称欧洲的OpenAI，当然你权且一听，切勿过于当真)
而由Mistral 7B顺带关注到了基于其微调的Zephyr 7B，而一了解Zephyr 7B的论文，发现它还挺有意思的，即它和ChatGPT三阶段训练方式的不同在于：
在第二阶段训练奖励模型的时候，不是由人工去排序模型给出的多个答案，而是由AI比如GPT4去根据不同答案的好坏去排序
且在第三阶段的时候，用到了一个DPO的算法去迭代策略，而非ChatGPT本身用的PPO算法去迭代策略
考虑到ChatGPT三阶段训练方式我已经写得足够完整了(instructGPT论文有的细节我做了重点分析、解读，论文中没有的细节我更做了大量的扩展、深入、举例，具体可以参见《ChatGPT技术原理解析：从RL之PPO算法、RLHF到GPT4、instructGPT》)
而有些朋友反馈到DPO比PPO好用(当然了，我也理解，毕竟PPO那套算法涉及到4个模型，一方面的策略的迭代，一方面是价值的迭代，理解透彻确实不容易)
加之ChatGPT的最强竞品Claude也用到了一个RAILF的机制(和Zephyr 7B的AI奖励/DPO颇有异曲同工之妙)，之前也曾想过写来着，但此前一直深究于ChatGPT背后的原理细节，现在也算有时间好好写一写了

综上，便拟定了本文的标题

第一部分什么是DPO

今年5月份，斯坦福的一些研究者提出了RLHF的替代算法：直接偏好优化(Direct Preference Optimization，简称DPO)，其对应论文为《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》

那其与ChatGPT所用的RLHF有何本质区别呢，简言之

RLHF将奖励模型拟合到人类偏好数据集上，然后使用RL方法比如PPO算法优化语言模型的策略，以输出可以获得高奖励的responses(同时不会偏离原始SFT模型太远)
RLHF methods fita reward model to a dataset of human preferences and then use RL to optimize a language model policy to produce responses assigned high reward without drifting excessively far from the original model.

虽然RLHF产生的模型具有令人印象深刻的会话和编码能力，但RLHF比监督学习复杂得多，其涉及训练多个LM和在训练循环中从LM策略中采样(4个模型，涉及到经验数据的采集，以及策略的迭代和价值的迭代，如果不太熟或忘了，请参见《ChatGPT技术原理解析》)，从而产生大量的计算成本
While RLHF produces models with impressive conversational and coding abilities, the RLHFpipeline is considerably more complex than supervised learning, involving training multiple LMs andsampling from the LM policy in the loop of training, incurring significant computational costs.
相比之下，DPO通过简单的分类目标直接优化最满足偏好的策略，而没有明确的奖励函数或RL
DPO directly optimizes for the policy best satisfying the preferences with a simple classification objective, without an explicit reward function or RL

更具体而言，DPO的本质在于

增加了被首选的response相对不被首选的response的对数概率，但它包含了一个动态的、每个示例的重要性权重，以防止我们发现的简单概率比目标发生的模型退化
与现有算法一样，DPO依赖于理论偏好模型，衡量给定的奖励函数与经验偏好数据的一致性
the DPO update increases the relative log probability of preferred to dispreferred responses, but it incorporates a dynamic, per-example importance weight that preventsthe model degeneration that we find occurs with a naive probability ratio objective
Like existingalgorithms, DPO relies on a the oretical preference model that measures how well a given reward function aligns with empirical preference data.
然而，虽然现有方法比如ChatGPT通过定义偏好损失来训练奖励模型，然后在奖励模型的指引下训练策略，但DPO使用变量的变化来直接将偏好损失定义为策略的函数，给定人类对模型响应的偏好数据集，DPO因此可以使用简单的二元交叉熵目标优化策略，而无需在训练期间明确学习奖励函数或从策略中采样
However, while existing methods use the preference model to define a preference loss to train a reward model and then train a policy that optimizes the learned reward model, DPO uses a change of variables to definethe preference loss as a function of the policy directly. Given a dataset of human preferences overmodel responses, DPO can therefore optimize a policy using a simple binary cross entropy objective,without explicitly learning a reward function or sampling from the policy during training.

第二部分 Zephyr 7B的训练模式：从AI奖励到DPO

// 待更

第三部分 Claude的RAILF

// 待更

RLHF的替代算法之DPO原理解析：从Zephyr的DPO到Claude的RAILF

前言本文的成就是一个点顺着一个点而来的，成文过程颇有意思首先，如上文所说，我司正在做三大LLM项目，其中一个是论文审稿GPT第二版，在模型选型的时候，关注到了Mistral 7B(其背后的公司Mistral AI号称欧洲…...

编程日记 2023/11/6 13:43:11

U盘显示无媒体怎么办？方法很简单

当出现U盘无媒体情况时，您可以在磁盘管理工具中看到一个空白的磁盘框，并且在文件资源管理器中不会显示出来。那么，导致这种问题的原因是什么呢？我们又该怎么解决呢？ 导致U盘无媒体的原因是什么？ 当您遇到上…...

编程日记 2023/11/6 13:41:09

进销存管理系统如何提高供应链效率?

供应链和进销存系统之间有着密切的联系。进销存系统是供应链管理的一部分，用于跟踪和管理产品的采购、库存和销售。进销存管理是供应链管理的核心流程之一，它有助于提高效率、降低成本、增加盈利，同时确保客户满意度，这对于企业的…...

编程日记 2023/11/6 13:40:07

用AI魔法打败AI魔法

全文均为AI创作。此为内容创作模板，在发布之前请将不必要的内容删除当前，AI技术的广泛应用为社会公众提供了个性化智能化的信息服务，也给网络诈骗带来可乘之机，如不法分子通过面部替换语音合成等方式制作虚假图像、音频、视频仿…...

编程日记 2023/11/6 13:39:05

Java 中的final：不可变性的魔法之旅

🎏：你只管努力，剩下的交给时间 🏠 ：小破站 Java 中的final：不可变性的魔法之旅前言第一：了解final变量第二：final方法第三：final类第四：final参数第五&#…...

编程日记 2023/11/6 13:38:04

Alfred 5 for mac(最好用的苹果mac效率软件)中文最新版

Alfred 5 Mac是一款非常实用的工具，它可以帮助用户更加高效地使用Mac电脑。用户可以学会使用快捷键、全局搜索、快速启动应用程序、使用系统维护工具、快速复制粘贴文本以及自定义设置等功能，以提高工作效率。 Alfred for Mac 的一些主要功能包括&#…...

编程日记 2023/11/6 13:37:03

常见的Python解释器，你了解多少？

Python，作为一种解释型编程语言，它的运行过程也遵循“程序源码—>解释器（字节码）—>虚拟机（可执行文件）”的流程。在编写Python程序时，是在扩展名为.py的文件中进行编写，.py…...

编程日记 2023/11/6 13:36:01

在 Python 中使用 Selenium 按文本查找元素

我们将通过示例介绍在Python中使用selenium通过文本查找元素的方法。在 Python 中使用 Selenium 按文本查找元素软件测试是检查应用程序是否满足用户需求的技术。该技术有助于使应用程序成为无错误的应用程序。软件测试可以手动完成，也可以通过某些软件完成。…...

编程日记 2023/11/6 13:35:00

【Notepad++】搜索返回窗口(find result)被隐藏或遮挡如何恢复？

Notepad 搜索返回窗口被隐藏或遮挡如何恢复 1：F72：F12恢复之后可以多看一些Notepad中快捷键的使用，以备不时之需。 1：F7 打开任意文件,搜索任意内容,按F7,焦点切换到Find result。按AltSpace，出现小窗口点击"移动…...

编程日记 2023/11/6 13:33:59

应用软件安全编程--05预防 XML 注入

如果用户有能力使用结构化XML 文档作为输入，那么他能够通过在数据字段中插入 XML 标签来重写这个 XML 文档的内容。 XML 解析器会将这些标签按照正常标签进行解析。下面是一段在线商店的 XML 代码，主要用于查询后台数据库。 <item)<descri…...

编程日记 2023/11/6 13:32:58

JavaEE-博客系统3（功能设计）

本部分内容为：实现登录功能；强制要求用户登录；实现显示用户信息；退出登录；发布博客该部分的后端代码如下： Overrideprotected void doPost(HttpServletRequest req, HttpServletResponse resp) throws Ser…...

编程日记 2023/11/6 13:30:56

椭圆滤波器

之前的文章信号去噪中列出了7种常用的信号去噪算法，对于后两种算法——深度学习和奇异值分解(SVD)，我现在也不太理解，就先不写了。很多朋友留言又提了一些算法，今天一起来聊聊椭圆滤波器。椭圆滤波器（Elliptic F…...

编程日记 2023/11/6 13:29:55

Mac 下安装golang环境

一、下载安装包安装包下载地址下载完成，直接继续----->下一步到结束即可安装成功； 安装成功之后，验证一下； go version二、配置环境变量终端输入vim ~/.zshrc进入配置文件，输入i进行编辑打开的不管是空文本…...

编程日记 2023/11/6 13:28:54

前端面试大纲

一、CSS 1.说一下CSS的盒模型。在HTML页面中的所有元素都可以看成是一个盒子盒子的组成：内容content、内边距padding、边框border、外边距margin 盒模型的类型： 标准盒模型 margin border padding content IE盒模型 margin content(border padd…...

编程日记 2023/11/6 13:27:53

CAN（Controller Area Network）是一种用于在汽车和工业领域中进行通信的串行总线系统(附加案例)

CAN（Controller Area Network）是一种用于在汽车和工业领域中进行通信的串行总线系统。它是一种高可靠性、多主机、多节点通信协议，主要用于实时控制和数据传输。 CAN数据是指在CAN总线上通过CAN协议进行通信传输的数据。CAN总线上的数据被分…...

编程日记 2023/11/6 13:26:52

代码随想录day53|1143.最长公共子序列、 1035.不相交的线、 53. 最大子序和

1143.最长公共子序列 dp[i][j]：长度为[0, i - 1]的字符串text1与长度为[0, j - 1]的字符串text2的最长公共子序列为dp[i][j] 因此是if(nums1[i-1] nums2[j-1]) 1035.不相交的线和上一题一样 53. 最大子序和 int result dp[0]; 不是0，因为dp[i]有…...

编程日记 2023/11/6 13:25:51

硬件参考： https://zhuanlan.zhihu.com/p/97491454 https://blog.csdn.net/qq_22222449/article/details/106492469 https://zhuanlan.zhihu.com/p/26327347 https://zhuanlan.zhihu.com/p/582524766 包括野火、正点原子的资料一片内存是 1Gbit 128MByte 16bit …...

编程日记 2023/11/6 13:24:50

《golang设计模式》第三部分·行为型模式-04-迭代器模式（Iterator）

文章目录 1. 概念1.1 角色1.2 类图 2. 代码示例2.1 需求2.2 代码2.3 类图 1. 概念迭代器（Iterator）能够在不暴露聚合体内部表示的情况下，向客户端提供遍历聚合元素的方法。 1.1 角色 InterfaceAggregate（抽象聚合）…...

编程日记 2023/11/6 13:23:48

python加上ffmpeg实现音频分割

前言：这是一个系列的文章，主要是使用python加上ffmpeg来对音视频文件进行处理，包括音频播放、音频格式转换、音频文件分割、视频播放等。系列文章链接：链接1: python使用ffmpeg来制作音频格式转换工具（优化版）链接2：＜Python＞PyQt5+ffmpeg，简单视频播放器的编写（…...

编程日记 2023/11/6 13:22:45

LLM之Prompt（一）：5个Prompt高效方法在文心一言3.5的测试对比

在Effective Prompt: 编写高质量Prompt的14个有效方法文中我们了解了14个编写Prompt的方法（非常感谢原作者），那么这些Prompt在具体大模型中的效果如何呢？本文以百度文心一言3.5版本大模型在其中5个方法上做个测试对比。第1条&am…...

编程日记 2023/11/6 13:21:44

TreeBERT：基于树的编程语言预训练模型。

TreeBERT https://arxiv.org/abs/2105.12485 Comments: Accepted by UAI2021 Subjects: Machine Learning (cs.LG); Programming Languages (cs.PL) Cite as: arXiv:2105.12485 [cs.LG] 1 Introduction 现有挑战： 设计适当的机制来学习程序的语法结构代码是强结…...

编程日记 2023/11/6 13:20:43

生成小程序的二维码的base64码（中间logo可以自定义）

1.生成基础二维码 /*** 生成微信小程序二维码，带参数,最终转成base64* param page 当前小程序相对页面必须是已经发布的小程序存在的页面(否则报错)，例如 pages/index/index, 根路径前不要填加 /,不能携带参数(参数请放在scene字段里)，如果不…...

编程日记 2023/11/6 13:19:42

【音视频 | Ogg】Ogg封装格式详解——包含Ogg封装过程、数据包(packet)、页(page)、段(segment)等

😁博客主页😁：🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑：🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…...

编程日记 2023/11/6 13:16:38

ubuntu 22.04 安装ros2 iron

目录一、镜像二、ifconfig 三、ssh连接不上四、安装iron 一、镜像 123云盘直接下载二、ifconfig sudo apt install net-tools 三、ssh连接不上 sudo apt install openssh-server 四、安装iron Ubuntu (Debian packages) — ROS 2 Documentation: Iron document…...

编程日记 2023/11/6 13:15:38

PHP语言、B/S手术麻醉临床信息管理系统源码

手术麻醉临床信息管理系统有着完善的临床业务功能，能够涵盖整个围术期的工作，能够采集、汇总、存储、处理、展现所有的临床诊疗资料。通过该系统的实施，能够规范麻醉科的工作流程，实现麻醉手术过程的信息数字化，自动生…...

编程日记 2023/11/6 13:14:37

Win11安装网络打印机

https://support.microsoft.com/zh-cn/windows/%E5%9C%A8-windows-%E4%B8%AD%E5%AE%89%E8%A3%85%E6%89%93%E5%8D%B0%E6%9C%BA-cc0724cf-793e-3542-d1ff-727e4978638b...

编程日记 2023/11/6 13:13:36

逆向学习记录（3）工具介绍jadx、gda和jeb

1、jadx 下载地址如下，目前最新版本为v1.4.7，改成想要下载的版本号就能下载对应的版本。 https://github.com/skylot/jadx/releases/tag/v1.4.7 下载后解压，进入对应路径的bin文件夹内，运行jadx-gui.bat。 2、gda 下载地址和gi…...

编程日记 2023/11/6 13:12:34

C#，数值计算——偏微分方程，Mglin的计算方法与源程序

1 文本格式 using System; using System.Collections.Generic; namespace Legalsoft.Truffer { public class Mglin { private int n { get; set; } private int ng { get; set; } private double[,] uj1 { get; set; } private Lis…...

编程日记 2023/11/6 13:11:33

一机服务万人，拓世法宝AI智能商业数字人一体机，解锁文旅新表达

在人工智能的强劲推动下，人们走进了一个令人振奋的数字化时代。如何让文化传承与现代科技完美融合，成为一个十分有趣的议题，当AI技术结合文旅生活，便悄然开启了一种全新的旅游服务模式——AI数字文旅。在我国国家博物馆、文旅大…...

编程日记 2023/11/6 13:10:32

【源码解析】聊聊SpringBean是如何初始化和创建

我们知道通过类进行修复不同的属性，比如单例、原型等，而具体的流程是怎么样的呢，这一篇我们开始从源码的视角分析以下。刷新方法在刷新容器中有一个方法，其实就是 Bean创建的过程。 finishBeanFactoryInitialization(beanFact…...

编程日记 2023/11/6 13:09:31

RLHF的替代算法之DPO原理解析：从Zephyr的DPO到Claude的RAILF

前言

第一部分什么是DPO

第二部分 Zephyr 7B的训练模式：从AI奖励到DPO

第三部分 Claude的RAILF

相关文章：

RLHF的替代算法之DPO原理解析：从Zephyr的DPO到Claude的RAILF

U盘显示无媒体怎么办？方法很简单

进销存管理系统如何提高供应链效率?

用AI魔法打败AI魔法

Java 中的final：不可变性的魔法之旅

Alfred 5 for mac(最好用的苹果mac效率软件)中文最新版

常见的Python解释器，你了解多少？

在 Python 中使用 Selenium 按文本查找元素

【Notepad++】搜索返回窗口(find result)被隐藏或遮挡如何恢复？

应用软件安全编程--05预防 XML 注入

JavaEE-博客系统3（功能设计）

椭圆滤波器

Mac 下安装golang环境

前端面试大纲

CAN（Controller Area Network）是一种用于在汽车和工业领域中进行通信的串行总线系统(附加案例)

代码随想录day53|1143.最长公共子序列、 1035.不相交的线、 53. 最大子序和

xilinx fpga ddr mig axi

《golang设计模式》第三部分·行为型模式-04-迭代器模式（Iterator）

python加上ffmpeg实现音频分割

LLM之Prompt（一）：5个Prompt高效方法在文心一言3.5的测试对比

TreeBERT：基于树的编程语言预训练模型。

生成小程序的二维码的base64码（中间logo可以自定义）

【音视频 | Ogg】Ogg封装格式详解——包含Ogg封装过程、数据包(packet)、页(page)、段(segment)等

ubuntu 22.04 安装ros2 iron

PHP语言、B/S手术麻醉临床信息管理系统源码

Win11安装网络打印机

逆向学习记录（3）工具介绍jadx、gda和jeb

C#，数值计算——偏微分方程，Mglin的计算方法与源程序

一机服务万人，拓世法宝AI智能商业数字人一体机，解锁文旅新表达

【源码解析】聊聊SpringBean是如何初始化和创建

前言

第一部分 什么是DPO

第二部分 Zephyr 7B的训练模式：从AI奖励到DPO

第三部分 Claude的RAILF

相关文章：

第一部分什么是DPO