当前位置：首页 > news >正文

trl - 微调、对齐大模型的全栈工具

news 2025/7/8 15:11:38

trl

文章目录

- 一、关于 TRL
- - 亮点
- 二、安装
- - 1、Python包
  - 2、从源码安装
  - 3、存储库
- 三、命令行界面（CLI）
- 四、如何使用
- - 1、`SFTTrainer`
  - 2、`RewardTrainer`
  - 3、`PPOTrainer`
  - 4、`DPOTrainer`
- 五、其它
- - 开发 & 贡献
  - 参考文献
  - - 最近策略优化 PPO
    - 直接偏好优化 DPO

一、关于 TRL

TRL : Transformer Reinforcement Learning

Full stack library to fine-tune and align large language models.

Train transformer language models with reinforcement learning.

github : https://github.com/huggingface/trl
文档：https://huggingface.co/docs/trl/index

该trl库是一个全栈工具，用于使用监督微调步骤（SFT）、奖励建模（RM）和近似策略优化（PPO）以及直接偏好优化（DPO）等方法微调和对齐转换器语言和扩散模型。

该库建立在transformers库之上，因此允许使用那里可用的任何模型架构。

亮点

Efficient and scalable
- accelerate是trl的支柱，它允许使用DDP和DeepSpeed等方法将模型训练从单个GPU扩展到大规模多节点集群。
- PEFT是完全集成的，即使是最大的模型也可以通过量化和LoRA或QLoRA等方法在适度的硬件上训练。
- unsloth也是集成的，允许使用专用内核显着加快训练速度。
CLI：使用CLI，您可以使用单个命令和灵活的配置系统微调LLM并与之聊天，而无需编写任何代码。
Trainers：培训师类是一个抽象，可以轻松应用许多微调方法，如SFTTrainer、DPOTrainer、RewardTrainer、PPOTrainer、CPOTrainer和ORPOTrainer。
AutoModels：AutoModelForCausalLMWithValueHead & AutoModelForSeq2SeqLMWithValueHead 类为模型添加了一个额外的值头，允许使用RL算法（如PPO）训练它们。
Examples：使用BERT情感分类器训练GPT2以生成积极的电影评论，仅使用适配器的完整RLHF，训练GPT-j毒性更小，StackLlama示例等。以下是示例。

二、安装

1、Python包

使用pip安装库：

pip install trl

2、从源码安装

如果您想在正式发布之前使用最新功能，您可以从源代码安装：

pip install git+https://github.com/huggingface/trl.git

3、存储库

如果您想使用这些示例，您可以使用以下命令克隆存储库：

git clone https://github.com/huggingface/trl.git

三、命令行界面（CLI）

您可以使用TRL命令行界面（CLI）快速开始使用监督微调（SFT）、直接偏好优化（DPO）并使用聊天CLI测试对齐的模型：

SFT：

trl sft --model_name_or_path facebook/opt-125m --dataset_name imdb --output_dir opt-sft-imdb

DPO：

trl dpo --model_name_or_path facebook/opt-125m --dataset_name trl-internal-testing/hh-rlhf-helpful-base-trl-style --output_dir opt-sft-hh-rlhf

聊天：

trl chat --model_name_or_path Qwen/Qwen1.5-0.5B-Chat

在 relevant documentation section 阅读有关CLI的更多信息，或使用--help获取更多详细信息。

四、如何使用

为了获得更多的灵活性和对训练的控制，您可以使用专用的训练类来微调Python中的模型。

1、`SFTTrainer`

这是如何使用库中的SFTTrainer的基本示例。

SFTTrainer 是围绕transformersTrainer的轻型包装器，可轻松微调自定义数据集上的语言模型或适配器。

# imports
from datasets import load_dataset
from trl import SFTTrainer# get dataset
dataset = load_dataset("imdb", split="train")# get trainer
trainer = SFTTrainer("facebook/opt-350m",train_dataset=dataset,dataset_text_field="text",max_seq_length=512,
)# train
trainer.train()

2、`RewardTrainer`

这是如何使用库中的RewardTrainer的基本示例。

RewardTrainer 是 transformers Trainer 的包装器，可轻松微调自定义偏好数据集上的奖励模型或适配器。

# imports
from transformers import AutoModelForSequenceClassification, AutoTokenizer
from trl import RewardTrainer# load model and dataset - dataset needs to be in a specific format
model = AutoModelForSequenceClassification.from_pretrained("gpt2", num_labels=1)
tokenizer = AutoTokenizer.from_pretrained("gpt2")...# load trainer
trainer = RewardTrainer(model=model,tokenizer=tokenizer,train_dataset=dataset,
)# train
trainer.train()

3、`PPOTrainer`

这是如何使用库中的PPOTrainer的基本示例。

基于查询，语言模型创建一个响应，然后对其进行评估。评估可以是循环中的人或另一个模型的输出。

# imports
import torch
from transformers import AutoTokenizer
from trl import PPOTrainer, PPOConfig, AutoModelForCausalLMWithValueHead, create_reference_model
from trl.core import respond_to_batch# get models
model = AutoModelForCausalLMWithValueHead.from_pretrained('gpt2')
ref_model = create_reference_model(model)tokenizer = AutoTokenizer.from_pretrained('gpt2')
tokenizer.pad_token = tokenizer.eos_token# initialize trainer
ppo_config = PPOConfig(batch_size=1, mini_batch_size=1)# encode a query
query_txt = "This morning I went to the "
query_tensor = tokenizer.encode(query_txt, return_tensors="pt")# get model response
response_tensor  = respond_to_batch(model, query_tensor)# create a ppo trainer
ppo_trainer = PPOTrainer(ppo_config, model, ref_model, tokenizer)# define a reward for response
# (this could be any reward such as human feedback or output from another model)
reward = [torch.tensor(1.0)]# train model for one step with ppo
train_stats = ppo_trainer.step([query_tensor[0]], [response_tensor[0]], reward)

4、`DPOTrainer`

DPOTrainer是使用直接偏好优化算法的培训师，这是如何使用库中的DPOTrainer的基本示例DPOTrainer是transformersTrainer的包装器，可轻松微调自定义偏好数据集上的奖励模型或适配器。

# imports
from transformers import AutoModelForCausalLM, AutoTokenizer
from trl import DPOTrainer# load model and dataset - dataset needs to be in a specific format
model = AutoModelForCausalLM.from_pretrained("gpt2")
tokenizer = AutoTokenizer.from_pretrained("gpt2")...# load trainer
trainer = DPOTrainer(model=model,tokenizer=tokenizer,train_dataset=dataset,
)# train
trainer.train()

五、其它

开发 & 贡献

如果您想为trl做出贡献或根据您的需求对其进行定制，请务必阅读贡献指南并确保您进行了开发安装：

git clone https://github.com/huggingface/trl.git
cd trl/
make dev

参考文献

最近策略优化 PPO

PPO实现在很大程度上遵循D. Ziegler等人的**“来自人类偏好的微调语言模型”**论文中介绍的结构。[论文，代码]。

直接偏好优化 DPO

DPO基于E. Mitchell等人的**《直接偏好优化：您的语言模型是秘密的奖励模型》**的原始实现。[论文，代码]

2024-07-17(三)

trl - 微调、对齐大模型的全栈工具

文章目录一、关于 TRL亮点二、安装1、Python包2、从源码安装3、存储库三、命令行界面（CLI）四、如何使用1、SFTTrainer2、RewardTrainer3、PPOTrainer4、DPOTrainer 五、其它开发 & 贡献参考文献最近策略优化 PPO直接偏好优化 DPO 一、关于 TRL T…...

编程日记 2024/7/20 2:13:25

GuLi商城-商品服务-API-品牌管理-品牌分类关联与级联更新

先配置mybatis分页： 品牌管理增加模糊查询： 品牌管理关联分类： 一个品牌可以有多个分类一个分类也可以有多个品牌多对多的关系，用中间表涉及的类： 方法都比较简单，就不贴代码了...

编程日记 2024/7/20 2:09:18

【linux】服务器ubuntu安装cuda11.0、cuDNN教程，简单易懂，包教包会

【linux】服务器ubuntu安装cuda11.0、cuDNN教程，简单易懂，包教包会【创作不易，求点赞关注收藏】文章目录【linux】服务器ubuntu安装cuda11.0、cuDNN教程，简单易懂，包教包会一、版本情况介绍二、安装cuda1、到官网…...

编程日记 2024/7/20 2:04:12

在 Apifox 中如何高效批量添加接口请求 Body 参数？

在使用 Apifox 进行 API 设计时，你可能会遇到需要添加大量请求参数的情况。想象一下，如果一个接口需要几十甚至上百个参数，若要在接口的「修改文档」里一个个手动添加这些参数，那未免也太麻烦了，耗时且易出错。这时候&…...

编程日记 2024/7/20 2:03:11

专业PDF编辑工具：Acrobat Pro DC 2024.002.20933绿色版，提升你的工作效率！

软件介绍 Adobe Acrobat Pro DC 2024绿色便携版是一款功能强大的PDF编辑和转换软件，由Adobe公司推出。它是Acrobat XI系列的后续产品，提供了全新的用户界面和增强功能。用户可以借助这款软件将纸质文件转换为可编辑的电子文件，便于传输、签署…...

编程日记 2024/7/20 2:01:07

车载音视频App框架设计

简介统一播放器提供媒体播放一致性的交互和视觉体验，减少各个媒体应用和场景独自开发的重复工作量，实现媒体播放链路的一致性，减少碎片化的Bug。本文面向应用开发者介绍如何快速接入媒体播放器。主要功能： 新设计的统一播放U…...

编程日记 2024/7/20 1:59:05

StarRocks on AWS Graviton3，实现 50% 以上性价比提升

在数据时代，企业拥有前所未有的大量数据资产，但如何从海量数据中发掘价值成为挑战。数据分析凭借强大的分析能力，可从不同维度挖掘数据中蕴含的见解和规律，为企业战略决策提供依据。数据分析在营销、风险管控、产品优化等领域发挥…...

编程日记 2024/7/20 1:54:59

VUE中setup（）

在Vue中，setup() 函数是Vue 3.0及更高版本引入的一个重要特性，它是Composition API的入口点。setup() 函数用于初始化组件的状态和逻辑，包括定义响应式数据、方法和生命周期钩子。以下是关于setup() 函数的详细解释： 1. 作用与特…...

编程日记 2024/7/20 1:51:55

【单元测试】SpringBoot

【单元测试】SpringBoot 1. 为什么单元测试很重要？‼️ 从前，有一个名叫小明的程序员，他非常聪明，但有一个致命的缺点：懒惰。小明的代码写得又快又好，但他总觉得单元测试是一件麻烦事，觉得代码…...

编程日记 2024/7/20 1:46:51

分布式搜索引擎ES-elasticsearch入门

1.分布式搜索引擎：luceneVS Solr VS Elasticsearch 什么是分布式搜索引擎搜索引擎：数据源：数据库或者爬虫资源分布式存储与搜索：多个节点组成的服务，提高扩展性(扩展成集群) 使用搜索引擎为搜索提供服务。可以从海量…...

编程日记 2024/7/20 1:45:50

TCP三次握手与四次挥手详解

1.什么是TCP TCP（Transmission Control Protocol，传输控制协议）是一种面向连接的、可靠的、基于字节流的通信协议，属于互联网协议族（TCP/IP）的一部分。TCP 提供可靠的、顺序的、无差错的数据传输服务&…...

编程日记 2024/7/20 1:38:44

【Windows】操作系统之任务管理器（第一篇）

一、操作系统简介 Windows操作系统是由微软公司（Microsoft）开发的一款图形操作系统，它以其强大的功能和广泛的用户基础，成为了目前世界上用户使用最多、兼容性最强的操作系统之一。以下是关于Windows操作系统的详细介绍&#xff…...

编程日记 2024/7/20 1:36:43

Django获取request请求中的参数

支持 post put json_str request.body # 属性获取最原始的请求体数据 json_dict json.loads(json_str)# 将原始数据转成字典格式 json_dict.get("key", "默认值") # 获取数据参考 https://blog.csdn.net/user_san/article/details/109654028...

编程日记 2024/7/20 1:23:31

kotlin compose 实现应用内多语言切换（不重新打开App）

1. 示例图 2.具体实现如何实现上述示例，且不需要重新打开App ①自定义 MainApplication 实现 Application ，定义两个变量： class MainApplication : Application() { object GlobalDpData { var language: String = "" var defaultLanguage: Strin…...

编程日记 2024/7/20 1:19:27

记录些MySQL题集（16）

MySQL 存储过程与触发器一、初识MySQL的存储过程 Stored Procedure存储过程是数据库系统中一个十分重要的功能，使用存储过程可以大幅度缩短大SQL的响应时间，同时也可以提高数据库编程的灵活性。存储过程是一组为了完成特定功能的SQL语句集合&#x…...

编程日记 2024/7/20 1:18:27

【算法基础】Dijkstra 算法

定义： g [ i ] [ j ] g[i][j] g[i][j] 表示 v i v_i vi 到 $v_j $的边权重，如果没有连接，则 g [ i ] [ j ] ∞ g[i][j] \infty g[i][j]∞ d i s [ i ] dis[i] dis[i] 表示 v k v_k vk 到节点 v i v_i vi 的最短长度， …...

编程日记 2024/7/20 1:11:18

前言前端文件下载链接https://pan.baidu.com/s/1Ju5hhhhy5pcUMM7VS3S5YA?pwd6666%C2%A0 知识点 1. 在路由中渲染前端页面 2. 使用 JinJa 2 模板实现前端代码复用一、auth.py from flask import render_templatebp.route(/register, methods[GET]) def register():re…...

编程日记 2024/7/20 1:09:17

pycharm如何debug for循环里面的错误值

一般debug时，在for循环里面的话，需要自己一步一步点。如果循环几百次那种就比较麻烦。此时可以采用try except的方式来解决例子如下 #ptyhon debug for循环的代码 num[1,2,3,s,4] ans0 for i in num:try:ansiexcept:print(错误) print(ans) 结果如下&a…...

编程日记 2024/7/20 1:05:13

解决网页中的 video 标签在移动端浏览器（如百度访问网页）视频脱离文档流播放问题

问题现象部分浏览器视频脱离文档流，滚动时，视频是悬浮出来，在顶部播放解决方案添加下列属性，可解决大部分浏览器的脱离文档流的问题 <videowebkit-playsinline""playsInlinex5-playsinlinet7-video-player-t…...

编程日记 2024/7/20 1:03:11

golang循环变量捕获问题

在 Go 语言中，当在循环中启动协程（goroutine）时，如果在协程闭包中直接引用循环变量，可能会遇到一个常见的陷阱 - 循环变量捕获问题。让我详细解释一下： 问题背景看这个代码片段： fo…...

编程新知 2025/7/5 11:03:11

相机Camera日志实例分析之二：相机Camx【专业模式开启直方图拍照】单帧流程日志详解

【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了： 这一篇我们开始讲： 目录一、场景操作步骤二、日志基础关键字分级如下三、场景日志如下： 一、场景操作步骤操作步…...

编程新知 2025/7/6 8:45:08

前端倒计时误差!

提示：记录工作中遇到的需求及解决办法文章目录前言一、误差从何而来？二、五大解决方案1. 动态校准法（基础版）2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言前几天听说公司某个项…...

编程新知 2025/6/21 0:42:19

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言： 在人工智能快速发展的浪潮中，快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型（LLM）。该模型代表着该领域的重大突破，通过独特方式融合思考与非思考…...

编程新知 2025/7/5 3:15:03

OkHttp 中实现断点续传 demo

在 OkHttp 中实现断点续传主要通过以下步骤完成，核心是利用 HTTP 协议的 Range 请求头指定下载范围： 实现原理 Range 请求头：向服务器请求文件的特定字节范围（如 Range: bytes1024-） 本地文件记录：保存已…...

编程新知 2025/6/15 11:28:43

ffmpeg（四）：滤镜命令

FFmpeg 的滤镜命令是用于音视频处理中的强大工具，可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下： ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜： ffmpeg…...

编程新知 2025/7/7 4:40:03

【2025年】解决Burpsuite抓不到https包的问题

环境：windows11 burpsuite:2025.5 在抓取https网站时，burpsuite抓取不到https数据包，只显示： 解决该问题只需如下三个步骤： 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

编程新知 2025/7/6 15:58:45

拉力测试cuda pytorch 把 4070显卡拉满

import torch import timedef stress_test_gpu(matrix_size16384, duration300):"""对GPU进行压力测试，通过持续的矩阵乘法来最大化GPU利用率参数:matrix_size: 矩阵维度大小，增大可提高计算复杂度duration: 测试持续时间（秒&…...

编程新知 2025/6/21 10:39:11

【JavaSE】绘图与事件入门学习笔记

-Java绘图坐标体系坐标体系-介绍坐标原点位于左上角，以像素为单位。在Java坐标系中,第一个是x坐标,表示当前位置为水平方向，距离坐标原点x个像素;第二个是y坐标，表示当前位置为垂直方向，距离坐标原点y个像素。坐标体系-像素 …...

编程新知 2025/7/4 8:43:57

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。本弹重点聚焦于服务端的模块划分与架构设计，提升代码结构的可维护性与扩展性。二、服务端模块设计目标高内聚低耦合：各模块职责清晰，便于独立开发…...

编程新知 2025/7/8 14:06:13