当前位置：首页 > news >正文

LLM微调（二）| 微调LLAMA-2和其他开源LLM的两种简单方法

news 2026/2/8 7:59:01

本文将介绍两种开源工具来微调LLAMA-2。

一、使用autotrain-advanced微调LLAMA-2

AutoTrain是一种无代码工具，用于为自然语言处理（NLP）任务、计算机视觉（CV）任务、语音任务甚至表格任务训练最先进的模型。

1）安装相关库，使用huggingface_hub下载微调数据

!pip install autotrain-advanced!pip install huggingface_hub

2）更新autotrain-advanced所需要的包

# update torch!autotrain setup --update-torch

3）登录Huggingface

# Login to huggingfacefrom huggingface_hub import notebook_loginnotebook_login()

4）开始微调LLAMA-2

! autotrain llm \--train \--model {MODEL_NAME} \--project-name {PROJECT_NAME} \--data-path data/ \--text-column text \--lr {LEARNING_RATE} \--batch-size {BATCH_SIZE} \--epochs {NUM_EPOCHS} \--block-size {BLOCK_SIZE} \--warmup-ratio {WARMUP_RATIO} \--lora-r {LORA_R} \--lora-alpha {LORA_ALPHA} \--lora-dropout {LORA_DROPOUT} \--weight-decay {WEIGHT_DECAY} \--gradient-accumulation {GRADIENT_ACCUMULATION}

核心参数含义：

llm: 微调模型的类型

— project_name: 项目名称

— model: 需要微调的基础模型

— data_path: 指定微调所需要的数据，可以使用huggingface上的数据集

— text_column: 如果数据是表格，需要指定instructions和responses对应的列名

— use_peft: 指定peft某一种方法

— use_int4: 指定int 4量化

— learning_rate: 学习率

— train_batch_size: 训练批次大小

— num_train_epochs: 训练轮数大小

— trainer: 指定训练的方式

— model_max_length: 设置模型最大上下文窗口

— push_to_hub（可选）: 微调好的模型是否需要存储到Hugging Face?

— repo_id: 如果要存储微调好的模型到Hugging Face，需要指定repository ID

— block_size: 设置文本块大小

下面看一个具体的示例：

!autotrain llm--train--project_name "llama2-autotrain-openassitant"--model TinyPixel/Llama-2-7B-bf16-sharded--data_path timdettmers/openassistant-guanaco--text_column text--use_peft--use_int4--learning_rate 0.4--train_batch_size 3--num_train_epochs 2--trainer sft--model_max_length 1048--push_to_hub--repo_id trojrobert/llama2-autotrain-openassistant--block_size 1048 > training.log

二、使用TRL微调LLAMA-2

TRL是一个全栈库，提供了通过强化学习来训练transformer语言模型一系列工具，包括从监督微调步骤（SFT）、奖励建模步骤（RM）到近端策略优化（PPO）步骤。

1）安装相关的库

!pip install -q -U trl peft transformers  datasets bitsandbytes wandb

2）从Huggingface导入数据集

from datasets import load_datasetdataset_name = "timdettmers/openassistant-guanaco"dataset = load_dataset(dataset_name, split="train")

3）量化配置，从Huggingface下载模型

import torchfrom transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig# quantizition configurationbnb_config = BitsAndBytesConfig(    load_in_4bit=True,    bnb_4bit_quant_type="nf4",    bnb_4bit_compute_dtype=torch.float16,)# download modelmodel_name = "TinyPixel/Llama-2-7B-bf16-sharded"model = AutoModelForCausalLM.from_pretrained(    model_name,    quantization_config=bnb_config,    trust_remote_code=True)model.config.use_cache = False

4）下载Tokenizer

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)tokenizer.pad_token = tokenizer.eos_token

5）创建PEFT配置

from peft import LoraConfig, get_peft_modellora_alpha = 16lora_dropout = 0.1lora_r = 64peft_config = LoraConfig(    lora_alpha=lora_alpha,    lora_dropout=lora_dropout,    r=lora_r,    bias="none",    task_type="CAUSAL_LM")

6）创建微调和训练配置

from transformers import TrainingArgumentsoutput_dir = "./results"per_device_train_batch_size = 4gradient_accumulation_steps = 4optim = "paged_adamw_32bit"save_steps = 100logging_steps = 10learning_rate = 2e-4max_grad_norm = 0.3max_steps = 100warmup_ratio = 0.03lr_scheduler_type = "constant"training_arguments = TrainingArguments(    output_dir=output_dir,    per_device_train_batch_size=per_device_train_batch_size,    gradient_accumulation_steps=gradient_accumulation_steps,    optim=optim,    save_steps=save_steps,    logging_steps=logging_steps,    learning_rate=learning_rate,    fp16=True,    max_grad_norm=max_grad_norm,    max_steps=max_steps,    warmup_ratio=warmup_ratio,    group_by_length=True,    lr_scheduler_type=lr_scheduler_type,)

7）创建SFTTrainer配置

from trl import SFTTrainermax_seq_length = 512trainer = SFTTrainer(    model=model,    train_dataset=dataset,    peft_config=peft_config,    dataset_text_field="text",    max_seq_length=max_seq_length,    tokenizer=tokenizer,    args=training_arguments,)

8）在微调的时候，对LN层使用float 32训练更稳定

for name, module in trainer.model.named_modules():    if "norm" in name:        module = module.to(torch.float32)

9）开始微调

trainer.train()

10）保存微调好的模型

model_to_save = trainer.model.module if hasattr(trainer.model, 'module') else trainer.model  # Take care of distributed/parallel trainingmodel_to_save.save_pretrained("outputs")

11）加载微调好的模型

lora_config = LoraConfig.from_pretrained('outputs')tuned_model = get_peft_model(model, lora_config)

12）测试微调好的模型效果

text = "What is a large language model?"device = "cuda:0"inputs = tokenizer(text, return_tensors="pt").to(device)outputs = tuned_model.generate(**inputs, max_new_tokens=50)print(tokenizer.decode(outputs[0], skip_special_tokens=True))

参考文献：

[1] https://trojrobert.medium.com/4-easier-ways-for-fine-tuning-llama-2-and-other-open-source-llms-eb3218657f6e

[2] https://colab.research.google.com/drive/1JMEi2VMNGMOTyfEcQZyp23EISUrWg5cg?usp=sharing

[3] https://colab.research.google.com/drive/1ctevXhrE60s7o9RzsxpIqq37EjyU9tBn?usp=sharing#scrollTo=bsbdrb5p2ONa

LLM微调（二）| 微调LLAMA-2和其他开源LLM的两种简单方法

本文将介绍两种开源工具来微调LLAMA-2。一、使用autotrain-advanced微调LLAMA-2 AutoTrain是一种无代码工具，用于为自然语言处理（NLP）任务、计算机视觉（CV）任务、语音任务甚至表格任务训练最先进的模型。 1&#xf…...

编程日记 2023/12/11 13:43:08

AVP对纵向控制ESP（Ibooster）的需求规范

目录 1. 版本记录... 3 2. 文档范围和控制... 4 2.1 目的/范围... 4 2.2 文档冲突... 4 2.3 文档授权... 4 2.4 文档更改控制... 4 3. 功能概述... 5 4. 系统架构... 6 5. 主要安全目标... 7 5.1 …...

编程日记 2023/12/11 13:38:04

小模型学习（1）-人脸识别

【写作背景】因为最近一直在研究大模型，在与客户进行交流时，如果要将大模型的变革性能力讲清楚，就一定要能将AI小模型的一些原理和效果讲清楚，进而形成对比。当然这不是一件简单的事情，一方面大模型分析问题的的本质原…...

编程日记 2023/12/11 13:37:03

sublime Text使用

1、增加install 命令面板工具(tool)->控制面板(command palette) -> 输入install ->安装第一个install package controller，以下安装过了，所以没展示 2、安装json格式化工具点击install package，等几秒会进入控制面板&#xff0…...

编程日记 2023/12/11 13:36:02

基于深度学习的yolov7植物病虫害识别及防治系统

欢迎大家点赞、收藏、关注、评论啦 ，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介简介YOLOv7 系统特性工作流程二、功能三、系统四. 总结一项目简介 # YOLOv7植物病虫害识别及防治系统介绍简介该系统基于深度学习技术，采…...

编程日记 2023/12/11 13:25:53

Leetcode 2963. Count the Number of Good Partitions

Leetcode 2963. Count the Number of Good Partitions 1. 解题思路2. 代码实现题目链接：2963. Count the Number of Good Partitions 1. 解题思路这一题根据题意，显然我们可以将其先分为 n n n个原子partition，确保任意两个partition之间…...

编程日记 2023/12/11 13:24:52

C语言动态内存经典笔试题分析文章目录 C语言动态内存经典笔试题分析1. 题目一2. 题目二3. 题目三4. 题目四 1. 题目一 void GetMemory(char *p){p (char *)malloc(100);} void Test(void){char *str NULL;GetMemory(str);strcpy(str, "hello world");printf(str)…...

编程日记 2023/12/11 13:23:52

截断正态分布stats.truncnorm（）X.rvs(10000)

就是在均值和方差之外，再指定正态分布随机数群的上下限，如 [ μ − 3 σ , μ 3 σ ] [\mu-3\sigma,\mu3\sigma] [μ−3σ,μ3σ] stats.truncnorm（）参数 X stats.truncnorm(-2, 2, locmu, scalesigma) -2 2是截断的正态分布…...

编程日记 2023/12/11 13:22:51

第59天：django学习（八）

事务事务是MySQL数据库中得一个重要概念,事务的目的：为了保证多个SQL语句执行成功，执行失败，前后保持一致，保证数据安全。开启事务的三个关键字 start transaction commit rollback 开启事务 from django.db import transaction…...

编程日记 2023/12/11 13:21:49

举例说明自然语言处理（NLP）技术。

本文章由AI生成！ 以下是自然语言处理（NLP）技术的一些例子： 机器翻译：将一种语言翻译成另一种语言的自动化过程。常见的机器翻译系统包括谷歌翻译，百度翻译等。语音识别：将口头语言转换成文本…...

编程日记 2023/12/11 13:19:48

echarts地图marker自定义图标并添加点击事件

symbol如果引用https图片链接会报403，直接引用本地 series: [{type: scatter, // 使用散点图系列 coordinateSystem: geo, // 设置坐标系为地理坐标系 zlevel: 100,data: [{name: 上海,value: [121.48, 31.22], // 上海的经纬度坐标 symbol: image:// require(/…...

编程日记 2023/12/11 13:16:45

C盘瘦身，C盘清理

以下只是我的C盘清理经验~ 一.【用软件简单清理C盘】使用一些垃圾清理软件，简单的初步把C盘先清理一遍。（这种软件太多我就不推荐了……） 二.【WPS清理大师】因为我电脑装了WPS，发现右键单击C盘有个选项【释放C盘空间】&#xf…...

编程日记 2023/12/11 13:15:43

STM32F103

提示：来源正点原子，参考STM32F103 战舰开发指南V1.3PDF资料文章目录前言一、pandas是什么？二、使用步骤 1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容： 开发环境硬件普中科技，接…...

编程日记 2023/12/11 13:10:38

Unity使用打成图集的Sprite作为模型贴图使用的问题

大家好，我是阿赵。有时候用Unity引擎做项目的时候，会遇到这样的需求，美术做了一些模型或者特效，然后策划想在游戏运行的时候，读取一些游戏图标放在特效或者模型上面当做贴图使用。这个需求实现起来很简单&am…...

编程日记 2023/12/11 13:06:35

el-select赋值对象是对象时，出现赋值与展示不一致问题

代码逻辑类似：module 是个object { "appId": "", "id": 65, "name": "" } <el-form :model"form"><el-form-item label"申请模块" ><el-select v-model"…...

编程日记 2023/12/11 13:04:33

在 Node-RED 中引入 ECharts 实现数据可视化

Node-RED 提供了强大的可视化工具，而通过引入 ECharts 图表库，您可以更直观地呈现和分析数据。在这篇博客中，我们将介绍两种在 Node-RED 中实现数据可视化的方法：一种是引入本地 ECharts 库，另一种是直接使用 CDN&…...

编程日记 2023/12/11 13:02:31

docker资源限制

目录系统压力测试工具stress 1. cpu资源限制 1.1 限制CPU Share 1.2 限制CPU 核数 1.3 CPU 绑定 2. mem资源限制 3. 限制IO 二、端口转发三、容器卷四、部署centos7容器应用五、docker数据存储位置六、docker网络容器网络分类在使用 docker 运行容器时&…...

编程日记 2023/12/11 13:01:30

探索HarmonyOS_开发软件安装

随着华为推出HarmonyOS NEXT 宣布将要全面启用鸿蒙原声应用，不在兼容安卓应用， 现在开始探索鸿蒙原生应用的开发。 HarmonyOS应用开发官网 - 华为HarmonyOS打造全场景新服务鸿蒙官网开发软件肯定要从这里下载第一个为微软系统(windows)，第…...

编程日记 2023/12/11 13:00:29

CSS中控制元素水平布局的七个属性

元素的水平方向的布局元素在其父元素中水平方向的位置由一下几个属性共同决定 margin-left border-left padding-left width padding-right border-right margin-right 一个元素在其父元素中，水平布局必须要满足以下…...

编程日记 2023/12/11 12:59:28

YOLOv8改进 | 2023检测头篇 | 利用AFPN改进检测头适配YOLOv8版（全网独家创新）

一、本文介绍本文给大家带来的改进机制是利用今年新推出的AFPN（渐近特征金字塔网络）来优化检测头，AFPN的核心思想是通过引入一种渐近的特征融合策略，将底层、高层和顶层的特征逐渐整合到目标检测过程中。这种渐近融合方式有助于…...

编程日记 2023/12/11 12:58:28

工业安全零事故的智能守护者：一体化AI智能安防平台

前言： 通过AI视觉技术，为船厂提供全面的安全监控解决方案，涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面，能够实现对应负责人反馈机制，并最终实现数据的统计报表。提升船厂…...

编程新知 2026/1/21 9:20:07

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

编程新知 2026/1/26 21:57:45

测试markdown--肇兴

day1： 1、去程：7:04 --11:32高铁高铁右转上售票大厅2楼，穿过候车厅下一楼，上大巴车 ￥10/人 **2、到达：**12点多到达寨子，买门票，美团/抖音：￥78人 3、中饭&a…...

编程新知 2025/12/14 11:45:02

2025 后端自学UNIAPP【项目实战：旅游项目】6、我的收藏页面

代码框架视图 1、先添加一个获取收藏景点的列表请求【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口（适配服务端返回 Token） export const login async (code, avatar) > {const res await http…...

编程新知 2026/1/29 11:40:13

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种系统属性定义文件（System Property Definition File），用于声明和管理 Bluetooth 模块相…...

编程新知 2025/11/22 12:02:51

Java入门学习详细版（一）

大家好，Java 学习是一个系统学习的过程，核心原则就是“理论实践坚持”，并且需循序渐进，不可过于着急，本篇文章推出的这份详细入门学习资料将带大家从零基础开始，逐步掌握 Java 的核心概念和编程技能。 …...

编程新知 2025/12/14 14:47:02

uniapp中使用aixos 报错

问题： 在uniapp中使用aixos，运行后报如下错误： AxiosError: There is no suitable adapter to dispatch the request since : - adapter xhr is not supported by the environment - adapter http is not available in the build 解决方案&…...

编程新知 2025/11/29 21:26:48

蓝桥杯冶炼金属

原题目链接 🔧 冶炼金属转换率推测题解 📜 原题描述小蓝有一个神奇的炉子用于将普通金属 O O O 冶炼成为一种特殊金属 X X X。这个炉子有一个属性叫转换率 V V V，是一个正整数，表示每 V V V 个普通金属 O O O 可以冶炼出 …...

编程新知 2026/2/4 10:54:26

基于Java+VUE+MariaDB实现（Web）仿小米商城

仿小米商城环境安装 nodejs maven JDK11 运行 mvn clean install -DskipTestscd adminmvn spring-boot:runcd ../webmvn spring-boot:runcd ../xiaomi-store-admin-vuenpm installnpm run servecd ../xiaomi-store-vuenpm installnpm run serve 注意：运行前…...

编程新知 2026/1/31 4:37:40

深度剖析 DeepSeek 开源模型部署与应用：策略、权衡与未来走向

在人工智能技术呈指数级发展的当下，大模型已然成为推动各行业变革的核心驱动力。DeepSeek 开源模型以其卓越的性能和灵活的开源特性，吸引了众多企业与开发者的目光。如何高效且合理地部署与运用 DeepSeek 模型，成为释放其巨大潜力的关键所在&…...

编程新知 2025/12/27 19:12:07