当前位置：首页 > news >正文

LLM - 使用 LLaMA-Factory 微调大模型 Qwen2-VL SFT(LoRA) 图像数据集教程 (2)

news 2025/7/6 12:24:39

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/143725947

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

Llama

LLaMA-Factory 是开源的大模型微调框架，用于高效地微调和部署大语言模型，支持多种预训练模型和微调算法，提供完整的工具和接口，对于预训练的模型进行定制化的训练和调整，以适应特定的应用场景。

Paper: LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

配置环境参考：使用 LLaMA-Factory 微调大模型环境配置与训练推理教程 (1)

1. 准备数据

测试使用的开源数据集：Qwen2-VL-History.zip

其中，在 Qwen2-VL-History.zip 中，数据集样式 dataset_info.json，即：

{"train": {"file_name": "train.json","formatting": "sharegpt","columns": {"messages": "conversations","images": "images"}}
}

其中，样本主要是图像描述，其中，一张图像可以包括多种不同形式的描述，即：

{"conversations": [{"from": "system","value": "你是一个文博工作人员，请严谨认真地回答用户提出的问题"},{"from": "human","value": "<image>给我讲讲这个东西"},{"from": "gpt","value": "# 文物名称\n神面纹玉戚\n# 时代\n新石器时代\n# 类别\n玉器\n# 收藏机构\n山西博物院\n# 尺寸\n高20.6厘米，宽13.1厘米，厚0.4厘米\n# 出土时间\n1964年\n# 出土地点\n黎城县后庄村广志山\n# 特征描述\n线刻，一侧为神人半侧面头像，头戴冠饰，披拂长发，眼眉清晰可辨；一侧为一方形台座上置神人冠饰的形象，神秘威严\n# 象征意义\n象征军事统帅权力"}],"images": ["images/instance_1579398113581395972.jpg"]
},

即 images/instance_1579398113581395972.jpg 图像：

准备数据集的 dataset_info.json 文件：

"qwen2_vl_history": {"file_name": "Qwen2-VL-History/train.json","formatting": "sharegpt","columns": {"messages": "conversations","images": "images"}
}

2. 训练模型

修改训练的 Yaml 文件 qwen2vl_lora_sft_my20241112.yaml，即：

使用本地的 Qwen2-VL-7B-Instruct 模型，或者下载 HuggingFace 模型。
dataset 数据集增加 qwen2_vl_history，来源于注册的 dataset_info.json 数据集。
image_dir 图像数据位置，与 train.json 共同组成 Image 数据。
num_train_epochs: 100.0，训练 100 个 epoch。

### model
model_name_or_path: [your path]/llm/Qwen/Qwen2-VL-7B-Instruct/### method
stage: sft
do_train: true
finetuning_type: lora
lora_target: all### dataset
dataset: qwen2_vl_history,identity  # video: mllm_video_demo
template: qwen2_vl
cutoff_len: 1024
max_samples: 100000
overwrite_cache: true
preprocessing_num_workers: 16
image_dir: [your path]/llm/LLaMA-Factory/data/Qwen2-VL-History/### output
output_dir: saves/qwen2_vl-7b/lora/sft-2
logging_steps: 10
save_steps: 500
plot_loss: true
overwrite_output_dir: true### train
per_device_train_batch_size: 2
gradient_accumulation_steps: 8
learning_rate: 1.0e-4
num_train_epochs: 100.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: true
ddp_timeout: 180000000### eval
val_size: 0.1
per_device_eval_batch_size: 1
eval_strategy: steps
eval_steps: 500

max_samples 是最大的训练数据量，即：

if data_args.max_samples is not None:  # truncate datasetmax_samples = min(data_args.max_samples, len(dataset))dataset = dataset.select(range(max_samples))

训练模型：

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 llamafactory-cli train [your path]/llm/LLaMA-Factory/examples/train_lora/qwen2vl_lora_sft_my20241112.yaml

训练日志：

[INFO|tokenization_utils_base.py:2646] 2024-11-12 13:10:21,050 >> tokenizer config file saved in saves/qwen2_vl-7b/lora/sft-2/tokenizer_config.json
[INFO|tokenization_utils_base.py:2655] 2024-11-12 13:10:21,056 >> Special tokens file saved in saves/qwen2_vl-7b/lora/sft-2/special_tokens_map.json
***** train metrics *****epoch                    =        80.0total_flos               = 551442980GFtrain_loss               =      0.6243train_runtime            =  0:14:05.42train_samples_per_second =      37.377train_steps_per_second   =       0.237
Figure saved at: saves/qwen2_vl-7b/lora/sft-2/training_loss.png
[WARNING|2024-11-12 13:10:21] llamafactory.extras.ploting:162 >> No metric eval_loss to plot.
[WARNING|2024-11-12 13:10:21] llamafactory.extras.ploting:162 >> No metric eval_accuracy to plot.
[INFO|trainer.py:4117] 2024-11-12 13:10:21,387 >> 
***** Running Evaluation *****
[INFO|trainer.py:4119] 2024-11-12 13:10:21,388 >>   Num examples = 36
[INFO|trainer.py:4122] 2024-11-12 13:10:21,388 >>   Batch size = 1
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  8.60it/s]
***** eval metrics *****epoch                   =       80.0eval_loss               =     0.3075eval_runtime            = 0:00:00.64eval_samples_per_second =     55.459eval_steps_per_second   =      7.703

Loss 情况，注意 Loss 需要收敛，否则效果非常一般，即：
Loss
LoRA 模型训练结果：adapter_model.safetensors，模型大小是 78M

Qwen2-VL-7B 的模型大小是 3.7 + 3.6 + 3.6 + 3.6 + 1.1 = 15.6G

3. 测试效果

使用 LoRA 测试效果：

CUDA_VISIBLE_DEVICES=1 llamafactory-cli webchat \
--model_name_or_path [your path]/llm/Qwen/Qwen2-VL-7B-Instruct/ \
--adapter_name_or_path [your path]/llm/LLaMA-Factory/saves/qwen2_vl-7b/lora/sft-2/  \
--template qwen2_vl \
--finetuning_type lora

测试效果：

LLM - 使用 LLaMA-Factory 微调大模型 Qwen2-VL SFT(LoRA) 图像数据集教程 (2)

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/143725947 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。 LLaMA-…...

编程日记 2024/11/18 21:36:21

基于STM32设计的大棚育苗管理系统(4G+华为云IOT)_265

文章目录一、前言1.1 项目介绍【1】项目开发背景【2】设计实现的功能【3】项目硬件模块组成【4】设计意义【5】国内外研究现状【6】摘要1.2 设计思路1.3 系统功能总结1.4 开发工具的选择【1】设备端开发【2】上位机开发1.5 参考文献1.6 系统框架图1.7 系统原理图1.8 实物图1.9…...

编程日记 2024/11/18 21:35:19

深入浅出《钉钉AI》产品体验报告

1. 引言随着人工智能技术的迅猛发展，企业协同办公领域迎来了新的变革。钉钉作为阿里巴巴集团旗下的企业级通讯与协同办公平台，推出了钉钉AI助理，旨在提高工作效率，优化用户体验。本报告将对钉钉AI助理进行全面的产品体验分析&am…...

编程日记 2024/11/18 21:34:14

2020年计挑赛往届真题（C++）

因为17号要开赛了，甚至是用云端编辑器，debuff拉满，只能临时抱佛脚了各个选择题的选择项我就不标出来了，默认ABCD排，手打太麻烦了目录单选题： 1.阅读以下语句:double m0;for(int i3;i>0;i--)m1/i;…...

编程日记 2024/11/18 21:29:08

ES6进阶知识二

一、promise方法的案例 Promise对象通过new Promise()语法创建，它接受一个函数作为参数，该函数接受两个参数：resolve和reject。resolve表示异步操作成功，reject表示异步操作失败。案例：异步加载图片 const loadIma…...

编程日记 2024/11/18 21:27:06

大语言模型通用能力排行榜（2024年10月8日更新)

数据来源SuperCLUE 榜单数据为通用能力排行榜排名模型名称机构总分理科文科 Hard 使用方式发布日期 - o1-preview OpenAI 75.85 86.07 76.6 64.89 API 2024年11月8日 - Claude 3.5 Sonnet（20241022） Anthropic 70.88 82.4…...

编程日记 2024/11/18 21:26:05

第六节、Docker 方式部署指南 github 上项目 mkdocs-material

一、简介 MkDocs 可以同时编译多个 markdown 文件，形成书籍一样的文件。有多种主题供你选择，很适合项目使用。 MkDocs 是快速，简单和华丽的静态网站生成器，可以构建项目文档。文档源文件在 Markdown 编写，使用单个 YAML 配置文件配置。 MkDocs—markdown项目文档工具，…...

编程日记 2024/11/18 21:24:03

【MySQL】MySQL中的函数之JSON_REPLACE

在 MySQL 中，JSON_REPLACE() 函数用于在 JSON 文档中替换现有的值。如果指定的路径不存在，则 JSON_REPLACE() 不会修改 JSON 文档。如果需要添加新的键值对，可以使用 JSON_SET() 函数。基本语法 JSON_REPLACE(json_doc, path, val[, path,…...

编程日记 2024/11/18 21:23:01

【大数据学习 | HBASE高级】hbase的API操作

首先引入hbase的依赖 <dependencies><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-server</artifactId><version>2.4.13</version></dependency><dependency><groupId>org.slf4j<…...

编程日记 2024/11/18 21:18:56

C++(Qt)软件调试---内存泄漏分析工具MTuner （25）

C(Qt)软件调试—内存泄漏分析工具MTuner （25） 文章目录 C(Qt)软件调试---内存泄漏分析工具MTuner （25）[toc]1、概述🐜2、下载MTuner🪲3、使用MTuner分析qt程序内存泄漏🦧4、相关地址&#x1f41…...

编程日记 2024/11/18 21:13:50

python核心语法

目录核⼼语法第⼀节变量0.变量名规则1.下⾯这些都是不合法的变量名2.关键字3.变量赋值4.变量的销毁第⼆节数据类型0.数值1.字符串2.布尔值(boolean, bool)3.空值 None 核⼼语法第⼀节变量变量的定义变量就是可变的量，对于⼀些有可能会经常变化的数据&#…...

编程日记 2024/11/18 21:05:40

MATLAB用CNN-LSTM神经网络的语音情感分类深度学习研究

全文链接：https://tecdat.cn/?p38258 在语音处理领域，对语音情感的分类是一个重要的研究方向。本文将介绍如何通过结合二维卷积神经网络（2 - D CNN）和长短期记忆网络（LSTM）构建一个用于语音分类任务的网络…...

编程日记 2024/11/18 21:03:38

智能网页内容截图工具：AI助力内容提取与可视化

我们每天都会接触到大量的网页内容。然而，如何从这些内容中快速提取关键信息，并有效地进行整理和分享，一直是困扰我们的问题。本文将介绍一款我近期完成的基于AI技术的智能网页内容截图工具，它能够自动分析网页内容，截…...

编程日记 2024/11/18 21:01:37

Axure设计之文本编辑器制作教程

文本编辑器是一个功能强大的工具，允许用户在图形界面中创建和编辑文本的格式和布局，如字体样式、大小、颜色、对齐方式等，在Web端实际项目中，文本编辑器的使用非常频繁。以下是在Axure中模拟web端富文本编辑器，来制作文…...

编程日记 2024/11/18 20:58:33

【MyBatis源码】深入分析TypeHandler原理和源码

🎮 作者主页：点击 🎁 完整专栏和代码：点击 🏡 博客主页：点击文章目录原始 JDBC 存在的问题自定义 TypeHandler 实现TypeHandler详解BaseTypeHandler类TypeReference类型参考器43个类型处理器类型注册表&a…...

编程日记 2024/11/18 20:56:31

号卡分销系统，号卡系统，物联网卡系统源码安装教程

号卡分销系统，号卡系统，物联网卡系统，，实现的高性能(PHP协程、PHP微服务)、高灵活性、前后端分离(后台)，PHP 持久化框架，助力管理系统敏捷开发，长期持续更新中。主要特性基于Auth验证的权限…...

编程日记 2024/11/18 20:55:30

常用命令之LinuxOracleHivePython

1. 用户改密 passwd app_adm chage -l app_adm passwd -x 90 app_adm -> 执行操作后，app_adm用户的密码时间改为90天有效期--查看该euser用户过期信息使用chage命令 --chage的参数包括 ---m 密码可更改的最小天数。为零时代表任何时候都可以更改密码。 ---M 密码…...

编程日记 2024/11/18 20:52:27

从dos上传shell脚本文件到Linux、麒麟执行报错“/bin/bash^M:解释器错误:没有那个文件或目录”

[rootkylin tmp]#./online_update_wars-1.3.0.sh ba51:./online_update_wars-1.3.0.sh:/bin/bash^M:解释器错误:没有那个文件或目录使用scp命令上传文件到麒麟系统，执行shell脚本时报错 “/bin/bash^M:解释器错误:没有那个文件或目录” 解决方法： 执行…...

编程日记 2024/11/18 20:48:22

使用 Go 实现将任何网页转化为 PDF

在许多应用场景中，可能需要将网页内容转化为 PDF 格式，比如保存网页内容、生成报告、或者创建网站截图。使用 Go 编程语言，结合一些现有的库，可以非常方便地实现这一功能。本文将带你一步一步地介绍如何使用 Go 语言将任何网页转换…...

编程日记 2024/11/18 20:47:21

文件操作和IO

目录一. 文件预备知识 1. 硬盘 2. 文件 (1) 概念 (2) 文件路径 (3) 文件类型二. 文件操作 1. 文件系统操作 [1] File常见的构造方法 [2] File的常用方法 [3] 查看某目录下所有的目录和文件 2. 文件内容操作 (1) 打开文件 (2) 关闭文件 (3) 读文件 (4) 写文件 …...

编程日记 2024/11/18 20:46:20

【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密

在实际项目中，用户注册、登录、修改密码等操作，都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输，在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...

编程新知 2025/6/17 4:52:56

【Web 进阶篇】优雅的接口设计：统一响应、全局异常处理与参数校验

系列回顾： 在上一篇中，我们成功地为应用集成了数据库，并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了！但是，如果你仔细审视那些 API，会发现它们还很“粗糙”：有…...

编程新知 2025/7/4 21:00:25

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，但是它有一个很大的缺陷——很难并行化。我们可以考虑用CNN来替代RNN，但是…...

编程新知 2025/6/21 6:23:38

多种风格导航菜单 HTML 实现（附源码）

下面我将为您展示 6 种不同风格的导航菜单实现，每种都包含完整 HTML、CSS 和 JavaScript 代码。 1. 简约水平导航栏 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport&qu…...

编程新知 2025/7/4 19:48:16

rnn判断string中第一次出现a的下标

# coding:utf8 import torch import torch.nn as nn import numpy as np import random import json""" 基于pytorch的网络编写实现一个RNN网络完成多分类任务判断字符 a 第一次出现在字符串中的位置 """class TorchModel(nn.Module):def __in…...

编程新知 2025/6/21 7:57:44