当前位置：首页 > news >正文

sglang 部署Qwen2VL7B，大模型部署，速度测试，深度学习

news 2026/2/8 14:05:55

sglang

项目github仓库：

https://github.com/sgl-project/sglang

项目说明书：

https://sgl-project.github.io/start/install.html

资讯：

https://github.com/sgl-project/sgl-learning-materials?tab=readme-ov-file#the-first-sglang-online-meetup

快得离谱：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

[外链图片转存中…(img-E3n1Ivz9-1731913508383)]

图来源：https://lmsys.org/blog/2024-09-04-sglang-v0-3/

Docker使用：


docker run --gpus device=0 \--shm-size 32g \-p 30000:30000 \-v /root/xiedong/Qwen2-VL-7B-Instruct:/Qwen2-VL \--env "HF_TOKEN=abc-1234" \--ipc=host \-v /root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4:/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4 \lmsysorg/sglang:latest \python3 -m sglang.launch_server --model-path /Qwen2-VL --host 0.0.0.0 --port 30000 --chat-template qwen2-vl --context-length 8192 --log-level-http warning

启动成功：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

接口文档：

http://101.136.22.140:30000/docs

速度测试代码

import time
from openai import OpenAI# 初始化OpenAI客户端
client = OpenAI(api_key='YOUR_API_KEY', base_url='http://0.0.0.0:30000/v1')# 定义图像路径
image_paths = ["/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo256.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo512.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo768.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo1024.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo1280.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo2560.jpeg"
]# 设置请求次数
num_requests = 10# 存储每个图像的平均响应时间
average_speeds = {}# 遍历每张图片
for image_path in image_paths:total_time = 0# 对每张图片执行 num_requests 次请求for _ in range(num_requests):start_time = time.time()# 发送请求并获取响应response = client.chat.completions.create(model="/Qwen2-VL",messages=[{'role': 'user','content': [{'type': 'text','text': 'Describe the image please',}, {'type': 'image_url','image_url': {'url': image_path,},}],}],temperature=0.8,top_p=0.8)# 记录响应时间elapsed_time = time.time() - start_timetotal_time += elapsed_time# 打印当前请求的响应内容（可选）print(f"Response for {image_path}: {response.choices[0].message.content}")# 计算并记录该图像的平均响应时间average_speed = total_time / num_requestsaverage_speeds[image_path] = average_speedprint(f"Average speed for {image_path}: {average_speed} seconds")# 输出所有图像的平均响应时间
for image_path, avg_speed in average_speeds.items():print(f"{image_path}: {avg_speed:.2f} seconds")

速度测试结果

sglang 测试结果：

Model	显存占用 (MiB)	分辨率	处理时间 (秒)
Qwen2-VL-7B-Instruct	70G	256 x 256	1.71
		512 x 512	1.52
		768 x 768	1.85
		1024 x 1024	2.05
		1280 x 1280	1.88
		2560 x 2560	3.26

纯transformer，不用加速框架，我之前的测了一张图的速度是：5.22 seconds，很慢。

附录-vllm速度测试

启动：

docker run --gpus device=0 \-v /root/xiedong/Qwen2-VL-7B-Instruct:/Qwen2-VL \-v /root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4:/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4 \-p 30000:8000 \--ipc=host \vllm/vllm-openai:latest \--model /Qwen2-VL --gpu_memory_utilization=0.9

代码：

import time
import base64
from openai import OpenAI# 初始化OpenAI客户端
client = OpenAI(api_key='YOUR_API_KEY', base_url='http://0.0.0.0:30000/v1')# 定义图像路径
image_paths = ["/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo256.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo512.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo768.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo1024.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo1280.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo2560.jpeg"
]# 设置请求次数
num_requests = 10# 存储每个图像的平均响应时间
average_speeds = {}# 将图片转换为 Base64 编码的函数
def image_to_base64(image_path):with open(image_path, "rb") as img_file:return base64.b64encode(img_file.read()).decode('utf-8')# 遍历每张图片
for image_path in image_paths:total_time = 0# 将图片转换为 Base64 编码image_base64 = image_to_base64(image_path)# 对每张图片执行 num_requests 次请求for _ in range(num_requests):start_time = time.time()# 发送请求并获取响应response = client.chat.completions.create(model="/Qwen2-VL",messages=[{'role': 'user','content': [{'type': 'text','text': 'Describe the image please',}, {'type': 'image_url','image_url': {'url': f"data:image/jpeg;base64,{image_base64}",  # 使用Base64编码的图片},}],}],temperature=0.8,top_p=0.8)# 记录响应时间elapsed_time = time.time() - start_timetotal_time += elapsed_time# 打印当前请求的响应内容（可选）print(f"Response for {image_path}: {response.choices[0].message.content}")# 计算并记录该图像的平均响应时间average_speed = total_time / num_requestsaverage_speeds[image_path] = average_speedprint(f"Average speed for {image_path}: {average_speed} seconds")# 输出所有图像的平均响应时间
for image_path, avg_speed in average_speeds.items():print(f"{image_path}: {avg_speed:.2f} seconds")

速度：

Model	显存占用 (MiB)	分辨率	处理时间 (秒)
Qwen2-VL-72B-Instruct-GPTQ-Int4	70G	256 x 256	1.50
		512 x 512	1.59
		768 x 768	1.61
		1024 x 1024	1.67
		1280 x 1280	1.81
		2560 x 2560	1.97

https://www.dong-blog.fun/post/1856

sglang 部署Qwen2VL7B，大模型部署，速度测试，深度学习

sglang 项目github仓库： https://github.com/sgl-project/sglang 项目说明书： https://sgl-project.github.io/start/install.html 资讯： https://github.com/sgl-project/sgl-learning-materials?tabreadme-ov-file#the-first-sglang…...

编程日记 2024/11/19 22:14:29

fastadmin操作数据库字段为json、查询遍历each、多级下拉、union、php密码设置、common常用函数的使用小技巧

数据库中遇到的操作查询字段是json的某个值 //获取数据库中某个字段是json中得某个值，进行查询，goods是表中字段，brand_id是json中要查詢的字段。//数据类型一定要对应要不然查询不出来。$map[json_extract(goods, "$.brand_id")]…...

编程日记 2024/11/19 22:12:28

UniApp在Vue3的setup语法糖下自定义组件插槽详解

UniApp在 Vue3的 setup 语法糖下自定义组件插槽详解 UniApp 是一个基于 Vue.js 的跨平台开发框架，可以用来开发微信小程序、H5、App 等多种平台的应用。Vue 3 引入了 <script setup> 语法糖，使得组件的编写更加简洁和直观。本文将详细介绍如何在 …...

编程日记 2024/11/19 22:09:19

springboot上传下载文件

RequestMapping(“bigJson”) RestController Slf4j public class TestBigJsonController { Resource private BigjsonService bigjsonService;PostMapping("uploadJsonFile") public ResponseResult<Long> uploadJsonFile(RequestParam("file")Mul…...

编程日记 2024/11/19 22:08:19

Python学习从0到1 day29 Python 高阶技巧 ⑦ 正则表达式

目录一、正则表达式二、正则表达式的三个基础方法 1.match 从头匹配 2.search（匹配规则，被匹配字符串） 3.findall（匹配规则，被匹配字符串） 三、元字符匹配单字符匹配： 注： 示例&a…...

编程日记 2024/11/19 22:03:14

机器学习-web scraping

Web Scraping，通常称为网络抓取或数据抓取，是一种通过自动化程序从网页中提取数据的技术。以下是对Web Scraping的详细解释： 一、定义与原理 Web Scraping是指采用技术手段从大量网页中提取结构化和非结构化信息，并按照一定的规…...

编程日记 2024/11/19 21:59:09

移远通信5G RedCap模组RG255C-CN通过中国电信5G Inside终端生态认证

近日，移远通信5G RedCap模组RG255C-CN荣获中国电信颁发的5G Inside终端生态认证证书。这表明，该产品在5G基本性能、网络兼容性、安全特性等方面已经过严格评测且表现优异，将进一步加速推动5G行业终端规模化应用。中国电信5G Inside终端生态认…...

编程日记 2024/11/19 21:58:08

Javaweb梳理17——HTMLCSS简介

Javaweb梳理17——HTML&CSS简介 17 HTML&CSS简介17.1 HTML介绍17.2 快速入门17.3 基础标签17.3 .1 标题标签17.3.2 hr标签17.3.3 字体标签17.3.4 换行17.3.8 案例17.3.9 图片、音频、视频标签17.3.10 超链接标签17.3.11 列表标签17.3.12 表格标签17.3.11 布局标签17.3.…...

编程日记 2024/11/19 21:56:05

【Android、IOS、Flutter、鸿蒙、ReactNative 】自定义View

Android Java 自定义View 步骤创建一个新的Java类，继承自View、ViewGroup或其他任何一个视图类。如果需要，重写构造函数以支持不同的初始化方式。重写onMeasure方法以提供正确的测量逻辑。重写onDraw方法以实现绘制逻辑。根据需要重写其他方法&…...

编程日记 2024/11/19 21:54:03

win11跳过联网激活步骤

win11跳过联网激活步骤 win11跳过联网激活步骤方法一：使用Shift F10快捷键（推荐）1. 启动Windows 112. 选择键盘布局或输入法3. 是否想要添加第二种键盘布局4. 让我们为你连接到网络5. 调出管理员模式CMD6. 耐心等待自动重启7. 启动Windows 1…...

编程日记 2024/11/19 21:52:02

利用c语言详细介绍下冒泡排序

软件开发过程中，排序算法是常规且使用众多的方法之一，而冒泡算法又是排序算法中最常规且基本的算法。今天我们利用c语言，图文详细介绍下冒泡算法。一、图文介绍我们输入一个数组，数组为【10，5，3&#xf…...

编程日记 2024/11/19 21:47:54

C# 面向对象

C# 面向对象编程面向过程：一件事情分成多个步骤来完成。把大象装进冰箱 (面向过程化设计思想)。走一步看一步。 1、打开冰箱门 2、把大象放进冰箱 3、关闭冰箱门面向对象：以对象作为主体把大象装进冰箱 1、抽取对象大象冰箱门 &#xff0…...

编程日记 2024/11/19 21:46:53

android wifi扫描的capability

混合型加密android11 8155与普通linux设备扫描到的安全字段差别 android应用拿到关于wifi安全的字段： systembar-WifiBroadcastReceiver---- scanResult SSID: Redmi_697B, BSSID: a4:39:b3:70:8c:20, capabilities: [WPA-PSK-TKIPCCMP][WPA2-PSK-TKIPCCMP][RSN-PSK…...

编程日记 2024/11/19 21:44:51

datawhale 2411组队学习：模型压缩4 模型量化理论（数据类型、int8量化方法、PTQ和QWT）

文章目录一、数据类型1.1 整型1.2 定点数1.3 浮点数1.3.1 正规浮点数（fp32）1.3.2 非正规浮点数（fp32）1.3.3 其它数据类型1.3.4 浮点数误差1.3.5 浮点数导致的模型训练问题二、量化基本方法2.1 int8量化2.1.1 k-means 量化2.1.2 …...

编程日记 2024/11/19 21:39:46

数据分析-48-时间序列变点检测之在线实时数据的CPD

文章目录 1 时间序列结构1.1 变化点的定义1.2 结构变化的类型1.2.1 水平变化1.2.2 方差变化1.3 变点检测1.3.1 离线数据检测方法1.3.2 实时数据检测方法2 模拟数据2.1 模拟恒定方差数据2.2 模拟变化方差数据3 实时数据CPD3.1 SDAR学习算法3.2 Changefinder模块3.3 恒定方差CPD3…...

编程日记 2024/11/19 21:35:42

POD-Transformer多变量回归预测（Matlab）

目录效果一览基本介绍程序设计参考资料效果一览基本介绍 1.Matlab实现POD-Transformer多变量回归预测，本征正交分解数据降维融合Transformer多变量回归预测，使用SVD进行POD分解（本征正交分解）； 2.运行环境Matlab20…...

编程日记 2024/11/19 21:34:41

Hadoop生态圈框架部署（七）- MySQL安装与配置教程

文章目录前言一、MySQL安装与配置（手动部署）1. 下载MySQL2. 上传安装包3. 解压HBase安装包4. 配置4.1 配置 MySQL 的主配置文件 my.cnf4.2 配置 MySQL 服务的脚本 5. 初始化MySQL数据库6. 创建快捷方式7. 启动MySQL服务8. 修改MySQL登录密码8.1 使用临时…...

编程日记 2024/11/19 21:30:36

视频直播5G CPE解决方案：ZX7981PG/ZX7981PMWIFI6网络覆盖

方案背景视频直播蓬勃发展的当下，传统直播网络联网方式的局限性越来越明显。目前传统直播的局限性主要集中在以下几个方面： 传统直播间网络架构条件有限，可连接WIFI数量少，多终端同时直播难以维持；目前4G网络带宽有限…...

编程日记 2024/11/19 21:27:33

技术周刊｜Google 2024 年首届 Web AI 峰会回顾

大家好，我是童欧巴。见字如面，万事胜意，欢迎来到第 134 期周刊。大厨推荐 Google 2024 年首届 Web AI 峰会回顾不仅包括来自谷歌团队的演讲者，如 Chrome 和 MediaPipe，还包括第三方代表，如英特尔、Hug…...

编程日记 2024/11/19 21:26:32

web——upload-labs——第十二关——%00截断

查看源码分析源码我们可以知道，这里是基于白名单过滤，只允许上传jpg,png,gif，但是这里注意第八行，上传路径是可以控制的，所以可以利用%00截断，来达到上传木马的目的。这里要注意一下，%00截断想…...

编程日记 2024/11/19 21:24:30

国防科技大学计算机基础课程笔记02信息编码

1.机内码和国标码国标码就是我们非常熟悉的这个GB2312,但是因为都是16进制，因此这个了16进制的数据既可以翻译成为这个机器码，也可以翻译成为这个国标码，所以这个时候很容易会出现这个歧义的情况； 因此，我们的这个国…...

编程新知 2026/2/8 4:37:15

智慧工地云平台源码，基于微服务架构+Java+Spring Cloud +UniApp +MySql

智慧工地管理云平台系统，智慧工地全套源码，java版智慧工地源码，支持PC端、大屏端、移动端。智慧工地聚焦建筑行业的市场需求，提供“平台网络终端”的整体解决方案，提供劳务管理、视频管理、智能监测、绿色施工、安全管…...

编程新知 2026/1/30 15:16:32

Redis相关知识总结（缓存雪崩，缓存穿透，缓存击穿，Redis实现分布式锁，如何保持数据库和缓存一致）

文章目录 1.什么是Redis？2.为什么要使用redis作为mysql的缓存？3.什么是缓存雪崩、缓存穿透、缓存击穿？3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...

编程新知 2026/2/8 12:24:34

Rust 异步编程

Rust 异步编程引言 Rust 是一种系统编程语言，以其高性能、安全性以及零成本抽象而著称。在多核处理器成为主流的今天，异步编程成为了一种提高应用性能、优化资源利用的有效手段。本文将深入探讨 Rust 异步编程的核心概念、常用库以及最佳实践。异步编程基础什么是异步…...

编程新知 2025/11/17 18:58:56

大模型多显卡多服务器并行计算方法与实践指南

一、分布式训练概述大规模语言模型的训练通常需要分布式计算技术，以解决单机资源不足的问题。分布式训练主要分为两种模式：数据并行：将数据分片到不同设备，每个设备拥有完整的模型副本模型并行：将模型分割到不同设备，每个设备处理部分模型计算现代大模型训练通常结合…...

编程新知 2025/12/10 20:45:02

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)

目录一、SQL注入二、insert注入三、报错型注入四、updatexml函数五、源码审计六、insert渗透实战 1、渗透准备 2、获取数据库名database 3、获取表名table 4、获取列名column 5、获取字段本系列为通过《pikachu靶场通关笔记》的SQL注入关卡(共10关&#xff0…...

编程新知 2026/2/5 2:28:27

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

FTP 客服管理系统实现kefu123登录，不允许匿名访问，kefu只能访问/data/kefu目录，不能查看其他目录创建账号密码 useradd kefu echo 123|passwd -stdin kefu [rootcode caozx26420]# echo 123|passwd --stdin kefu 更改用户 kefu 的密码…...

编程新知 2026/1/25 9:03:19