当前位置：首页 > news >正文

测试cudaStream队列的深度

news 2026/2/8 11:09:36

测试cudaStream队列的深度

一.代码
二.编译运行[得出队列深度为512]

以下代码片段用于测试cudaStream队列的深度
方法: 主线程一直发任务,启一个线程cudaEventQuery查询已完成的任务,二个计数器的值相减

一.代码

#include <iostream>
#include <thread>
#include <chrono>
#include <cuda_runtime.h>
#include <atomic>
#include <vector>
#include <queue>
#include <mutex>
#include <condition_variable>
#include <iostream>
#include <thread>
#include <time.h>__global__ void time_consuming_kernel(int *data) {int idx = blockIdx.x * blockDim.x + threadIdx.x;float value = 0.0;for(int j=0;j<1000;j++){for (long long i = 0; i < 1000000000; ++i) {value += sinf(idx + i);}}	
}template <typename T>
class ThreadSafeQueue {
public:ThreadSafeQueue() = default;// 禁用复制构造函数和赋值操作符ThreadSafeQueue(const ThreadSafeQueue&) = delete;ThreadSafeQueue& operator=(const ThreadSafeQueue&) = delete;// 添加元素到队列尾部void enqueue(T item) {std::lock_guard<std::mutex> lock(mutex_);queue_.push(std::move(item));cond_var_.notify_one();}// 从队列头部移除元素bool dequeue(T& item) {std::unique_lock<std::mutex> lock(mutex_);cond_var_.wait(lock, [this] { return !queue_.empty(); });item = std::move(queue_.front());queue_.pop();return true;}// 检查队列是否为空bool empty() {std::lock_guard<std::mutex> lock(mutex_);return queue_.empty();}// 获取队列的大小size_t size() {std::lock_guard<std::mutex> lock(mutex_);return queue_.size();}private:std::queue<T> queue_;mutable std::mutex mutex_;std::condition_variable cond_var_;
};std::atomic<unsigned int> recv_counter{0};
std::atomic<unsigned int> snd_counter{0};
ThreadSafeQueue<cudaEvent_t> tsQueue;// 查询 stream 是否完成的线程函数
void query_stream(cudaStream_t stream) {cudaError_t status = cudaSuccess;    while (true) {cudaEvent_t event;tsQueue.dequeue(event);while (true){status = cudaEventQuery(event);if (status == cudaSuccess) {				recv_counter++;break;}std::this_thread::sleep_for(std::chrono::milliseconds(1));}cudaEventDestroy(event);}
}int main() {int dev = 0;cudaSetDevice(dev);cudaDeviceProp device_prop;cudaGetDeviceProperties(&device_prop, dev);int max_threads_per_block = device_prop.maxThreadsPerBlock;int max_blocks_per_grid_dim = device_prop.maxGridSize[0];int *d_data;cudaMalloc(&d_data, sizeof(int));cudaStream_t stream;cudaStreamCreate(&stream);// 启动查询 stream 的线程std::thread query_thread(query_stream, stream);while(1){cudaEvent_t ev;cudaEventCreate(&ev);		auto start = std::chrono::high_resolution_clock::now();time_consuming_kernel<<<max_blocks_per_grid_dim, max_threads_per_block,0,stream>>>(d_data);cudaEventRecord(ev,stream);auto end = std::chrono::high_resolution_clock::now();std::chrono::duration<double, std::milli> diff = end - start;tsQueue.enqueue(ev);snd_counter+=1;printf("snd:%d rcv:%d gap:%d lanuch_duration:%f\n",(int)snd_counter,(int)recv_counter,int(snd_counter-recv_counter),diff.count());}// 等待线程完成query_thread.join();// 清理资源cudaStreamDestroy(stream);cudaFree(d_data);return 0;
}

二.编译运行[得出队列深度为512]

/usr/local/cuda/bin/nvcc -o demo main.cu -I /usr/local/cuda/include -L /usr/local/cuda/lib64
./demo

输出

snd:509 rcv:0 gap:509 lanuch_duration:0.004661
snd:510 rcv:0 gap:510 lanuch_duration:0.003677
snd:511 rcv:0 gap:511 lanuch_duration:0.004387
snd:512 rcv:0 gap:512 lanuch_duration:11307.932958
snd:513 rcv:1 gap:512 lanuch_duration:11302.601698
snd:514 rcv:2 gap:512 lanuch_duration:11302.245001

测试cudaStream队列的深度

测试cudaStream队列的深度一.代码二.编译运行[得出队列深度为512] 以下代码片段用于测试cudaStream队列的深度方法: 主线程一直发任务,启一个线程cudaEventQuery查询已完成的任务,二个计数器的值相减一.代码 #include <iostream> #include <thread> #include …...

编程日记 2024/6/20 5:09:34

海康威视 isecure center 综合安防管理平台任意文件上传漏洞

文章目录前言声明一、漏洞描述二、影响版本三、漏洞复现四、修复方案前言海康威视是以视频为核心的智能物联网解决方案和大数据服务提供商,业务聚焦于综合安防、大数据服务和智慧业务。海康威视其产品包括摄像机、多屏控制器、交通产品、传输产品、存储产品、门禁产品、消…...

编程日记 2024/6/20 5:08:33

一、安装vscode 安装vscode流程二、安装插件 1.安装glsl编辑插件 2.安装shader toy插件三、创建glsl文件 test.glsl文件 float Grid(float size, vec2 fragCoord) {vec2 r fragCoord / size;vec2 grid abs(fract(r - 0.5) - 0.5) / fwidth(r);float line min(grid…...

编程日记 2024/6/20 5:07:31

matlab线性多部法求常微分方程数值解

用Adamas内差二步方法，内差三步方法，外差二步方法，外差三步方法这四种方法计算。中k为1和2. k为2和3 代码 function chap1_adams_methodu0 1; T 2; h 0.1; N T/h; t 0:h:T; solu exact1(t);f f1; u_inter_2s adams_inter_2steps(…...

编程日记 2024/6/20 5:06:30

前端页面实现【矩阵表格与列表】

实现页面： 1.动态表绘制（可用于矩阵构建） <template><div><h4><b>基于层次分析法的权重计算</b></h4><table table-layout"fixed"><thead><tr><th v-for"(_, colI…...

编程日记 2024/6/20 5:05:29

GPT4v和Gemini-Pro调用对比

要调用 GPT-4 Vision (GPT-4V) 和 Gemini-Pro，以下是详细的步骤分析，包括调用流程、API 使用方法和两者之间的区别，以及效果对比和示例。 GPT-4 Vision (GPT-4V) 调用步骤 GPT-4 Vision 主要通过 OpenAI 的 API 进行调用，用于处…...

编程日记 2024/6/20 5:04:27

破布叶（Microcos paniculata）单倍型染色体级别基因组-文献精读22

Haplotype-resolved chromosomal-level genome assembly of Buzhaye (Microcos paniculata) 破布叶、布渣叶（Microcos paniculata）单倍型解析染色体级别基因组组装摘要布渣叶（Microcos paniculata）是一种传统上用作民间药物和…...

编程日记 2024/6/20 5:03:26

浅谈RC4

一、什么叫RC4？优点和缺点 RC4是对称密码（加密解密使用同一个密钥）算法中的流密码（一个字节一个字节的进行加密）加密算法。优点：简单、灵活、作用范围广，速度快缺点：安全性能较差&…...

编程日记 2024/6/20 5:02:24

uniapp微信小程序开发物料

开发工具 HBuilder： HBuilderX-高效极客技巧 vscode 1、在vscode中新建一个项目npx degit dcloudio/uni-preset-vue#vite-ts 项目名称 2、在HBuilder中可以可视化进行新建项目路由在app.json文件中配置pages路由路径路由跳转方法 uni.navigateTo(OBJECT)…...

编程日记 2024/6/20 4:59:20

大数据工程师如何做到数据可视化？

好的数据可视化作品都是通过不断的数据对比分析实战出来的。今天给大家带来一篇大数据工程师干货，从多角度解析做数据可视化的重要性，并解读一些适用的应用场景。大数据工程师们刷到这篇文章时一定要进来看看，满满的干货。目录 1. 什么是数…...

编程日记 2024/6/20 4:58:18

Java 序列化与反序列化

Java 序列化是一种将对象的状态转换为字节流的机制，以便可以将该对象的状态保存到文件、数据库或通过网络传输。在反序列化过程中，这些字节流可以被重新转换为对象。序列化主要用于以下几种情况： 持久化存储：将对象的状态保存到文…...

编程日记 2024/6/20 4:57:16

自定义防抖注解

问题场景在开发中由于可能存在的网络波动问题导致用户重复提交，所以自定义一个防抖注解。设计思路：自定义注解加在接口的方法上，注解中设置了SPEL表达式，可以通过SPEL表达式从接口参数中提取Redis的Key，以这个Key作为…...

编程日记 2024/6/20 4:56:15

【尚庭公寓SpringBoot + Vue 项目实战】登录管理（十八）

【尚庭公寓SpringBoot Vue 项目实战】登录管理（十八） 文章目录【尚庭公寓SpringBoot Vue 项目实战】登录管理（十八）1、登录业务介绍2、接口开发2.1、获取图形验证码2.2、登录接口2.3、获取登录用户个人信息 1、登录业务介绍登…...

编程日记 2024/6/20 4:52:08

【html】用html+css做地表最强王者荣耀辅助工具

源码： <!DOCTYPE html> <html><head><meta charset"utf-8" /><title></title><style>* {margin: 0;padding: 0;}body{background-color: blue;}.con {width: 300px;height: 500px;background-color: rgba(230,…...

编程日记 2024/6/20 4:50:06

TF-IDF、BM25传统算法总结

1. TF-IDF算法 F-IDF（词频-逆文档频率）是一种用于衡量文本中词语重要性的方法，特别适用于信息检索和文本挖掘任务。下面会拆分为两部分深入讲解TF-IDF的计算过程，以便更好地理解。 TF-IDF的计算过程可以分为两个主要部分&#xf…...

编程日记 2024/6/20 4:49:04

项目五 OpenStack镜像管理与制作

任务一理解OpenStack镜像服务 1.1 •什么是镜像 • 镜像通常是指一系列文件或一个磁盘驱动器的精确副本。 • 虚拟机所使用的虚拟磁盘， 实际上是一种特殊格式的镜像文件。 • 云环境下尤其需要镜像。 • 镜像就是一个模板，类似于 VMware 的虚拟…...

编程日记 2024/6/20 4:48:03

LabVIEW回热系统热经济性分析及故障诊断

开发了一种利用LabVIEW软件的电厂回热系统热经济性分析和故障诊断系统。该系统针对火电厂回热加热器进行优化，通过实时数据监控与分析，有效提高机组的经济性和安全性，同时降低能耗和维护成本。系统的实施大幅提升了火电厂运行的效率和可靠性&…...

编程日记 2024/6/20 4:46:01

设计模式-迭代器模式

目录一:基本介绍二:原理说明三:案例说明四:优点五:缺点一:基本介绍 1)属于行为模式 2)如果我们的集合元素是用不同的方式实现的,有数组,还有java的集合类,或者还有其他方式,当客户端要遍历这些集合元素的时候就要使用多种遍历方式,而且还会暴露元素的内部结构,可以…...

编程日记 2024/6/20 4:44:59

UV胶带和UV胶水的应用场景有哪些不同吗?

UV胶带和UV胶水的应用场景有哪些不同吗? UV胶带和UV胶水的应用场景确实存在不同之处，以下是详细的比较和归纳： 一：按使用场景来看： UV胶带的应用场景： 包装行业：UV胶带在包装行业中常用于食品包装、药…...

编程日记 2024/6/20 4:43:58

监控员工上网软件有哪些｜4款好用的员工上网行为管理软件推荐

在当今数字化办公环境中，确保网络安全、提升工作效率、以及规范员工上网行为成为企业管理的重要组成部分。为此，一套高效的员工上网行为管理软件显得尤为关键。本文将为您推荐五款市场上广受好评的员工上网行为管理软件，帮助您有效监控与管…...

编程日记 2024/6/20 4:42:57

uniapp 对接腾讯云IM群组成员管理（增删改查）

UniApp 实战：腾讯云IM群组成员管理（增删改查） 一、前言在社交类App开发中，群组成员管理是核心功能之一。本文将基于UniApp框架，结合腾讯云IM SDK，详细讲解如何实现群组成员的增删改查全流程。权限校验…...

编程新知 2026/1/13 9:59:27

Lombok 的 @Data 注解失效，未生成 getter/setter 方法引发的HTTP 406 错误

HTTP 状态码 406 (Not Acceptable) 和 500 (Internal Server Error) 是两类完全不同的错误，它们的含义、原因和解决方法都有显著区别。以下是详细对比： 1. HTTP 406 (Not Acceptable) 含义： 客户端请求的内容类型与服务器支持的内容类型不匹…...

编程新知 2026/2/1 20:49:03

label-studio的使用教程(导入本地路径)

文章目录 1. 准备环境2. 脚本启动2.1 Windows2.2 Linux 3. 安装label-studio机器学习后端3.1 pip安装(推荐)3.2 GitHub仓库安装 4. 后端配置4.1 yolo环境4.2 引入后端模型4.3 修改脚本4.4 启动后端 5. 标注工程5.1 创建工程5.2 配置图片路径5.3 配置工程类型标签5.4 配置模型5.…...

编程新知 2026/2/7 20:40:53

DeepSeek 赋能智慧能源：微电网优化调度的智能革新路径

目录一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...

编程新知 2025/11/20 2:48:44

Admin.Net中的消息通信SignalR解释

定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...

编程新知 2025/9/10 5:36:56

【单片机期末】单片机系统设计

主要内容：系统状态机，系统时基，系统需求分析，系统构建，系统状态流图一、题目要求二、绘制系统状态流图题目：根据上述描述绘制系统状态流图，注明状态转移条件及方向。三、利用定时器产生时…...

编程新知 2026/1/31 12:27:36

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别直接训练提示词嵌入向量的核心区别您提到的代码： prompt_embedding = initial_embedding.clone().requires_grad_(True) optimizer = torch.optim.Adam([prompt_embedding...

编程新知 2025/7/4 0:50:01

安卓基础（aar）

重新设置java21的环境，临时设置 $env:JAVA_HOME "D:\Android Studio\jbr" 查看当前环境变量 JAVA_HOME 的值 echo $env:JAVA_HOME 构建ARR文件 ./gradlew :private-lib:assembleRelease 目录是这样的： MyApp/ ├── app/ …...

编程新知 2026/1/25 8:10:56

在Ubuntu24上采用Wine打开SourceInsight

1. 安装wine sudo apt install wine 2. 安装32位库支持，SourceInsight是32位程序 sudo dpkg --add-architecture i386 sudo apt update sudo apt install wine32:i386 3. 验证安装 wine --version 4. 安装必要的字体和库（解决显示问题） sudo apt install fonts-wqy…...

编程新知 2025/10/14 0:47:25

pgsql：还原数据库后出现重复序列导致“more than one owned sequence found“报错问题的解决

问题： pgsql数据库通过备份数据库文件进行还原时，如果表中有自增序列，还原后可能会出现重复的序列，此时若向表中插入新行时会出现“more than one owned sequence found”的报错提示。点击菜单“其它”-》“序列”，…...

编程新知 2026/1/26 21:38:28

测试cudaStream队列的深度

测试cudaStream队列的深度

一.代码

二.编译运行[得出队列深度为512]

相关文章：

测试cudaStream队列的深度

海康威视 isecure center 综合安防管理平台任意文件上传漏洞

shadertoy-安装和使用

matlab线性多部法求常微分方程数值解

前端页面实现【矩阵表格与列表】

GPT4v和Gemini-Pro调用对比

破布叶（Microcos paniculata）单倍型染色体级别基因组-文献精读22

浅谈RC4

uniapp微信小程序开发物料

大数据工程师如何做到数据可视化？

Java 序列化与反序列化

自定义防抖注解

【尚庭公寓SpringBoot + Vue 项目实战】登录管理（十八）

【html】用html+css做地表最强王者荣耀辅助工具

TF-IDF、BM25传统算法总结

项目五 OpenStack镜像管理与制作

LabVIEW回热系统热经济性分析及故障诊断

设计模式-迭代器模式

UV胶带和UV胶水的应用场景有哪些不同吗?

监控员工上网软件有哪些｜4款好用的员工上网行为管理软件推荐

uniapp 对接腾讯云IM群组成员管理（增删改查）

Lombok 的 @Data 注解失效，未生成 getter/setter 方法引发的HTTP 406 错误

label-studio的使用教程(导入本地路径)

DeepSeek 赋能智慧能源：微电网优化调度的智能革新路径

Admin.Net中的消息通信SignalR解释

【单片机期末】单片机系统设计

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别

安卓基础（aar）

在Ubuntu24上采用Wine打开SourceInsight

pgsql：还原数据库后出现重复序列导致“more than one owned sequence found“报错问题的解决