当前位置：首页 > news >正文

Numba加速计算（CPU + GPU + prange）

news 2026/2/9 2:09:28

文章目录

加速方法：Numba、CuPy、PyTorch、PyCUDA、Dask、Rapids
一、Numba简介
二、Numba类型：CPU + GPU
三、项目实战 —— 数组的每个元素加2
- 3.1、使用 python - range 循环计算 —— （时耗：137.37 秒）
- 3.2、使用 python - numpy 数组计算 —— （时耗：1.05 秒）
- 3.3、使用 numba - CPU 加速计算 —— （时耗：13.85 秒）
- 3.4、使用 numba - GPU 加速计算 —— （时耗：0.13 秒）
- 3.5、使用 numba.prange 并行循环计算

在这里插入图片描述

加速方法：Numba、CuPy、PyTorch、PyCUDA、Dask、Rapids

加速方法	简介	支持平台	适用范围
Numba	通过即时编译（JIT）来加速Python函数	CPU + GPU	数值计算（密集循环）
CuPy	NumPy的GPU加速库	GPU	数组操作和数学计算（大规模数据集）
PyTorch	深度学习框架	GPU	张量操作和自动求导
PyCUDA	与CUDA交互的Python库	GPU	在Python中编写CUDA代码并在GPU上执行
Dask	并行计算库	CPU + GPU	并行操作（大规模数据集）
Rapids	基于NVIDIA GPU加速的数据科学生态系统	GPU	提供数据处理和机器学习的库（如cuDF、cuML）

一、Numba简介

Numba官网：专为 NumPy 科学计算而打造的，用于加速 Python 代码的即时编译器（Just-In-Time, JIT Compiler）。

由 Anaconda 公司主导开发

原理：使用行业标准LLVM编译器库在运行时，将 Python 和 NumPy 代码的子集转换为快速的机器代码。
速度：接近 C 或 FORTRAN 的速度
操作简单：只需将 Numba 装饰器之一应用到 Python 函数，Numba 将使用即时编译（JIT）编译为原生代码（机器代码），然后加速运行。
不需要替换 Python 解释器、运行单独的编译步骤，也不需要安装 C/C++ 编译器）
原生代码（Native code）：直接在计算机硬件上执行的机器代码。

适用范围

只支持NumPy库（Numba 基于 NumPy 底层代码开发）
不支持其余的Python库（自定义-重开发：将函数分解为底层代码）
（1）NumPy数值计算（CPU）：将 Python 函数即时编译为机器代码，用于加速数学运算等计算密集型任务（最初设计）。
（2）NumPy数组操作（CPU）：高效处理 NumPy 的数组操作和广播操作，且可以加速大型数组操作。
（3）支持并行计算（CPU和GPU）：使用 prange 来并行处理循环结构
（4）支持GPU加速：将代码转移到 GPU 上以加速执行

二、Numba类型：CPU + GPU

Numba官网案例1：并行化测试（@jit、prange、dask）
Numba官网案例2：GPU加速

import numba  # pip install numba
from numba import cuda, jit##############################################################
"""Numba装饰器：CPU加速"""
函数说明：@jit(nopython=True, parallel=True, target='cpu')
输入参数：（1）加速模式：nopython=True（默认）、forceobj=True			备注：Numba默认使用nopython编译函数。若无法完成编译，将使用对象模式（将导致性能损失）。（2）并行模式：parallel=True（默认）（3）指定平台：target='cpu'（默认）、target='gpu'> 多种不同的应用@jit()				# 适用于科学计算、数值计算和密集计算。@jit(target='cpu')	# CPU加速（与@jit()等效）@jit(target='cuda')	# GPU加速（与@cuda.jit()等效）@jit(nopython=True)	# 强制使用 nopython 模式，将函数尽可能编译成机器代码，如果无法完成编译则会引发错误（与@njit()等效）。@jit(forceobj=True)	# 强制使用对象模式，而不是默认的 nopython 模式。适用于一些特殊情况，如涉及动态类型的代码。@jit(parallel=True)	# 尝试并行化循环，充分利用多核处理器的性能（需将range转换为prange）。@njit()			# 强制使用 nopython 模式，比@jit更快但更严格（只接受Numpy数据类型）。@vectorize		# 适用于元素级别的向量化操作（单输入和单输出）、（输出数组的形状由输入数组的形状决定）@guvectorize	# 适用于元素级别的向量化操作（多输入和输出数组）、（输出数组的形状可以指定）@stencil		# 一种基于固定模板的局部计算。通过访问输入数组的邻域元素来计算输出数组的每个元素。
##############################################################
"""Numba装饰器：GPU加速"""	@cuda.jit()		# 用于在GPU上执行 CUDA 加速# @cuda.jit()与 @cuda.jit ———— 若不传递参数，两者是等效的。
# 		@cuda.jit 	使用默认选项 @cuda.jit()，并且不需要传递任何参数。
# 		@cuda.jit() 显式调用 @cuda.jit 装饰器，并且可以传递一些选项参数。

三、项目实战 —— 数组的每个元素加2

3.1、使用 python - range 循环计算 —— （时耗：137.37 秒）

import numpy as npdef numpy_cpu_kernel(input_array):shape = input_array.shape  # 获取数组形状result_array = np.zeros(shape)  # 初始化一个全零数组，形状与输入数组相同# 循环遍历每个元素，将其加 2for z in range(shape[0]):for y in range(shape[1]):for x in range(shape[2]):result_array[z, y, x] = input_array[z, y, x] + 2return result_arrayif __name__ == "__main__":# 在主机上创建 3D 数组input_data = np.zeros((1024, 1024, int(1024 * 0.5)))import timestart_time = time.time()# 在主机上调用 NumPy 函数result_array_on_host = numpy_cpu_kernel(input_data)print(f"总共耗时: {time.time() - start_time:.2f} 秒")# 打印结果数组的形状和最大值print(result_array_on_host.shape)print(result_array_on_host.max())"""总共耗时: 137.37 秒"""

3.2、使用 python - numpy 数组计算 —— （时耗：1.05 秒）

import numpy as npdef numpy_cpu_kernel(input_array):return input_array + 2  # 将输入数组的每个元素加 2if __name__ == "__main__":# 在主机上创建 3D 数组input_data = np.zeros((1024, 1024, int(1024 * 0.5)))import timestart_time = time.time()# 在主机上调用 NumPy 函数result_array_on_host = numpy_cpu_kernel(input_data)print(f"总共耗时: {time.time() - start_time:.2f} 秒")# 打印结果数组的形状和最大值print(result_array_on_host.shape)print(result_array_on_host.max())"""总共耗时: 1.05 秒"""

3.3、使用 numba - CPU 加速计算 —— （时耗：13.85 秒）

from numba import jit
import numpy as np# 使用 Numba 的 jit 装饰器进行即时编译
@jit(nopython=True)
def my_cpu_kernel(input_array, output_array):# 使用三个嵌套循环遍历 3D 输入数组的每个元素for x in range(input_array.shape[2]):for z in range(input_array.shape[0]):for y in range(input_array.shape[1]):# 执行简单的操作：将输入数组的元素加 2，并将结果存储到输出数组中output_array[z, y, x] = input_array[z, y, x] + 2if __name__ == "__main__":# （1）在主机上创建输入数组input_data = np.zeros((1024, 1024, int(1024 * 0.5)))  # 创建一个全零的3D数组result_array_on_host = np.zeros_like(input_data)# （2）在 CPU 上调用加速函数import timestart_time = time.time()my_cpu_kernel(input_data, result_array_on_host)print(f"总运行时间: {time.time() - start_time:.2f} 秒")  # 打印运行时间# 打印输出数组的形状和最大值print(result_array_on_host.shape)print(result_array_on_host.max())"""总共耗时: 13.858259439468384"""

3.4、使用 numba - GPU 加速计算 —— （时耗：0.13 秒）

【深度学习环境配置】Anaconda +Pycharm + CUDA +cuDNN + Pytorch + Opencv（资源已上传）

在CUDA编程中

CPU和主存（RAM）：称为主机（Host）
GPU和显存（VRAM）：称为设备（Device）
CPU无法直接读取显存数据，GPU无法直接读取主存数据；
主机与设备必须通过总线（Bus）相互通讯；

RAM是CPU的主内存，显存是GPU的专用内存

GPU计算流程：

（1）cuda.to_device()：将主机端的数据拷贝到设备端上，并在GPU上分配与主机上数据相同大小的内存。
（2）cuda.device_array_like()或cuda.device_array()：在GPU上分配用于输出数据的内存。
（3）gpu[blocks_per_grid, threads_per_block]：在CPU上调用GPU函数，启动GPU多核并行计算（详细看1.2）。
（4）CPU与GPU异步计算；
GPU函数的启动方式是异步的
异步计算：CPU不会等待GPU函数执行完毕才执行下一行代码。
同步计算：在调用的GPU函数后面添加 cuda.synchronize() —— 表示CPU需要等待GPU函数执行后再计算。

（5）cuda.copy_to_host()：将GPU设备端的计算结果拷贝回CPU主机端上。Python通过Numba实现GPU加速

numba的GPU加速 —— 1天到1分钟的转变
numba的GPU加速 —— 超过Numpy的速度有多难？

from numba import cuda
import numpy as np# 使用 Numba 的 CUDA 装饰器进行 GPU 加速
@cuda.jit
def my_cuda_kernel(input_array, output_array):x = cuda.grid(1)  # 使用1维索引if x < input_array.shape[2]:  # 检查索引是否在数组范围内for z in range(input_array.shape[0]):for y in range(input_array.shape[1]):# 执行简单的操作：将输入数组的元素加 2，并将结果存储到输出数组中output_array[z, y, x] = input_array[z, y, x] + 2if __name__ == "__main__":# （1）在主机上创建3D数组input_data = np.zeros((1024, 1024, int(1024 * 0.5)))# （2）拷贝数据 + 在GPU上分配内存device_input_array = cuda.to_device(input_data)  # 将主机上的input_data复制到GPU上device_output_array = cuda.device_array_like(input_data)  # 在GPU上开辟一个与 input_data 相同形状的数组用于存储计算结果。# （3）定义线程块的大小 + 线程块的数量threads_per_block = (16,)blocks_per_grid_x = (input_data.shape[2] + threads_per_block[0] - 1) // threads_per_block[0]blocks_per_grid = (blocks_per_grid_x,)# （4）调用CUDA核函数import timestart_time = time.time()my_cuda_kernel[blocks_per_grid, threads_per_block](device_input_array, device_output_array)print(f"总运行时间: {time.time() - start_time:.2f} 秒")  # 打印运行时间# （5）将结果从GPU复制回主机result_array_on_host = device_output_array.copy_to_host()  # 将计算结果从GPU复制回主机print(result_array_on_host.shape)print(result_array_on_host.max())"""总共耗时: 0.136000394821167"""

3.5、使用 numba.prange 并行循环计算

prange（parallel range）：类似于Python标准库中的 range，但专用于并行化循环计算（引入额外的开销）。可以在多个处理器核心上同时执行循环，以提高密集型计算的性能。

适用范围：

大规模数据和密集型计算：只有在循环非常庞大时，才可以充分利用多核处理器，否则将导致耗时更长。
独立迭代：每个迭代之间不存在依赖关系时，若后面的迭代依赖于前面迭代的计算结果（类似于递归函数），可能会导致耗时更长。
NumPy数组：使用NumPy数组可以表现出更好的性能。

import random
import numba
import time###############################################
# numba加速 + 串行版本（Serial version）
###############################################
@numba.jit(nopython=True)
def monte_carlo_pi_serial(nsamples):acc = 0for i in range(nsamples):x = random.random()y = random.random()if (x ** 2 + y ** 2) < 1.0:acc += 1return 4.0 * acc / nsamples###############################################
# numba加速 + 并行版本（Parallel version）
###############################################
@numba.jit(nopython=True, parallel=True)
def monte_carlo_pi_parallel(nsamples):acc = 0for i in numba.prange(nsamples):x = random.random()y = random.random()if (x ** 2 + y ** 2) < 1.0:acc += 1return 4.0 * acc / nsamplesif __name__ == "__main__":start_time = time.time()monte_carlo_pi_serial(33000000)  # 串行版本print(f"总共耗时: {time.time() - start_time:.2f} 秒")start_time = time.time()monte_carlo_pi_parallel(33000000)  # 并行版本print(f"总共耗时: {time.time() - start_time:.2f} 秒")"""一万次循环:0.277700185775756840.42730212211608887三千万次循环:0.464895009994506840.4749984741210937510亿次循环:6.72973990440368651.1980292797088623100亿次循环:67.732758283615116.892062425613403"""

Numba加速计算（CPU + GPU + prange）

文章目录加速方法：Numba、CuPy、PyTorch、PyCUDA、Dask、Rapids一、Numba简介二、Numba类型：CPU GPU三、项目实战 —— 数组的每个元素加23.1、使用 python - range 循环计算 —— （时耗：137.37 秒）3.2、使用 python…...

编程日记 2024/8/23 7:43:02

electron 两个渲染进程之间通信

一、使用主进程作为中介使用主进程作为中介相对较为灵活，但可能会增加主进程的负担 1. 从一个渲染进程向主进程发送消息在发送消息的渲染进程中，可以使用 ipcRenderer 模块向主进程发送消息。例如： const { ipcRenderer } require(&qu…...

编程日记 2024/8/23 7:42:01

1.检测环境变量运行printenv | grep ROS命令，有如下返回值则表示环境变量配置正确： ROS_ROOT/opt/ros/kinetic/share/ros ROS_PACKAGE_PATH/opt/ros/kinetic/share ROS_MASTER_URIhttp://localhost:11311 ROSLISP_PACKAGE_DIRECTORIES ROS_DIST…...

编程日记 2024/8/23 7:41:00

力扣 128. 最长连续序列

题目描述我的思路我的思路比较暴力，就是首先将数组从小到大进行排序，然后再依次遍历判断序列是否连续并时时更新连续序列的最长长度。比如示例1：nums [100, 4, 200, 1, 3, 2]，第一步先将数组进行排序得到sort_nums [1, 2, 3,…...

编程日记 2024/8/23 7:39:58

Stable Diffusion AI绘画工具的安装与配置(MAC用户）

AI绘画的热潮席卷了整个创意行业，Stable Diffusion作为其中的翘楚，让艺术创作变得前所未有的简单。然而，对于使用Mac电脑用户来说，安装和配置Stable Diffusion可能显得有些棘手。别担心，这份详细的教程将手把手教你如何…...

编程日记 2024/8/23 7:38:57

flowable源码解读——并行多实例节点任务是否是顺序生成

最近在项目开发中需要在多实例开始监听里修改一个全局的计数变量，不太确定并行多实例任务在底层引擎是顺序生成还是并行生成的，如果是顺序生成的则不影响，如果是并行生成则修改一个全局的计数变量就会出现数据错误问题，查阅了flo…...

编程日记 2024/8/23 7:36:55

【机器学习】AGI的基本概念、技术挑战和应用前景

引言 AGI是指机器能够完成人类能够完成的任何智力任务的能力文章目录引言一、什么是AGI1.1 AGI，Artificial General Intelligence（通用人工智能）1.2 AGI的定义和标准1.3 AGI的发展二、AGI的技术挑战2.1 理解人类智能2.2 认知复杂性2.3 自主…...

编程日记 2024/8/23 7:35:54

flink 使用RocksDB作为状态后端

RocksDB flink在生产环境中常用RocksDB作为状态后端 1、subtask在taskmanager中作为一个线程运行，如果设置了RocksDB状态后端，RocksDB也会启动一个独立的线程，供subtask来使用。 2、RocksDB是一个kv数据库，因此只能存储flink的键…...

编程日记 2024/8/23 7:34:53

【运维高级内容--MySQL】

目录一、mysql安装二、MySQL主从复制一、mysql安装 yum install cmake gcc-c openssl-devel ncurses-devel.x86_64 rpcgen.x86_64 #安装依赖性 #在root路径下下载mysql-boost-5.7.44、libtirpc-devel-1.3.3-8.el9_4.x86_64.rpm安装包 yum install libtirpc-devel…...

编程日记 2024/8/23 7:33:52

【仿真与实物设计】基于51单片机设计的打地鼠游戏机——程序源码原理图proteus仿真图PCB设计文档演示视频元件清单等（文末工程资料下载）

基于51单片机设计的打地鼠游戏机演示视频： 基于51单片机设计的打地鼠游戏机功能描述：使用 51单片机为核心制作一个打地鼠游戏机。按下启动开关，8盏LED流水点亮并闪烁2次，随即开始播放游戏音乐，直到开始选择模式。选…...

编程日记 2024/8/23 7:32:51

iPhone设备使用技巧：忘记密码的情况下如何解除iOS 18/17屏幕时间

我们给了儿子一部新手机。在尝试擦除旧手机上的所有内容并恢复出厂设置时，它要求提供 4 位屏幕时间密码。我已经尝试了我们会使用的所有可能性，但无法弄清楚。我们如何绕过这个问题或将手机恢复出厂设置以便我们可以出售它？ Apple 社区对于…...

编程日记 2024/8/23 7:29:47

内网渗透的风行者—Yasso

Yasso ： Yasso，让内网渗透变得简单而高效。- 精选真开源，释放新价值。概览 Yasso是由sairson精心打造的内网渗透辅助工具集，它为网络安全专家和渗透测试人员提供了一个功能强大的工作平台。在面对错综复杂的网络环境时&#xff…...

编程日记 2024/8/23 7:27:45

Android13 app后台无法启动Abort background activity starts from

总纲 android13 rom 开发总纲说明目录 1.前言 2.log分析 3.代码查找分析 4.修改方法 5.编译测试 6彩蛋 1.前言 Android13 用户app后台无法启动，提示Abort background activity starts from 10111 2.log分析 08-07 21:37:36.703: W/ActivityTaskManager(440): Back…...

编程日记 2024/8/23 7:25:43

Day45 | 99.岛屿数量深搜广搜 100.岛屿的最大面积

语言 Java 99.岛屿数量深搜广搜 99. 岛屿数量题目题目描述给定一个由 1（陆地）和 0（水）组成的矩阵，你需要计算岛屿的数量。岛屿由水平方向或垂直方向上相邻的陆地连接而成，并且四周都是水域。你可…...

编程日记 2024/8/23 7:23:41

css之grid布局（网格布局）

简述： 网格布局顾名思义就是将元素呈现为网状的整齐布局简单使用： <div><div class"test"><div class"item">1</div><div class"item">2</div><div class"item">…...

编程日记 2024/8/23 7:21:39

数据可视化大屏模板-美化图表

Axure作为一款强大的原型设计软件，不仅擅长构建交互式界面，更在数据可视化方面展现出了非凡的创意与实用性。今天，就让我们一起探索Axure设计的几款精美数据可视化大屏模板，感受数据之美。立体图表的视觉冲击力 Axure的数据可视…...

编程日记 2024/8/23 7:19:37

【与C++的邂逅】--- 类和对象(中)

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏： 与C的邂逅本篇博客我们将学习类和对象中，认识类的六个默认成员函数以及实现日期类。下图为本节思维导图。 🏠 类的6个默认成员函…...

编程日记 2024/8/23 7:18:37

[数据集][目标检测]瞳孔虹膜检测数据集VOC+YOLO格式8768张2类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：8768 标注数量(xml文件个数)：8768 标注数量(txt文件个数)：8768 标注…...

编程日记 2024/8/23 7:16:33

Day42 | 739. 每日温度 496.下一个更大元素 I 503.下一个更大元素II

语言 Java 739. 每日温度每日温度题目给定一个整数数组 temperatures ，表示每天的温度，返回一个数组 answer ，其中 answer[i] 是指对于第 i 天，下一个更高温度出现在几天后。如果气温在这之后都不会升高，请在该…...

编程日记 2024/8/23 7:15:32

运维大规模K8S集群注意事项

序言闲来无事，一片混沌，想不清思不断，改变好像来自于各个方面，有的时候是内部的冲突，有的时候是外部的竞争，然而，大部分情况下，一旦错过，就已经没得选了。尴尬的处境&a…...

编程日记 2024/8/23 7:14:30

linux之kylin系统nginx的安装

一、nginx的作用 1.可做高性能的web服务器直接处理静态资源（HTML/CSS/图片等），响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器隐藏后端服务器IP地址，提高安全性 3.负载均衡服务器支持多种策略分发流量…...

编程新知 2026/2/8 20:42:56

React Native 开发环境搭建（全平台详解）

React Native 开发环境搭建（全平台详解） 在开始使用 React Native 开发移动应用之前，正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南，涵盖 macOS 和 Windows 平台的配置步骤，如何在 Android 和 iOS…...

编程新知 2025/10/7 2:47:54

【HarmonyOS 5.0】DevEco Testing：鸿蒙应用质量保障的终极武器

——全方位测试解决方案与代码实战一、工具定位与核心能力 DevEco Testing是HarmonyOS官方推出的一体化测试平台，覆盖应用全生命周期测试需求，主要提供五大核心能力： 测试类型检测目标关键指标功能体验基…...

编程新知 2026/1/28 8:17:53

java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别

UnsatisfiedLinkError 在对接硬件设备中，我们会遇到使用 java 调用 dll文件的情况，此时大概率出现UnsatisfiedLinkError链接错误，原因可能有如下几种类名错误包名错误方法名参数错误使用 JNI 协议调用，结果 dll 未实现 JNI 协…...

编程新知 2025/10/6 16:38:04

Linux简单的操作

ls ls 查看当前目录 ll 查看详细内容 ls -a 查看所有的内容 ls --help 查看方法文档 pwd pwd 查看当前路径 cd cd 转路径 cd .. 转上一级路径 cd 名转换路径 …...

编程新知 2026/1/20 14:36:39

转转集团旗下首家二手多品类循环仓店“超级转转”开业

6月9日，国内领先的循环经济企业转转集团旗下首家二手多品类循环仓店“超级转转”正式开业。转转集团创始人兼CEO黄炜、转转循环时尚发起人朱珠、转转集团COO兼红布林CEO胡伟琨、王府井集团副总裁祝捷等出席了开业剪彩仪式。据「TMT星球」了解，“超级…...

编程新知 2026/2/8 4:08:40

用docker来安装部署freeswitch记录

今天刚才测试一个callcenter的项目，所以尝试安装freeswitch 1、使用轩辕镜像 - 中国开发者首选的专业 Docker 镜像加速服务平台编辑下面/etc/docker/daemon.json文件为 {"registry-mirrors": ["https://docker.xuanyuan.me"] }同时可以进入轩…...

编程新知 2026/2/1 3:20:44

Mobile ALOHA全身模仿学习

一、题目 Mobile ALOHA：通过低成本全身远程操作学习双手移动操作传统模仿学习（Imitation Learning）缺点：聚焦与桌面操作，缺乏通用任务所需的移动性和灵活性本论文优点：（1）在ALOHA…...

编程新知 2026/1/27 14:18:20

SQL慢可能是触发了ring buffer

简介最近在进行 postgresql 性能排查的时候，发现 PG 在某一个时间并行执行的 SQL 变得特别慢。最后通过监控监观察到并行发起得时间 buffers_alloc 就急速上升，且低水位伴随在整个慢 SQL，一直是 buferIO 的等待事件，此时也没有其他会话的争抢。SQL 虽然不是高效 SQL ，但…...

编程新知 2025/10/2 9:17:52

push [特殊字符] present

push 🆚 present 前言present和dismiss特点代码演示 push和pop特点代码演示前言在 iOS 开发中，push 和 present 是两种不同的视图控制器切换方式，它们有着显著的区别。 present和dismiss 特点在当前控制器上方新建视图层级需要手动调用…...

编程新知 2026/1/31 4:26:17