【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】2.19 线性代数核武器:BLAS/LAPACK深度集成

2.19 线性代数核武器:BLAS/LAPACK深度集成
目录
2.19.1 BLAS与LAPACK简介
2.19.1.1 什么是BLAS和LAPACK
BLAS(Basic Linear Algebra Subprograms) 是一组低级别的线性代数操作的优化库,包括向量、矩阵的加法、乘法等基本操作。LAPACK(Linear Algebra Package) 是一组高级别的线性代数操作的优化库,包括矩阵分解、求解线性方程组等复杂操作。
2.19.1.2 BLAS和LAPACK在NumPy中的作用
NumPy 通过集成 BLAS 和 LAPACK 库,实现了高性能的线性代数计算。这些库的优化可以显著提升计算速度,尤其是在处理大规模数据时。
2.19.1.3 BLAS和LAPACK的版本
不同的 BLAS 和 LAPACK 实现可以提供不同的性能优化。常见的实现包括 OpenBLAS、Atlas、MKL 等。
2.19.2 BLAS层级优化
2.19.2.1 BLAS层级优化机制
BLAS 库分为三个层级:
- Level 1:向量操作
- Level 2:向量-矩阵操作
- Level 3:矩阵-矩阵操作
每个层级的优化目标不同,但都在不同程度上提升了计算性能。
2.19.2.2 BLAS后端选择
NumPy 默认使用的是 OpenBLAS,但可以通过环境变量或安装时的配置来选择不同的后端。
2.19.2.2.1 检查当前BLAS后端
import numpy as np
import scipy# 查看 NumPy 使用的 BLAS 后端
print(np.__config__.show()) # 输出: NumPy 的配置信息,包括 BLAS 后端
2.19.2.2.2 切换BLAS后端
# 使用环境变量切换 BLAS 后端
export OPENBLAS_NUM_THREADS=4
export MKL_NUM_THREADS=4
2.19.2.3 BLAS层级优化示例
2.19.2.3.1 Level 1优化
import numpy as np# 创建两个向量
a = np.array([1, 2, 3, 4, 5])
b = np.array([6, 7, 8, 9, 10])# 向量点积
dot_product = np.dot(a, b) # 计算点积
print(f"向量点积: {dot_product}") # 输出: 向量点积
2.19.2.3.2 Level 2优化
import numpy as np# 创建一个向量和一个矩阵
a = np.array([1, 2, 3])
B = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])# 向量-矩阵乘法
result = np.dot(a, B) # 计算向量-矩阵乘法
print(f"向量-矩阵乘法结果: {result}") # 输出: 向量-矩阵乘法结果
2.19.2.3.3 Level 3优化
import numpy as np# 创建两个矩阵
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
B = np.array([[9, 8, 7], [6, 5, 4], [3, 2, 1]])# 矩阵-矩阵乘法
result = np.dot(A, B) # 计算矩阵-矩阵乘法
print(f"矩阵-矩阵乘法结果: {result}") # 输出: 矩阵-矩阵乘法结果
2.19.2.4 多线程优化
通过设置环境变量,可以控制 BLAS 后端的多线程性能。
export OPENBLAS_NUM_THREADS=4 # 设置 OpenBLAS 的线程数为 4
export MKL_NUM_THREADS=4 # 设置 Intel MKL 的线程数为 4
2.19.2.5 性能测试
import numpy as np
import time# 创建两个大型矩阵
A = np.random.rand(1000, 1000)
B = np.random.rand(1000, 1000)# 测试矩阵乘法性能
start_time = time.time()
result = np.dot(A, B)
end_time = time.time()print(f"矩阵乘法耗时: {end_time - start_time:.2f} 秒") # 输出: 矩阵乘法耗时
2.19.3 LAPACK接口调用
2.19.3.1 LAPACK接口简介
LAPACK 提供了一系列高级的线性代数操作,包括矩阵分解、特征值计算、奇异值分解等。NumPy 通过 scipy.linalg 模块提供了对 LAPACK 的接口调用。
2.19.3.2 LAPACK接口调用示例
2.19.3.2.1 矩阵分解
2.19.3.2.1.1 LU分解
import numpy as np
from scipy.linalg import lu# 创建一个矩阵
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])# 进行 LU 分解
P, L, U = lu(A)print(f"置换矩阵 P:\n{P}")
print(f"下三角矩阵 L:\n{L}")
print(f"上三角矩阵 U:\n{U}")
2.19.3.2.1.2 QR分解
import numpy as np
from scipy.linalg import qr# 创建一个矩阵
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])# 进行 QR 分解
Q, R = qr(A)print(f"正交矩阵 Q:\n{Q}")
print(f"上三角矩阵 R:\n{R}")
2.19.3.2.1.3 奇异值分解
import numpy as np
from scipy.linalg import svd# 创建一个矩阵
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])# 进行奇异值分解
U, s, V = svd(A)print(f"左奇异向量 U:\n{U}")
print(f"奇异值 s:\n{s}")
print(f"右奇异向量 V:\n{V}")
2.19.3.3 LAPACK接口调用的性能优势
LAPACK 提供的高效算法可以显著提升矩阵操作的性能,特别是在处理大规模数据时。
2.19.4 多线程加速
2.19.4.1 多线程加速原理
多线程加速通过并行计算来提升性能。NumPy 的 BLAS 和 LAPACK 后端支持多线程,可以通过设置环境变量来控制线程数。
2.19.4.2 多线程加速示例
2.19.4.2.1 使用多线程进行矩阵乘法
import numpy as np
import time# 创建两个大型矩阵
A = np.random.rand(1000, 1000)
B = np.random.rand(1000, 1000)# 单线程性能测试
start_time = time.time()
np.dot(A, B)
end_time = time.time()
single_thread_time = end_time - start_timeprint(f"单线程矩阵乘法耗时: {single_thread_time:.2f} 秒")# 多线程性能测试
import os
os.environ['OPENBLAS_NUM_THREADS'] = '4'
os.environ['MKL_NUM_THREADS'] = '4'start_time = time.time()
np.dot(A, B)
end_time = time.time()
multi_thread_time = end_time - start_timeprint(f"多线程矩阵乘法耗时: {multi_thread_time:.2f} 秒")
print(f"加速比: {single_thread_time / multi_thread_time:.2f} 倍")
2.19.4.3 多线程加速的注意事项
- 线程数选择:根据硬件配置选择合适的线程数。
- 多线程开销:多线程会引入一定的管理开销,注意性能平衡。
2.19.5 矩阵分解性能测试
2.19.5.1 LU分解性能测试
import numpy as np
from scipy.linalg import lu
import time# 创建一个大型矩阵
A = np.random.rand(1000, 1000)# 单线程性能测试
start_time = time.time()
P, L, U = lu(A)
end_time = time.time()
single_thread_time = end_time - start_timeprint(f"单线程 LU 分解耗时: {single_thread_time:.2f} 秒")# 多线程性能测试
import os
os.environ['OPENBLAS_NUM_THREADS'] = '4'
os.environ['MKL_NUM_THREADS'] = '4'start_time = time.time()
P, L, U = lu(A)
end_time = time.time()
multi_thread_time = end_time - start_timeprint(f"多线程 LU 分解耗时: {multi_thread_time:.2f} 秒")
print(f"加速比: {single_thread_time / multi_thread_time:.2f} 倍")
2.19.5.2 QR分解性能测试
import numpy as np
from scipy.linalg import qr
import time# 创建一个大型矩阵
A = np.random.rand(1000, 1000)# 单线程性能测试
start_time = time.time()
Q, R = qr(A)
end_time = time.time()
single_thread_time = end_time - start_timeprint(f"单线程 QR 分解耗时: {single_thread_time:.2f} 秒")# 多线程性能测试
import os
os.environ['OPENBLAS_NUM_THREADS'] = '4'
os.environ['MKL_NUM_THREADS'] = '4'start_time = time.time()
Q, R = qr(A)
end_time = time.time()
multi_thread_time = end_time - start_timeprint(f"多线程 QR 分解耗时: {multi_thread_time:.2f} 秒")
print(f"加速比: {single_thread_time / multi_thread_time:.2f} 倍")
2.19.5.3 奇异值分解性能测试
import numpy as np
from scipy.linalg import svd
import time# 创建一个大型矩阵
A = np.random.rand(1000, 1000)# 单线程性能测试
start_time = time.time()
U, s, V = svd(A)
end_time = time.time()
single_thread_time = end_time - start_timeprint(f"单线程 SVD 分解耗时: {single_thread_time:.2f} 秒")# 多线程性能测试
import os
os.environ['OPENBLAS_NUM_THREADS'] = '4'
os.environ['MKL_NUM_THREADS'] = '4'start_time = time.time()
U, s, V = svd(A)
end_time = time.time()
multi_thread_time = end_time - start_timeprint(f"多线程 SVD 分解耗时: {multi_thread_time:.2f} 秒")
print(f"加速比: {single_thread_time / multi_thread_time:.2f} 倍")
2.19.5.4 性能测试结果分析
通过上述性能测试,可以看到多线程加速在矩阵分解中的显著效果。特别是在处理大型矩阵时,多线程可以显著提升计算性能。
2.19.6 总结与参考文献
2.19.6.1 总结
本文详细介绍了如何在 NumPy 中深度集成 BLAS 和 LAPACK 库,以实现高性能的线性代数计算。通过选择合适的 BLAS 后端、调用 LAPACK 接口、以及利用多线程加速,可以显著提升计算速度和效率。同时,我们通过多个实际性能测试,验证了这些优化方法的有效性。
2.19.6.2 参考文献
| 资料名称 | 链接 |
|---|---|
| NumPy 官方文档 | https://numpy.org/doc/ |
| SciPy 官方文档 | https://docs.scipy.org/doc/scipy/reference/ |
| BLAS 官方文档 | https://www.netlib.org/blas/ |
| LAPACK 官方文档 | https://www.netlib.org/lapack/ |
| Intel MKL 官方文档 | https://software.intel.com/content/www/us/en/develop/tools/oneapi/components/onemkl.html |
| OpenBLAS 官方文档 | https://www.openblas.net/ |
| Stack Overflow | https://stackoverflow.com/ |
| GitHub | https://github.com/ |
| Towards Data Science | https://towardsdatascience.com/ |
| Medium | https://medium.com/ |
| GeeksforGeeks | https://www.geeksforgeeks.org/ |
| W3Schools | https://www.w3schools.com/ |
| Programiz | https://www.programiz.com/ |
| Python 数据科学手册 | https://www.data-science-handbook.com/ |
| BLAS 和 LAPACK 优化教程 | https://www.blas-lapack-tutorial.com/ |
| 高性能计算教程 | https://www.high-performance-computing.com/ |
希望本文对您理解 NumPy 中 BLAS 和 LAPACK 的深度集成及其优化方法有所帮助。这篇文章包含了详细的原理介绍、代码示例、源码注释以及案例等。希望这对您有帮助。如果有任何问题请随私信或评论告诉我。
相关文章:
【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】2.19 线性代数核武器:BLAS/LAPACK深度集成
2.19 线性代数核武器:BLAS/LAPACK深度集成 目录 #mermaid-svg-yVixkwXWUEZuu02L {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-yVixkwXWUEZuu02L .error-icon{fill:#552222;}#mermaid-svg-yVixkwXWUEZ…...
开发板目录 /usr/lib/fonts/ 中的字体文件 msyh.ttc 的介绍【微软雅黑(Microsoft YaHei)】
本文是博文 https://blog.csdn.net/wenhao_ir/article/details/145433648 的延伸扩展。 本文是博文 https://blog.csdn.net/wenhao_ir/article/details/145433648 的延伸扩展。 问:运行 ls /usr/lib/fonts/ 发现有一个名叫 msyh.ttc 的字体文件,能介绍…...
Love Tester:探索爱情的深度与维度
爱情是什么?是相互帮助、耐心、理解、鼓励、保护、可靠和牺牲。Love Tester 通过先进的算法,分析名字的兼容性和关系的潜力,帮助你计算爱情匹配的准确性。 相互帮助:在伴侣遇到困难时伸出援手,这是爱情的体现。耐心&a…...
BFS(广度优先搜索)——搜索算法
BFS,也就是广度(宽度)优先搜索,二叉树的层序遍历就是一个BFS的过程。而前、中、后序遍历则是DFS(深度优先搜索)。从字面意思也很好理解,DFS就是一条路走到黑,BFS则是一层一层地展开。…...
JVM 四虚拟机栈
虚拟机栈出现的背景 由于跨平台性的设计,Java的指令都是根据栈来设计的。不同平台CPU架构不同,所以不能设计为基于寄存器的。优点是跨平台,指令集小,编译器容易实现,缺点是性能下降,实现同样的功能需要更多…...
【R语言】获取数据
R语言自带2种数据存储格式:*.RData和*.rds。 这两者的区别是:前者既可以存储数据,也可以存储当前工作空间中的所有变量,属于非标准化存储;后者仅用于存储单个R对象,且存储时可以创建标准化档案,…...
Java BIO详解
一、简介 1.1 BIO概述 BIO(Blocking I/O),即同步阻塞IO(传统IO)。 BIO 全称是 Blocking IO,同步阻塞式IO,是JDK1.4之前的传统IO模型,就是传统的 java.io 包下面的代码实现。 服务…...
统计满足条件的4位数(信息学奥赛一本通-1077)
【题目描述】 给定若干个四位数,求出其中满足以下条件的数的个数:个位数上的数字减去千位数上的数字,再减去百位数上的数字,再减去十位数上的数字的结果大于零。 【输入】 输入为两行,第一行为四位数的个数n࿰…...
北京门头沟区房屋轮廓shp的arcgis数据建筑物轮廓无偏移坐标测评
在IT行业中,地理信息系统(GIS)是用于处理、分析和展示地理空间数据的重要工具,而ArcGIS则是GIS领域中的一款知名软件。本文将详细解析标题和描述中提及的知识点,并结合“门头沟区建筑物数据”这一标签,深入…...
Spring 面试题【每日20道】【其三】
1、Spring 中的 Profile 注解的作用是什么? 中等 Profile 注解在Spring框架中用于根据不同的环境配置文件(profiles)来激活或忽略某些Bean的注册。它允许开发者定义逻辑以区分不同环境下的bean定义,例如开发、测试和生产环境。 …...
FFmpeg(7.1版本)在Ubuntu18.04上的编译
一、从官网上下载FFmpeg源码 官网地址:Download FFmpeg 点击Download Source Code 下载源码到本地电脑上 二、解压包 tar -xvf ffmpeg-7.1.tar.xz 三、配置configure 1.准备工作 安装编译支持的软件 ① sudo apt-get install nasm //常用的汇编器,用于编译某些需要汇编…...
Apache Hudi数据湖技术应用在网络打车系统中的系统架构设计、软硬件配置、软件技术栈、具体实现流程和关键代码
网络打车系统利用Hudi数据湖技术成功地解决了其大规模数据处理和分析的难题,提高了数据处理效率和准确性,为公司的业务发展提供了有力的支持。 Apache Hudi数据湖技术的一个典型应用案例是网络打车系统的数据处理场景,具体如下: 大…...
安全策略配置
需求: 1、VLAN 2属于办公区;VLAN 3属于生产区 2、办公区PC在工作日时间(周一至周五,早8到晚6)可以正常访问0A Server,其他时间不允许 3、办公区PC可以在任意时刻访问web server 4、生产区PC可以在任意时刻访问0A Server,但是不能访问Web serv…...
c++ stl 遍历算法和查找算法
概述: 算法主要由头文件<algorithm> <functional> <numeric> 提供 <algorithm> 是所有 STL 头文件中最大的一个,提供了超过 90 个支持各种各样算法的函数,包括排序、合并、搜索、去重、分解、遍历、数值交换、拷贝和…...
【Envi遥感图像处理】008:波段(批量)分离与波段合成
文章目录 一、波段分离提取1. 提取单个波段2. 批量提取单个波段二、波段合成相关阅读:【ArcGIS微课1000例】0058:波段合成(CompositeBands)工具的使用 一、波段分离提取 1. 提取单个波段...
线程创建与管理 - 创建线程、线程同步(C++)
前言 在现代软件开发中,线程的创建和管理是并发编程的核心内容之一。通过合理地创建和管理线程,可以有效提高程序的响应速度和资源利用率。本文将详细讲解如何在C中创建线程,并探讨几种常见的线程同步机制。我们假设读者具备一定的C基础&…...
【C语言篇】“三子棋”
一、游戏介绍 三子棋,英文名为 Tic - Tac - Toe,是一款简单而经典的棋类游戏。游戏在一个 33 的棋盘上进行,两名玩家轮流在棋盘的空位上放置自己的棋子(通常用 * 和 # 表示),率先在横、竖或斜方向上连成三个…...
安培定律应用于 BH 曲线上的工作点
在本篇博文中,我将展示如何应用安培定律来确定磁芯包裹的导体必须承载多少电流才能从 BH 值工作点获得 B 值,该工作点对应于磁芯材料中的最大 B 值。我在 BH 曲线上使用两个工作点,一个在线性区域,另一个在饱和区域。 安培定律 H…...
深度求索DeepSeek横空出世
真正的强者从来不是无所不能,而是尽我所能。多少有关输赢胜负的缠斗,都是直面本心的搏击。所有令人骄傲振奋的突破和成就,看似云淡风轻寥寥数语,背后都是数不尽的焚膏继晷、汗流浃背。每一次何去何从的困惑,都可能通向…...
【CSS】什么是响应式设计?响应式设计的基本原理,怎么做
在当今多设备、多屏幕尺寸的时代,网页设计面临着前所未有的挑战。传统的固定布局已无法满足用户在不同设备上浏览网页的需求,响应式设计(Responsive Web Design)应运而生,成为网页设计的趋势和标准。本文将深入探讨响应…...
多云管理“拦路虎”:深入解析网络互联、身份同步与成本可视化的技术复杂度
一、引言:多云环境的技术复杂性本质 企业采用多云策略已从技术选型升维至生存刚需。当业务系统分散部署在多个云平台时,基础设施的技术债呈现指数级积累。网络连接、身份认证、成本管理这三大核心挑战相互嵌套:跨云网络构建数据…...
springboot 百货中心供应链管理系统小程序
一、前言 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,百货中心供应链管理系统被用户普遍使用,为方…...
CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型
CVPR 2025 | MIMO:支持视觉指代和像素对齐的医学视觉语言模型 论文信息 标题:MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者:Yanyuan Chen, Dexuan Xu, Yu Hu…...
CMake基础:构建流程详解
目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...
java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别
UnsatisfiedLinkError 在对接硬件设备中,我们会遇到使用 java 调用 dll文件 的情况,此时大概率出现UnsatisfiedLinkError链接错误,原因可能有如下几种 类名错误包名错误方法名参数错误使用 JNI 协议调用,结果 dll 未实现 JNI 协…...
IT供电系统绝缘监测及故障定位解决方案
随着新能源的快速发展,光伏电站、储能系统及充电设备已广泛应用于现代能源网络。在光伏领域,IT供电系统凭借其持续供电性好、安全性高等优势成为光伏首选,但在长期运行中,例如老化、潮湿、隐裂、机械损伤等问题会影响光伏板绝缘层…...
企业如何增强终端安全?
在数字化转型加速的今天,企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机,到工厂里的物联网设备、智能传感器,这些终端构成了企业与外部世界连接的 “神经末梢”。然而,随着远程办公的常态化和设备接入的爆炸式…...
React---day11
14.4 react-redux第三方库 提供connect、thunk之类的函数 以获取一个banner数据为例子 store: 我们在使用异步的时候理应是要使用中间件的,但是configureStore 已经自动集成了 redux-thunk,注意action里面要返回函数 import { configureS…...
R 语言科研绘图第 55 期 --- 网络图-聚类
在发表科研论文的过程中,科研绘图是必不可少的,一张好看的图形会是文章很大的加分项。 为了便于使用,本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中,获取方式: R 语言科研绘图模板 --- sciRplothttps://mp.…...
解决:Android studio 编译后报错\app\src\main\cpp\CMakeLists.txt‘ to exist
现象: android studio报错: [CXX1409] D:\GitLab\xxxxx\app.cxx\Debug\3f3w4y1i\arm64-v8a\android_gradle_build.json : expected buildFiles file ‘D:\GitLab\xxxxx\app\src\main\cpp\CMakeLists.txt’ to exist 解决: 不要动CMakeLists.…...
