提高代码效率的5个Python内存优化技巧
大家好,当项目变得越来越大时,有效地管理计算资源是一个不可避免的需求。Python与C或c++等低级语言相比,似乎不够节省内存。
但是其实有许多方法可以显著优化Python程序的内存使用,这些方法可能在实际应用中并没有人注意,所以本文将重点介绍Python的内置机制,掌握它们将大大提高Python编程技能。
首先在进行内存优化之前,我们首先要查看内存的使用情况。
有几种方法可以在Python中获取对象的大小,可以使用sys.getsizeof()来获取对象的确切大小,使用objgraph.show_refs()来可视化对象的结构,或者使用psutil.Process().memory_info()。RSS获取当前分配的所有内存。
import numpy as np
import sys
import objgraph
import psutil
import pandas as pdob = np.ones((1024, 1024, 1024, 3), dtype=np.uint8)### Check object 'ob' sizesys.getsizeof(ob) / (1024 * 1024)3072.0001373291016### Check current memory usage of whole process (include ob and installed packages, ...)psutil.Process().memory_info().rss / (1024 * 1024)3234.19140625### Check structure of 'ob' (Useful for class object)objgraph.show_refs([ob], filename='sample-graph.png')### Check memory for pandas.DataFramefrom sklearn.datasets import load_bostondata = load_boston()data = pd.DataFrame(data['data'])print(data.info(verbose=False, memory_usage='deep'))<class 'pandas.core.frame.DataFrame'>RangeIndex: 506 entries, 0 to 505Columns: 13 entries, 0 to 12dtypes: float64(13)memory usage: 51.5 KB### Check memory for pandas.Seriesdata[0].memory_usage(deep=True) # deep=True to include all the memory used by underlying parts that construct the pd.Series4176
1. __slots__
Python作为一种动态类型语言,在面向对象方面具有更大的灵活性。在运行时可以向Python类添加额外属性和方法的能力。
例如,下面的代码定义了一个名为Author的类。最初它有两个属性name和age。但是可以很容易地添加一个额外的job:
class Author:def __init__(self, name, age):self.name = nameself.age = ageme = Author('Yang Zhou', 30)me.job = 'Software Engineer'print(me.job)# Software Engineer
但是这种灵活性在底层浪费了更多内存。
因为Python中每个类的实例都维护一个特殊的字典(__dict__)来存储实例变量。因为字典的底层基于哈希表的实现所以消耗了大量的内存。
在大多数情况下,我们不需要在运行时更改实例的变量或方法,并且__dict__不会(也不应该)在类定义后更改。所以Python为此提供了一个属性:__slots__。
它通过指定类的所有有效属性的名称来作为白名单:
class Author:__slots__ = ('name', 'age')def __init__(self, name, age):self.name = nameself.age = ageme = Author('Yang Zhou', 30)me.job = 'Software Engineer'print(me.job)# AttributeError: 'Author' object has no attribute 'job'
白名单只定义了两个有效的属性name和age。由于属性是固定的,Python不需要为它维护字典,只为__slots__中定义的属性分配必要的内存空间。
下面我们做一个简单的比较:
import sysclass Author:def __init__(self, name, age):self.name = nameself.age = ageclass AuthorWithSlots:__slots__ = ['name', 'age']def __init__(self, name, age):self.name = nameself.age = age# Creating instancesme = Author('Yang', 30)me_with_slots = AuthorWithSlots('Yang', 30)# Comparing memory usagememory_without_slots = sys.getsizeof(me) + sys.getsizeof(me.__dict__)memory_with_slots = sys.getsizeof(me_with_slots) # __slots__ classes don't have __dict__print(memory_without_slots, memory_with_slots)# 152 48print(me.__dict__)# {'name': 'Yang', 'age': 30}print(me_with_slots.__dict__)# AttributeError: 'AuthorWithSlots' object has no attribute '__dict__'
可以看到 152 和 48 明显节省了内存。
2. Generators
生成器是Python中列表的惰性求值版本。每当调用next()方法时生成一个项,而不是一次计算所有项。所以它们在处理大型数据集时非常节省内存。
def number_generator():for i in range(100):yield inumbers = number_generator()print(numbers)# <generator object number_generator at 0x104a57e40>print(next(numbers))# 0print(next(numbers))# 1
上面的代码显示了一个编写和使用生成器的基本示例。关键字yield是生成器定义的核心。应用它意味着只有在调用next()方法时才会产生项i。
让我们比较一个生成器和一个列表,看看哪个更节省内存:
mport sysnumbers = []for i in range(100):numbers.append(i)def number_generator():for i in range(100):yield inumbers_generator = number_generator()print(sys.getsizeof(numbers_generator))# 112print(sys.getsizeof(numbers))# 920
可以看到使用生成器可以显著节省内存使用。如果我们将列表推导式的方括号转换成圆括号,它将成为生成器表达式。这是在Python中定义生成器的更简单的方法:
import sysnumbers = [i for i in range(100)]numbers_generator = (i for i in range(100))print(sys.getsizeof(numbers_generator))# 112print(sys.getsizeof(numbers))# 920
3. 利用内存映射文件支持大文件处理
内存映射文件I/O,简称“mmap”,是一种操作系统级优化。
简单地说,当使用mmap技术对文件进行内存映射时,它直接在当前进程的虚拟内存空间中创建文件的映射,而不是将整个文件加载到内存中,这节省了大量内存。
Python已经提供了用于使用此技术的内置模块,因此我们可以轻松地利用它,而无需考虑操作系统级别的实现。
以下是如何在Python中使用mmap进行文件处理:
import mmapwith open('test.txt', "r+b") as f:# memory-map the file, size 0 means whole filewith mmap.mmap(f.fileno(), 0) as mm:# read content via standard file methodsprint(mm.read())# read content via slice notationsnippet = mm[0:10]print(snippet.decode('utf-8'))
Python使内存映射文件I/O技术的使用变得方便。所需要做的只是应用mmap.mmap()方法,然后使用标准文件方法甚至切片符号处理打开的对象。
4. 选择适当的数据类型
开发人员应仔细而精确地选择数据类型。因为在某些情况下,使用一种数据类型比使用另一种数据类型更节省内存。
元组比列表更节省内存
元组是不可变的(在创建后不能更改),它允许Python在内存分配方面进行优化。列表是可变的,因此需要额外的空间来容纳潜在的修改。
import sysmy_tuple = (1, 2, 3, 4, 5)my_list = [1, 2, 3, 4, 5]print(sys.getsizeof(my_tuple))# 80print(sys.getsizeof(my_list))# 120
元组my_tuple比列表使用更少的内存,如果创建后不需要更改数据,我们应该选择元组而不是列表。
数组比列表更节省内存
Python中的数组要求元素具有相同的数据类型(例如,所有整数或所有浮点数),但列表可以存储不同类型的对象,这不可避免地需要更多的内存。如果列表的元素都是相同类型,使用数组会更节省内存:
import sysimport arraymy_list = [i for i in range(1000)]my_array = array.array('i', [i for i in range(1000)])print(sys.getsizeof(my_list)) # 8856print(sys.getsizeof(my_array))# 4064
另外:Python是数据科学的主导语言。有许多强大的第三方模块和工具提供更多的数据类型,如NumPy和Pandas。如果我们只需要一个简单的一维数字数组,而不需要NumPy提供的广泛功能,那么Python的内置数组是一个不错的选择。但当涉及到复杂的矩阵操作时,使用NumPy提供的数组是所有数据科学家的首选,也可能是最佳选择。
5. 字符串驻留
看看下面的代码:
>>> a = 'Y'*4096>>> b = 'Y'*4096>>> a is bTrue>>> c = 'Y'*4097>>> d = 'Y'*4097>>> c is dFalse
为什么a是b是真,而c是d是假呢?
这在Python中被称作字符串驻留(string interning).如果有几个值相同的小字符串,它们将被Python隐式地存储并在内存中并引用相同的对象。定义小字符串阈值数字是4096。
由于c和d的长度为4097,因此它们是内存中的两个对象而不是一个对象,不再隐式驻留字符串。所以当执行c = d时,我们得到一个False。
驻留是一种优化内存使用的强大技术。如果我们想要显式地使用它可以使用sys.intern()方法:
>>> a = 'Y'*4096>>> b = 'Y'*4096>>> a is bTrue>>> c = 'Y'*4097>>> d = 'Y'*4097>>> c is dFalse
相关文章:
提高代码效率的5个Python内存优化技巧
大家好,当项目变得越来越大时,有效地管理计算资源是一个不可避免的需求。Python与C或c等低级语言相比,似乎不够节省内存。 但是其实有许多方法可以显著优化Python程序的内存使用,这些方法可能在实际应用中并没有人注意࿰…...
基于一款热门大屏可视化设计器使用教程
乐吾乐大屏可视化设计器是一个用于创建和定制大屏幕数据可视化展示的工具,支持零代码实现物联网、工业智能制造等领域的可视化大屏、触摸屏端UI以及工控可视化的解决方案。同时也是一个Web组态工具,支持2D、3D等多种形式,用于构建具有实时数据…...
梯度下降法、模拟训练、拟合二次曲线、最小二乘法、MSELoss、拟合:f(x)=ax^2+bx+c
本文目标: 以这个公式为例,设计一个算法,用梯度下降法来模拟训练过程,最终得出参数a,b,c 原理介绍 目标函数: 损失函数:,就是mse 损失函数展开: 损失函数对a,b,c求导数: 导数就是梯度…...
Web3.0投票如何做到公平公正且不泄露个人隐私
在当前的数字时代,社交平台举办投票活动已成为了一种普遍现象。然而,随之而来的是一些隐私和安全方面的顾虑,特别是关于个人信息泄露和电话骚扰的问题。期望建立一个既公平公正又能保护个人隐私的投票系统。Web3.0的出现为实现这一目标提供了…...
灰度图像的自动阈值分割
第一种:Otsu (大津法) 一、基于cv2的API调用 1、代码实现 直接给出相关代码: import cv2 import matplotlib.pylab as pltpath r"D:\Desktop\00aa\1.png" img cv2.imread(path, 0)def main2():ret, thresh1 cv2.…...
利用Maven获取jar包
我有一个习惯,就是程序不在线依赖网络的任何包。以前用C#时候虽然用Nuget找包,但是添加引用后又马上把Nuget引用删了,再把Nuget下载的dll拷贝到工程再引用dll。 这样做的好处是: 1.别人得到程序代码可以直接编译,不用…...
将vue组件发布成npm包
文章目录 前言一、环境准备1.首先最基本的需要安装nodejs,版本推荐 v10 以上,因为需要安装vue-cli2.安装vue-cli 二、初始化项目1.构建项目2.开发组件/加入组件3. 修改配置文件 三、调试1、执行打包命令2、发布本地连接包3、测试项目 四、发布使用1、注册…...
江科大STM32 中
目录 6、TIM(Timer)定时器基本定时器通用定时器高级定时器示例程序(定时器定时中断&定时器外部时钟)TIM输出比较示例程序(PWM驱动LED呼吸灯&PWM驱动舵机&PWM驱动直流电机)TIM输入捕获示例程序&…...
vue+draggable+el-upload上传图片拖拽重排方法
vuedraggableel-upload上传图片拖拽重排方法 1.html <el-row><el-col><el-form-item label"添加视频/图片" prop"device_id"><div class"image-upload"><draggable v-model"fileList" update"dataDr…...
微信的新版canvas绘制的图案发生变形和偏移的问题
一,现象 this.context.beginPath(); this.context.moveTo(10, 10); this.context.lineTo(10, 100); this.context.lineTo(100, 100); this.context.lineTo(100, 10); this.context.lineTo(10, 10); this.context.stroke();本来绘制的是正方形,结果绘制出来是个矩形,边的宽度也…...
[ACM学习] 进制转换
进制的本质 本质是每一位的数位上的数字乘上这一位的权重 将任意进制转换为十进制 原来还很疑惑为什么从高位开始,原来从高位开始的,可以被滚动地乘很多遍。 将十进制转换为任意进制...
redis + 拦截器 :防止数据重复提交
1.项目用到,不是核心 我们干系统开发,不免要考虑一个点,数据的重复提交。 我想我们之前如果要校验数据重复提交要求,会怎么干?会在业务层,对数据库操作,查询数据是否存在,存在就禁止插入数据; 但是吧,我们每次crud操作都会连接…...
如何进行H.265视频播放器EasyPlayer.js的中性化设置?
H5无插件流媒体播放器EasyPlayer属于一款高效、精炼、稳定且免费的流媒体播放器,可支持多种流媒体协议播放,可支持H.264与H.265编码格式,性能稳定、播放流畅,能支持WebSocket-FLV、HTTP-FLV,HLS(m3u8&#…...
Ubuntu22.04安装4090显卡驱动
1、安装完Ubuntu系统,打完所有补丁后再进行后续操作 2、下载系统所需要的版本的NV显卡驱动,本次由于使用CUDA12.1,故选用的驱动版本为NVIDIA-Linux-x86_64-530.41.03.run 3、卸载NV驱动(只是保险起见,并不是一定会卸…...
YOLOv8优化策略:注意力涨点系列篇 | 一种轻量级的加强通道信息和空间信息提取能力的MLCA注意力
🚀🚀🚀本文改进:一种轻量级的加强通道信息和空间信息提取能力 MLCA注意力 🚀🚀🚀在YOLOv8中如何使用 1)作为注意力机制使用;2)与c2f结合使用; 🚀🚀🚀YOLOv8改进专栏:http://t.csdnimg.cn/hGhVK 学姐带你学习YOLOv8,从入门到创新,轻轻松松搞定科研…...
【新书推荐】2.5节 有符号整数和无符号整数
本节内容:整数的编码规则。 ■数据的编码规则:计算机的二进制数对于计算机本身而言仅仅表示0和1。人们按照不同的编码规则赋予二进制数不同的含义。整数的编码规则分为有符号整数和无符号整数。 ■数据的存储规则:x86计算机以字节为单位&…...
RT-Thread: 串口操作、增加串口、串口函数
说明:本文记录RT-Thread添加串口的步骤和串口的使用。 1.新增串口 官方链接:https://www.rt-thread.org/document/site/rtthread-studio/drivers/uart/v4.0.2/rtthread-studio-uart-v4.0.2/ 新增串口只需要在 board.h 文件中定义相关串口的宏定…...
自然语言处理的新突破:如何推动语音助手和机器翻译的进步
一、语音助手方面的进展 语音助手作为人机交互的重要入口之一,其性能的提升离不开自然语言处理技术的进步。基于深度学习的语音识别和语义理解技术,使得语音助手可以更准确地分析用户意图,提供个性化服务。 语音识别精度的持续提高 语音识别是语音助手的基础。随着深度神经网…...
vue3 + jeecgBoot 获取项目IP地址
封装的useGlobSetting 函数 引入并使用 import { useGlobSetting } from //hooks/setting;const glob useGlobSetting();console.log(glob.uploadUrl) //http://192.168.105.57:7900/bs-axfd...
Java Server-Sent Events通信
Server-Sent Events特点与优势 后端可以向前端发送信息,类似于websocket,但是websocket是双向通信,但是sse为单向通信,服务器只能向客户端发送文本信息,效率比websocket高。 单向通信:SSE只支持服务器到客…...
[蓝桥杯]真题讲解:冶炼金属(暴力+二分)
蓝桥杯真题视频讲解:冶炼金属(暴力做法与二分做法) 一、视频讲解二、暴力代码三、正解代码 一、视频讲解 视频讲解 二、暴力代码 //暴力代码 #include<bits/stdc.h> #define endl \n #define deb(x) cout << #x << &qu…...
Fastbee开源物联网项目RoadMap
架构优化 代码简化业务&协议解耦关键组件支持横向拓展网络协议支持横向拓展,包括:mqtt broker,tcp,coap,udp,sip等协议插件化编码脚本化业务代码模版化消息总线 功能优化 网关/子网关:上线,绑定,拓扑࿰…...
Linux文件管理技术实践
shell shell的种类(了解) shell是用于和Linux内核进行交互的一个程序,他的功能和window系统下的cmd是一样的。而且shell的种类也有很多常见的有c shell、bash shell、Korn shell等等。而本文就是使用Linux最常见的bash shell对Linux常见指令展开探讨。 内置shell…...
Python如何按指定列的空值删除行?
目录 1、按指定列的空值删除行2、滑动窗口按指定列的值填充最前面的缺失值 1、按指定列的空值删除行 数据准备: df pd.DataFrame({C1: [1, 2, 3, 4], C2: [A, np.NaN, C, D], C3: [V1, V2, V3, np.NaN]}) print(df.to_string()) C1 C2 C3 0 1 A V1 1 …...
【云原生】Docker的镜像创建
目录 1.基于现有镜像创建 (1)首先启动一个镜像,在容器里做修改 编辑(2)然后将修改后的容器提交为新的镜像,需要使用该容器的 ID 号创建新镜像 实验 2.基于本地模板创建 3&am…...
大语言模型推理提速:TensorRT-LLM 高性能推理实践
作者:顾静 TensorRT-LLM 如何提升 LLM 模型推理效率 大型语言模型(Large language models,LLM)是基于大量数据进行预训练的超大型深度学习模型。底层转换器是一组神经网络,这些神经网络由具有 self-attention 的编码器和解码器组…...
全面理解“张量”概念
1. 多重视角看“张量” 张量(Tensor)是一个多维数组的概念,在不同的学科领域中有不同的应用和解释: 物理学中的张量: 在物理学中,张量是一个几何对象,用来表示在不同坐标系下变换具有特定规律的…...
MacOS X 安装免费的 LaTex 环境
最近把工作终端一步步迁移到Mac上来了,搭了个 Latex的环境,跟windows上一样好用。 首先,如果是 intel 芯片的 macOS,那么可以使用组合1, 如果是 M1、M2 或 M3 芯片或者 intel 芯片的 Mac book,则应该使用…...
深入Amazon S3:实战指南
Amazon S3(Simple Storage Service)是AWS(Amazon Web Services)提供的一项强大的云存储服务,广泛用于存储和检索各种类型的数据。本篇实战指南将深入介绍如何在实际项目中充分利用Amazon S3的功能,包括存储桶的创建、对象的管理、权限控制、版本控制、日志记录等方面的实…...
Ansible自动化运维(三)Playbook 模式详解
👨🎓博主简介 🏅云计算领域优质创作者 🏅华为云开发者社区专家博主 🏅阿里云开发者社区专家博主 💊交流社区:运维交流社区 欢迎大家的加入! 🐋 希望大家多多支…...
有什么做网站优化公司/无锡网站制作优化
Spark编程入门 Scala编程 (一) 第一个scala程序 Scala编程 (二) 基本语法 Scala编程 (三)面向对象编程基础 Scala编程 (四)函数式编程基础 Spark编程(一) RDD编程...
亳州市网站建设客服电话/seo关键词优化技术
哨兵模式哨兵哨兵简介主机“宕机”哨兵哨兵的作用启用哨兵模式配置哨兵哨兵工作原理主从切换阶段一:监控阶段阶段二:通知阶段阶段三:故障转移阶段主从切换总结集群集群简介现状问题集群架构集群作用Redis集群结构设计数据存储设计集群内部通讯…...
重庆设计网站/汕头网站建设开发
最近看到一道有点意思的逻辑算法题,便着手实现一下。题目是要求打印 出N*N顺时针螺旋数组,规律如下:// 1 2 3 4 5//www.cppcns.com 16 17 18 19 6// 15 24 25 20 7// 14 23 22 21 8// 13 12 11 10 9java 实现示例代码如下:import …...
3g网站app/建立一个国外的网站
由于现在家用电脑所使用的操作系统多数为WinXP 和Win2000 pro(建议还在使用98的朋友换换系统,连微软都放弃了的系统你还用它干嘛?)所以后面我将主要讲一下基于这两个操作系统的安全防范。 个人电脑常见的被***方式 谈到个人上网…...
网站开发要会英语吗/上海网站排名优化怎么做
1.集成jsp 由于springboot默认视图层是Thymeleaf,所以需要导一些支持jsp的jar2.导jar,让内嵌tomcat支持jsp页面 <!--tomcat-embed-jasper 为内嵌的tomcat提供解析jsp的功能--> <dependency><groupId>org.apache.tomcat.embed</groupId><…...
五月天网站果汁娘素怎么做/百度官方网站入口
定义:Defined an interface for creating an object,but let subclasses decide which class to instantiate.Factory Method let a class defer instantiation to subclass(定义一个创建对象的接口,让子类类型来决定实例化对象。工厂方法能够使类的实例…...