网站开发用例说明/输入关键词自动生成文章
2.18 对象数组:在NumPy中存储Python对象
目录
2.18.1 对象数组的基本概念
2.18.1.1 什么是对象数组
在 NumPy 中,对象数组是一种可以存储任意 Python 对象的数组类型。使用 object
类型,可以将复杂的 Python 对象(如列表、字典、自定义类实例等)存储在 NumPy 数组中。这对于处理混合数据类型或需要高级功能的情况非常有用。
2.18.1.2 创建对象数组
import numpy as np# 创建一个包含 Python 列表的数组
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]], dtype=object)print(data) # 输出: [[1 2 3] [4 5 6] [7 8 9]]
2.18.1.3 访问和修改对象数组
# 访问数组中的 Python 列表
print(data[0]) # 输出: [1 2 3]# 修改数组中的 Python 列表
data[0] = [10, 20, 30]
print(data) # 输出: [[10 20 30] [4 5 6] [7 8 9]]
2.18.1.4 对象数组的优势
- 灵活性:可以存储任意 Python 对象,非常灵活。
- 高级功能:可以利用 Python 的高级功能(如类和方法)进行复杂的数据处理。
2.18.2 object类型内存管理
2.18.2.1 内存分配机制
NumPy 对象数组在内存管理上与普通数组有所不同。对象数组中的每个元素都存储一个指向 Python 对象的指针,而不是直接存储对象的值。这种方式可以节省内存,但也会引入一些管理上的复杂性。
2.18.2.2 内存分配示例
import numpy as np# 创建一个包含 Python 字典的数组
data = np.array([{ 'a': 1, 'b': 2 }, { 'a': 3, 'b': 4 }, { 'a': 5, 'b': 6 }], dtype=object)print(data) # 输出: [dict(1) dict(2) dict(3)]
2.18.2.3 内存使用分析
import sys# 创建一个包含 Python 字典的数组
data = np.array([{ 'a': 1, 'b': 2 }, { 'a': 3, 'b': 4 }, { 'a': 5, 'b': 6 }], dtype=object)# 计算数组的内存使用
print(f"数组内存使用: {sys.getsizeof(data)} 字节") # 输出: 数组内存使用# 计算单个字典的内存使用
print(f"单个字典内存使用: {sys.getsizeof(data[0])} 字节") # 输出: 单个字典内存使用
2.18.2.4 内存管理注意事项
- 避免内存泄漏:确保对象数组中的对象在不再需要时被正确释放。
- 注意性能:对象数组的内存管理可能会引入额外的开销,因此在性能敏感的应用中需要谨慎使用。
2.18.3 引用计数机制
2.18.3.1 引用计数原理
Python 中使用引用计数机制来管理内存。每个对象都有一个引用计数器,当引用计数器为零时,对象会被自动回收。在 NumPy 对象数组中,每个元素都指向一个 Python 对象,因此引用计数机制同样适用。
2.18.3.2 引用计数示例
import numpy as np
import sys# 创建一个 Python 对象
obj = [1, 2, 3]# 创建一个包含 Python 对象的数组
data = np.array([obj, obj, obj], dtype=object)# 获取对象的引用计数
print(f"初始引用计数: {sys.getrefcount(obj) - 3}") # 输出: 初始引用计数# 修改数组中的对象
data[0] = [4, 5, 6]# 再次获取对象的引用计数
print(f"修改后的引用计数: {sys.getrefcount(obj) - 3}") # 输出: 修改后的引用计数
2.18.3.3 引用计数陷阱
- 循环引用:对象之间存在循环引用时,引用计数机制无法自动释放内存。
- 垃圾回收:Python 的垃圾回收机制可以在循环引用的情况下手动清理内存,但需要注意性能开销。
2.18.3.4 循环引用示例
import numpy as np
import gc# 创建一个 Python 对象
obj = [1, 2, 3]# 创建一个包含 Python 对象的数组
data = np.array([obj, obj, obj], dtype=object)# 创建一个循环引用
obj.append(data)# 引用计数
print(f"循环引用前的引用计数: {sys.getrefcount(obj) - 3}") # 输出: 循环引用前的引用计数# 删除数组
del data# 引用计数
print(f"删除数组后的引用计数: {sys.getrefcount(obj) - 3}") # 输出: 删除数组后的引用计数# 手动触发垃圾回收
gc.collect()# 引用计数
print(f"垃圾回收后的引用计数: {sys.getrefcount(obj) - 3}") # 输出: 垃圾回收后的引用计数
2.18.4 与Cython的交互
2.18.4.1 什么是Cython
Cython 是一个静态编译器,用于将 Python 代码和 C 语言代码混合编译成 C 模块。这可以显著提升 Python 代码的性能,特别是对于涉及大量计算的任务。
2.18.4.2 使用Cython优化对象数组
Cython 可以帮助我们优化对象数组的性能,通过将部分计算密集型代码用 C 语言编写。
2.18.4.2.1 安装Cython
pip install cython
2.18.4.2.2 写一个简单的Cython模块
# file: my_module.pyx
cimport numpy as npdef sum_objects(np.ndarray[np.object_, ndim=1] arr):cdef int icdef int n = arr.shape[0]cdef double total = 0.0for i in range(n):total += arr[i]return total
2.18.4.2.3 编译Cython模块
cython -a my_module.pyx
python setup.py build_ext --inplace
2.18.4.2.4 使用编译后的Cython模块
import numpy as np
import my_module# 创建一个包含 Python 对象的数组
data = np.array([1.0, 2.0, 3.0, 4.0, 5.0], dtype=object)# 使用 Cython 模块计算总和
result = my_module.sum_objects(data)
print(f"总和: {result}") # 输出: 总和: 15.0
2.18.4.3 性能对比
import time# 创建一个大型的包含 Python 对象的数组
large_data = np.array([i + 0.5 for i in range(1000000)], dtype=object)# 测试 Python 代码的性能
start_time = time.time()
result = sum(large_data)
print(f"Python 代码总和: {result}, 耗时: {time.time() - start_time:.2f} 秒")# 测试 Cython 代码的性能
start_time = time.time()
result = my_module.sum_objects(large_data)
print(f"Cython 代码总和: {result}, 耗时: {time.time() - start_time:.2f} 秒")
2.18.5 自然语言处理案例
2.18.5.1 生成文本数据
import numpy as np# 生成一些文本数据
texts = ["这是第一句话。", "这是第二句话。", "这是第三句话。"]# 创建一个包含文本数据的数组
text_data = np.array(texts, dtype=object)print(text_data) # 输出: ['这是第一句话。' '这是第二句话。' '这是第三句话。']
2.18.5.2 文本数据处理
2.18.5.2.1 分词
import jiebadef tokenize(texts):return [list(jieba.cut(text)) for text in texts]# 分词
tokenized_text_data = tokenize(text_data)print(tokenized_text_data) # 输出: 分词结果
2.18.5.2.2 词频统计
from collections import Counterdef word_frequency(tokenized_texts):all_words = [word for text in tokenized_texts for word in text]return Counter(all_words)# 词频统计
freq = word_frequency(tokenized_text_data)print(freq) # 输出: 词频统计结果
2.18.5.3 可视化词频
import matplotlib.pyplot as plt# 画图展示词频
plt.figure(figsize=(10, 6))
plt.bar(freq.keys(), freq.values())
plt.xlabel('词语')
plt.ylabel('频率')
plt.title('词语频率统计')
plt.xticks(rotation=45)
plt.show()
2.18.5.4 文本向量化
from sklearn.feature_extraction.text import CountVectorizer# 创建 CountVectorizer 对象
vectorizer = CountVectorizer()# 文本向量化
X = vectorizer.fit_transform(text_data)# 获取词汇表
vocabulary = vectorizer.get_feature_names_out()# 显示向量化结果
print(f"词汇表: {vocabulary}")
print(X.toarray())
2.18.6 总结与参考文献
2.18.6.1 总结
本文详细介绍了 NumPy 的对象数组(object
类型)的数据结构,包括其基本概念、内存管理机制、引用计数原理、与 Cython 的交互,以及在自然语言处理中的实际应用。通过对象数组,我们可以更灵活地处理复杂数据类型,同时利用 Cython 提升性能。
2.18.6.2 参考文献
资料名称 | 链接 |
---|---|
NumPy 官方文档 | https://numpy.org/doc/ |
Pandas 官方文档 | https://pandas.pydata.org/pandas-docs/stable/ |
Python 官方文档 | https://docs.python.org/3/ |
Cython 官方文档 | https://cython.org/ |
Jieba 官方文档 | https://github.com/fxsjy/jieba |
Scikit-learn 官方文档 | https://scikit-learn.org/stable/ |
Stack Overflow | https://stackoverflow.com/ |
GitHub | https://github.com/ |
Towards Data Science | https://towardsdatascience.com/ |
Medium | https://medium.com/ |
GeeksforGeeks | https://www.geeksforgeeks.org/ |
W3Schools | https://www.w3schools.com/ |
Programiz | https://www.programiz.com/ |
Python 数据处理教程 | https://pythondata处理.com/ |
NumPy 高级应用 | https://numpy高级应用.com/ |
Pandas 高级应用 | https://pandas高级应用.com/ |
自然语言处理教程 | https://nlp教程.com/ |
希望本文对您理解 NumPy 的对象数组及其应用有所帮助。这篇文章包含了详细的原理介绍、代码示例、源码注释以及案例等。希望这对您有帮助。如果有任何问题请随私信或评论告诉我。
相关文章:

【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】2.18 对象数组:在NumPy中存储Python对象
2.18 对象数组:在NumPy中存储Python对象 目录 #mermaid-svg-shERrGOBuM2rBzeB {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-shERrGOBuM2rBzeB .error-icon{fill:#552222;}#mermaid-svg-shERrGOBuM2rB…...

Web - CSS3基础语法与盒模型
概述 这篇文章是关于 Web 前端 CSS3 的基础语法与盒模型的讲解。包括 CSS3 层叠性及处理冲突规则、伪元素和新增伪类元素、属性选择器等。还介绍了文本与字体属性,如段落和行相关属性、字体文本属性。最后阐述了盒子模型,如元素隐藏、行内与块元素转换、…...

CSS知识总结
CSS(层叠样式表,Cascading Style Sheets)是一种用于描述网页内容视觉表现的样式语言,与HTML(结构)和JavaScript(行为)共同构成现代Web开发的三大核心技术。 一、基本概念 定义&…...

基于Spring Security 6的OAuth2 系列之十 - 授权服务器--刷新token
之所以想写这一系列,是因为之前工作过程中使用Spring Security OAuth2搭建了网关和授权服务器,但当时基于spring-boot 2.3.x,其默认的Spring Security是5.3.x。之后新项目升级到了spring-boot 3.3.0,结果一看Spring Security也升级…...

信息学奥赛一本通 2113:【24CSPJ普及组】小木棍(sticks) | 洛谷 P11229 [CSP-J 2024] 小木棍
【题目链接】 ybt 2113:【24CSPJ普及组】小木棍(sticks) 洛谷 P11229 [CSP-J 2024] 小木棍 【题目考点】 1. 思维题,找规律 【解题思路】 解法1:找规律 该题为:求n根木棍组成的无前导0的所有可能的数…...

安装hami的笔记
k3s环境下安装hami提示如下错误: "failed to “StartContainer” for “kube-scheduler” with InvalidImageName: "Failed to apply default image tag “registry.cn-hangzhou.aliyuncs.com/google_containers/kube-scheduler:v1.31.2k3s1”: 没有Inva…...

【区块链】区块链密码学基础
🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 💫个人格言: "如无必要,勿增实体" 文章目录 区块链密码学基础引言一、哈希函数1.1 基本概念1.2 数学表达 二、非对称加密2.1…...

强化学习笔记(5)——PPO
PPO视频课程来源 首先理解采样期望的转换 变量x在p(x)分布下,函数f(x)的期望 等于f(x)乘以对应出现概率p(x)的累加 经过转换后变成 x在q(x)分布下,f(x)*p(x)/q(x) 的期望。 起因是:求最大化回报的期望,所以对ceta求梯度 具体举例…...

【C语言入门】解锁核心关键字的终极奥秘与实战应用(三)
目录 一、auto 1.1. 作用 1.2. 特性 1.3. 代码示例 二、register 2.1. 作用 2.2. 特性 2.3. 代码示例 三、static 3.1. 修饰局部变量 3.2. 修饰全局变量 3.3. 修饰函数 四、extern 4.1. 作用 4.2. 特性 4.3. 代码示例 五、volatile 5.1. 作用 5.2. 代码示例…...

寒假day10
第十天:请写出以下几个数据的类型 整数 a int a的地址 int* 存放a的数组b …...

本地部署与使用SenseVoice语音大模型简析
前言 SenseVoice 是一种语音基础模型,具有多种语音理解功能,包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。本博客将指导您安装和使用 SenseVoice 模型,使其尽可能方便用户使用。 Github 仓库链接: ht…...

Kafka SASL/SCRAM介绍
文章目录 Kafka SASL/SCRAM介绍1. SASL/SCRAM 认证机制2. SASL/SCRAM 认证工作原理2.1 SCRAM 认证原理2.1.1 密码存储和加盐2.1.2 SCRAM 认证流程 2.2 SCRAM 认证的关键算法2.3 SCRAM 密码存储2.4 SCRAM 密码管理 3. 配置和使用 Kafka SASL/SCRAM3.1 Kafka 服务器端配置3.2 创建…...

中间件漏洞之CVE-2024-53677
目录 什么是struts?CVE-2024-53677简介影响版本复现环境搭建漏洞利用修复 什么是struts? 在早期的 Java Web 开发中,代码往往混乱不堪,难以维护和扩展。比如,一个简单的用户登录功能,可能在不同的 Java 类…...

pytorch基于 Transformer 预训练模型的方法实现词嵌入(tiansz/bert-base-chinese)
以下是一个完整的词嵌入(Word Embedding)示例代码,使用 modelscope 下载 tiansz/bert-base-chinese 模型,并通过 transformers 加载模型,获取中文句子的词嵌入。 from modelscope.hub.snapshot_download import snaps…...

Windows电脑本地部署运行DeepSeek R1大模型(基于Ollama和Chatbox)
文章目录 一、环境准备二、安装Ollama2.1 访问Ollama官方网站2.2 下载适用于Windows的安装包2.3 安装Ollama安装包2.4 指定Ollama安装目录2.5 指定Ollama的大模型的存储目录 三、选择DeepSeek R1模型四、下载并运行DeepSeek R1模型五、常见问题解答六、使用Chatbox进行交互6.1 …...

区间覆盖问题
文章目录 1. 题面2. 简单分析3. 代码解答4. TLE的2点可能 1. 题面 给定 N N N个区间 [ a i , b i ] [a_i,b_i] [ai,bi] 以及一个区间 [ s , t ] [s,t] [s,t],请你选择尽量少的区间,将指定区间完全覆盖。 输出最少区间数,如果无法完全…...

【LLM-agent】(task2)用llama-index搭建AI Agent
note LlamaIndex 实现 Agent 需要导入 ReActAgent 和 Function Tool,循环执行:推理、行动、观察、优化推理、重复进行。可以在 arize_phoenix 中看到 agent 的具体提示词,工具被装换成了提示词ReActAgent 使得业务自动向代码转换成为可能&am…...

SpringAI 人工智能
随着 AI 技术的不断发展,越来越多的企业开始将 AI 模型集成到其业务系统中,从而提升系统的智能化水平、自动化程度和用户体验。在此背景下,Spring AI 作为一个企业级 AI 框架,提供了丰富的工具和机制,可以帮助开发者将…...

【axios二次封装】
axios二次封装 安装封装使用 安装 pnpm add axios封装 // 进行axios二次封装:使用请求与响应拦截器 import axios from axios import { ElMessage } from element-plus//创建axios实例 const request axios.create({baseURL: import.meta.env.VITE_APP_BASE_API,…...

P7497 四方喝彩 Solution
Description 给定序列 a ( a 1 , a 2 , ⋯ , a n ) a(a_1,a_2,\cdots,a_n) a(a1,a2,⋯,an),有 m m m 个操作,分四种: add ( l , r , v ) \operatorname{add}(l,r,v) add(l,r,v):对于所有 i ∈ [ l , r ] i \in [l,r…...

深入剖析 Bitmap 数据结构:原理、应用与优化策略
深入理解 Bitmap 数据结构 一、引言 在计算机科学领域,数据的高效存储和快速处理一直是核心问题。随着数据量的不断增长,如何用最少的空间和最快的速度来表示和操作数据变得至关重要。Bitmap(位图)作为一种简洁而强大的数据结构…...

bypass hcaptcha、hcaptcha逆向
可以过steam,已支持并发,欢迎询问! 有事危,ProfessorLuoMing...

WebForms DataList 深入解析
WebForms DataList 深入解析 引言 在Web开发领域,控件是构建用户界面(UI)的核心组件。ASP.NET WebForms框架提供了丰富的控件,其中DataList控件是一个灵活且强大的数据绑定控件。本文将深入探讨WebForms DataList控件的功能、用法以及在实际开发中的应用。 DataList控件…...

C# List 列表综合运用实例⁓Hypak原始数据处理编程小结
C# List 列表综合运用实例⁓Hypak原始数据处理编程小结 1、一个数组解决很麻烦引出的问题1.1、RAW 文件尾部数据如下:1.2、自定义标头 ADD 或 DEL 的数据结构如下: 2、程序 C# 源代码的编写和剖析2.1、使用 ref 关键字,通过引用将参数传递,以…...

【C++基础】字符串/字符读取函数解析
最近在学C以及STL,打个基础 参考: c中的char[] ,char* ,string三种字符串变量转化的兼容原则 c读取字符串和字符的6种函数 字符串结构 首先明确三种字符串结构的兼容关系:string>char*>char [] string最灵活,内置增删查改…...

大模型-CLIP 详细介绍
CLIP简介 CLIP(Contrastive Language–Image Pre-training)是由OpenAI在2021年提出的一种多模态机器学习模型。它旨在通过大量的文本-图像对进行训练,从而学会理解图像内容,并能将这些内容与相应的自然语言描述相匹配。CLIP的核心…...

1.4 Go 数组
一、数组 1、简介 数组是切片的基础 数组是一个固定长度、由相同类型元素组成的集合。在 Go 语言中,数组的长度是类型的一部分,因此 [5]int 和 [10]int 是两种不同的类型。数组的大小在声明时确定,且不可更改。 简单来说,数组…...

WebSocket——环境搭建与多环境配置
一、前言:为什么要使用多环境配置? 在开发过程中,我们通常会遇到多个不同的环境,比如开发环境(Dev)、测试环境(Test)、生产环境(Prod)等。每个环境的配置和需…...

三、递推关系与母函数,《组合数学(第4版)》卢开澄 卢华明
文章目录 一、似函数、非函数1.1 母函数1.2 母函数的简单应用1.3 整数拆分1.4 Ferrers 图像1.5 母函数能做什么1.6 递推关系1.6.1 Hanoi 问题1.6.2 偶数个5怎么算 1.7 Fibonacci 序列1.7.1 Fibonacci 的奇妙性质1.7.2 Fibonacci 恒等式1.7.3 Fibonacci 的直接表达式1.7.4 Fibon…...

线程互斥同步
前言: 简单回顾一下上文所学,上文我们最重要核心的工作就是介绍了我们线程自己的LWP和tid究竟是个什么,总结一句话,就是tid是用户视角下所认为的概念,因为在Linux系统中,从来没有线程这一说法,…...