当前位置：首页 > news >正文

用Python分析《三国演义》中的人物关系网

news 2026/2/8 13:58:02

用Python分析《三国演义》中的人物关系网

三国演义
获取文本
文本预处理
分词与词频统计
引入停用词后进行词频统计
构建人物关系网
完整代码

三国演义

《三国演义》是中国古代四大名著之一，它以东汉末年到晋朝统一之间的历史为背景，讲述了魏、蜀、吴三国之间的纷争与英雄们的传奇故事。今天，我们将通过Python，初步探索《三国演义》的文本处理，感受这部古典名著的魅力。

获取文本

我们需要从本地读取《三国演义》的文本文件。

# 读取本地《三国演义》文本文件
with open('三国演义.txt', 'r', encoding='utf-8') as file:sanguo_text = file.read()

输出看一下读取的文件内容：

print(sanguo_text[:30])

输出如下：
在这里插入图片描述

文本预处理

对文本进行分词前，先去除标点符号，使用正则库re来进行。

import re# 去除标点符号和特殊字符
sanguo_text = re.sub(r'[^\w\s]', '', sanguo_text)
sanguo_text = re.sub(r'\n', '', sanguo_text)

分词与词频统计

使用jieba库进行中文分词，并进行词频统计，输出频率最高的10个词。

import jieba
from collections import Counter
# 使用jieba进行分词
words = jieba.lcut(sanguo_text)
# 统计词频
word_counts = Counter(words)# 输出出现频率最高的10个词
print(word_counts.most_common(10))

当前输出如下：

[('曰', 7669), ('之', 2797), ('也', 2232), ('吾', 1815), ('与', 1722), ('将', 1643), ('而', 1600), ('了', 1397), ('有', 1386), ('在', 1286)]

可以看到，现在大多数是一些语气助词。这里我们要引入停用词。

引入停用词后进行词频统计

在文本处理中，停用词是指那些在文本分析中没有实际意义的词汇，如“的”、“了”、“在”等。在进行词频统计时，我们通常会去除这些停用词，以便更准确地分析有意义的词汇。

import jieba
from collections import Counter
# 使用jieba进行分词
words = jieba.lcut(sanguo_text)# 读取停用词列表
with open('常用停用词.txt', 'r', encoding='utf-8') as file:stopwords = set(file.read().split())# 去除停用词
filtered_words = [word for word in words if word not in stopwords]# 统计词频
word_counts = Counter(filtered_words)
# 输出出现频率最高的10个词
print(word_counts.most_common(10))

当前输出：

[('曹操', 938), ('孔明', 809), ('玄德', 494), ('丞相', 489), ('关公', 478), ('荆州', 412), ('玄德曰', 385), ('孔明曰', 382), ('张飞', 349), ('商议', 343)]

我使用的停用词文件：
在这里插入图片描述
实际上可以根据自己的需求进行调整。

构建人物关系网

注意：三国中人物可能有多个称呼，比如说刘备也可以用玄德称呼

# 三国演义主要人物及其别名列表（扩展版）
characters = {"刘备": ["刘备", "玄德", "皇叔"],"关羽": ["关羽", "云长"],"张飞": ["张飞", "翼德"],"曹操": ["曹操", "孟德", "丞相", "曹孟德"],"孙权": ["孙权", "仲谋"],"诸葛亮": ["诸葛亮", "孔明", "卧龙"],"周瑜": ["周瑜", "公瑾"],"吕布": ["吕布", "奉先"],"貂蝉": ["貂蝉"],"赵云": ["赵云", "子龙"],"黄忠": ["黄忠", "汉升"],"马超": ["马超", "孟起"],"许褚": ["许褚", "仲康"],"典韦": ["典韦"],"司马懿": ["司马懿", "仲达"],"郭嘉": ["郭嘉", "奉孝"],"袁绍": ["袁绍", "本初"],"袁术": ["袁术", "公路"],"孙策": ["孙策", "伯符"],"甘宁": ["甘宁", "兴霸"],"鲁肃": ["鲁肃", "子敬"],"庞统": ["庞统", "凤雏"],"姜维": ["姜维", "伯约"]
}# 创建一个人物关系计数字典
relation_counts = defaultdict(int)# 遍历文本，统计人物间的关系
for i in range(len(filtered_words) - 1):for name1, aliases1 in characters.items():if filtered_words[i] in aliases1:for name2, aliases2 in characters.items():if filtered_words[i + 1] in aliases2 and name1 != name2:relation_counts[(name1, name2)] += 1# 创建网络图
G = nx.Graph()# 添加节点
for character in characters.keys():G.add_node(character)# 添加边及权重
for (name1, name2), count in relation_counts.items():G.add_edge(name1, name2, weight=count)# 绘制关系图
plt.figure(figsize=(14, 10))
pos = nx.spring_layout(G, k=1)
edges = G.edges(data=True)
weights = [edge[2]['weight'] for edge in edges]# 绘制节点和边
nx.draw(G, pos, with_labels=True, node_size=2000, node_color='skyblue', font_size=10, font_weight='bold', width=weights)# 在图中显示边的权重
edge_labels = nx.get_edge_attributes(G, 'weight')
nx.draw_networkx_edge_labels(G, pos, edge_labels=edge_labels)plt.title('《三国演义》人物关系网（扩展版）')
plt.show()

在这里插入图片描述

完整代码

import re
import jieba
from collections import Counter, defaultdict
import networkx as nx
import matplotlib.pyplot as plt
from pylab import mpl# 设置中文字体，确保图表中能显示中文
mpl.rcParams['font.sans-serif'] = ['SimHei']# 读取本地《三国演义》文本文件
with open('三国演义.txt', 'r', encoding='utf-8') as file:sanguo_text = file.read()# 去除标点符号和换行符
sanguo_text = re.sub(r'[^\w\s]', '', sanguo_text)
sanguo_text = re.sub(r'\n', '', sanguo_text)# 使用jieba进行分词
words = jieba.lcut(sanguo_text)# 读取停用词列表
with open('常用停用词.txt', 'r', encoding='utf-8') as file:stopwords = set(file.read().split())# 去除停用词
filtered_words = [word for word in words if word not in stopwords]# 三国演义主要人物及其别名列表（扩展版）
characters = {"刘备": ["刘备", "玄德", "皇叔"],"关羽": ["关羽", "云长"],"张飞": ["张飞", "翼德"],"曹操": ["曹操", "孟德", "丞相", "曹孟德"],"孙权": ["孙权", "仲谋"],"诸葛亮": ["诸葛亮", "孔明", "卧龙"],"周瑜": ["周瑜", "公瑾"],"吕布": ["吕布", "奉先"],"貂蝉": ["貂蝉"],"赵云": ["赵云", "子龙"],"黄忠": ["黄忠", "汉升"],"马超": ["马超", "孟起"],"许褚": ["许褚", "仲康"],"典韦": ["典韦"],"司马懿": ["司马懿", "仲达"],"郭嘉": ["郭嘉", "奉孝"],"袁绍": ["袁绍", "本初"],"袁术": ["袁术", "公路"],"孙策": ["孙策", "伯符"],"甘宁": ["甘宁", "兴霸"],"鲁肃": ["鲁肃", "子敬"],"庞统": ["庞统", "凤雏"],"姜维": ["姜维", "伯约"]
}# 创建一个人物关系计数字典
relation_counts = defaultdict(int)# 遍历文本，统计人物间的关系
for i in range(len(filtered_words) - 1):for name1, aliases1 in characters.items():if filtered_words[i] in aliases1:for name2, aliases2 in characters.items():if filtered_words[i + 1] in aliases2 and name1 != name2:relation_counts[(name1, name2)] += 1# 创建网络图
G = nx.Graph()# 添加节点
for character in characters.keys():G.add_node(character)# 添加边及权重
for (name1, name2), count in relation_counts.items():G.add_edge(name1, name2, weight=count)# 绘制关系图
plt.figure(figsize=(14, 10))
pos = nx.spring_layout(G, k=1)
edges = G.edges(data=True)
weights = [edge[2]['weight'] for edge in edges]# 绘制节点和边
nx.draw(G, pos, with_labels=True, node_size=2000, node_color='skyblue', font_size=10, font_weight='bold', width=weights)# 在图中显示边的权重
edge_labels = nx.get_edge_attributes(G, 'weight')
nx.draw_networkx_edge_labels(G, pos, edge_labels=edge_labels)plt.title('《三国演义》人物关系网（扩展版）')
plt.show()

用Python分析《三国演义》中的人物关系网

用Python分析《三国演义》中的人物关系网三国演义获取文本文本预处理分词与词频统计引入停用词后进行词频统计构建人物关系网完整代码三国演义《三国演义》是中国古代四大名著之一，它以东汉末年到晋朝统一之间的历史为背景，讲述了魏、蜀、吴三国之间…...

编程日记 2024/6/17 13:35:33

k8s上使用ConfigMap 和 Secret

使用ConfigMap 和 Secret 实验目标： 学习如何使用 ConfigMap 和 Secret 来管理应用的配置。实验步骤： 创建一个 ConfigMap 存储应用配置。创建一个 Secret 存储敏感信息（如数据库密码）。在 Pod 中挂载 ConfigMap 和 Secret&am…...

编程日记 2024/6/17 13:33:32

hexo实战：（二）个人独立博客优化合集

前言上次介绍了使用 HexoGitHub Pages，零成本搭建一个专属自己的独立博客网站。我觉得那篇文章是没有入门门槛的，不管你是什么行业，只要想打造个人 IP，又不太想受博客平台约束，那么读完后动手操作一下也能轻松完成。…...

编程日记 2024/6/17 13:30:30

PostgreSQL的pg_relation_filepath函数

PostgreSQL的pg_relation_filepath函数基础信息 OS版本：Red Hat Enterprise Linux Server release 7.9 (Maipo) DB版本：16.2 pg软件目录：/home/pg16/soft pg数据目录：/home/pg16/data 端口：5777在 PostgreSQL 中&…...

编程日记 2024/6/17 13:29:29

Vue开发中Element UI/Plus使用指南：常见问题（如Missing required prop: “value“）及中文全局组件配置解决方案

文章目录一、vue中使用el-table的typeindex有时不显示序号Table 表格显示索引自定义索引报错信息解决方案二、vue中Missing required prop: “value” 报错报错原因解决方案三、el-table的索引值index在翻页的时候可以连续显示方法一方法二四、vue3中Element Plus全局组件配…...

编程日记 2024/6/17 13:28:27

安装golang

官网:All releases - The Go Programming Language (google.cn) 下载对应的版本安装即可...

编程日记 2024/6/17 13:26:24

Kubernetes面试整理-Kubernetes的主要组件有哪些？

Kubernetes 的主要组件分为控制平面组件和节点组件。以下是每个组件的详细介绍：控制平面组件 1. API 服务器（kube-apiserver）： ● 是 Kubernetes 控制平面的前端，接收、验证并处理所有的 API 请求。 ● 提供集群的管理接口，所有的集群操作都是通过 API 服务器进行的。...

编程日记 2024/6/17 13:25:23

力扣hot100： 48. 旋转图像

LeetCode：48. 旋转图像受到力扣hot100：54. 螺旋矩阵的启发，我们可以对旋转图像按层旋转，我们只需要记录四个顶点，并且本题是一个方阵，四个顶点就能完成图像的旋转操作。 1、逐层旋转注意到&#xff0…...

编程日记 2024/6/17 13:23:19

基于FPGA的VGA协议实现

目录一、VGA简介二、VGA引脚的定义三、VGA显示原理： 四、VESA标准下的VGA时序： 五、VGA显示模式以及相关参数： 六、数字信号与模拟信号的转换实战演练一：VGA显示彩条 1、实验目标 2、各模块框图及其波形图 3、模块代…...

编程日记 2024/6/17 13:21:17

Java线程池的抛弃策略

Java线程池的抛弃策略 Java线程池是Java并发编程中非常重要的一个组件。它通过重用已创建的线程来减少线程创建和销毁的开销，从而提高应用程序的性能和响应速度。然而，当线程池中的任务数量超过其处理能力时，就需要一种机制来处理新提交的任…...

编程日记 2024/6/17 13:19:15

【python】Sklearn—Cluster

参考学习来自 10种聚类算法的完整python操作示例文章目录聚类数据集亲和力传播——AffinityPropagation聚合聚类——AgglomerationClusteringBIRCH——Birch（✔）DBSCAN——DBSCANK均值——KMeansMini-Batch K-均值——MiniBatchKMeans均值漂移聚类——…...

编程日记 2024/6/17 13:18:14

测试开发面经分享，面试七天速成 DAY 1

1. get、post、put、delete的区别 a. get请求： i. 用于从服务器获取资源。请求参数附加在URL的查询字符串中。 ii. 对服务器的请求是幂等的，即多次相同的GET请求应该返回相同的结果。 iii. 可以被缓存，可以被收藏为书签。 iv. 对于敏感数据不…...

编程日记 2024/6/17 13:15:11

C++ Primer Plus第五版笔记（p201-250）

第六章函数（下） 在含有return语句的循环后面应该也有一条return语句不要返回局部对象的引用或指针，当函数结束时临时对象占用的空间也就随之释放掉了，所以两条return语句都指向了不再可用的内存空间。如果函数返回指针、引用…...

编程日记 2024/6/17 13:14:09

vba学习系列(5)--指定区域指定字符串计数

系列文章目录文章目录系列文章目录前言一、需求背景二、vba自定义函数1.引入库总结前言一、需求背景想知道所有客诉项目里面什么项目最多，出现过多少次。二、vba自定义函数 1.引入库引用： CountCharInRange(区域,“字符串”) Function CountCh…...

编程日记 2024/6/17 13:10:05

将Firefox插件导入Edge/Chrome中

目录将Firefox插件导入Edge/Chrome中前言导出火狐插件.xpi格式插件导入edge/chorme中错误示范1错误示范2修改过程manifest.jsondict文件夹修改backgroundScript.jsinjectedScript.jsdebug过程最终backgroundScript.js和injectedScript.js代码完工阶段修改后的源码将Firefox插…...

编程日记 2024/6/17 13:09:03

云计算【第一阶段（14）】Linux的目录和结构

一、Liunx目录结构 1.1、linux目录结构 linux目录结构是树形目录结构根目录（树根） 所有分区，目录，文件等的位置起点整个树形目录结构中，使用独立的一个"/",表示 1.2、常见的子目录必须知道目录路径目…...

编程日记 2024/6/17 13:08:02

Zynq学习笔记--AXI4-Stream到视频输出IP是如何工作的？

目录 1. 简介 2. 原理详解 2.1 示例工程 2.2 AXI4-Stream to Video Out 3. Master/Slave Timing Mode 3.1 Slave Timing Mode 3.2 Master Timing Mode 4. 总结 1. 简介本文主要介绍了 AXI4-Stream 到视频输出的内容。其中，示例工程展示了一个具体的设计&…...

编程日记 2024/6/17 13:07:01

2016-2023 年美国农业部作物序列边界

简介 2016-2023 年美国农业部作物序列边界作物序列边界（CSB）是与美国农业部经济研究局合作开发的，它提供了美国毗连地区的田间边界、作物种植面积和作物轮作的估计数据。该数据集利用卫星图像和其他公共数据，并且是开放源码的，使用户能够对美国种植的商品进行面积和统计…...

编程日记 2024/6/17 13:05:59

数字人源码部署怎么做？如何高效搭建好用的数字人系统？

作为人工智能时代的风口项目，AI数字人自出现之日起便引发了大量的关注。不少创业者都有了搭建数字人系统的想法，但却苦于没有强大的专业背景和雄厚资金支撑，只能在局外徘徊，而这恰恰为数字人源码公司推出的数字人源码部署服务的火…...

编程日记 2024/6/17 13:04:57

解决虚拟机Ubuntu IP总是掉的问题

问题嵌入式开发过程中，需要使用NFS/TFTP等等，虚拟机Ubuntu就需要和板卡进行网络连接，但是我发现虚拟机Ubuntu的IP地址经常动不动就掉线，本文记录解决该问题的一些思路。其实这个问题很简单，我早该想到，…...

编程日记 2024/6/17 13:00:53

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向深度学习与微纳光子学的结合主要集中在以下几个方向： 逆向设计通过神经网络快速预测微纳结构的光学响应，替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。特征提取与优化从复杂的光学数据中自…...

编程新知 2026/2/7 4:19:43

Linux相关概念和易错知识点（42）（TCP的连接管理、可靠性、面临复杂网络的处理）

目录 1.TCP的连接管理机制（1）三次握手①握手过程②对握手过程的理解 （2）四次挥手（3）握手和挥手的触发（4）状态切换①挥手过程中状态的切换②握手过程中状态的切换 2.TCP的可靠性&…...

编程新知 2026/1/30 0:09:51

解锁数据库简洁之道：FastAPI与SQLModel实战指南

在构建现代Web应用程序时，与数据库的交互无疑是核心环节。虽然传统的数据库操作方式（如直接编写SQL语句与psycopg2交互）赋予了我们精细的控制权，但在面对日益复杂的业务逻辑和快速迭代的需求时，这种方式的开发效率和可…...

编程新知 2025/8/13 16:42:24

【第二十一章 SDIO接口(SDIO)】

第二十一章 SDIO接口目录第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...

编程新知 2026/2/1 13:28:03

第一篇：Agent2Agent (A2A) 协议——协作式人工智能的黎明

AI 领域的快速发展正在催生一个新时代，智能代理（agents）不再是孤立的个体，而是能够像一个数字团队一样协作。然而，当前 AI 生态系统的碎片化阻碍了这一愿景的实现，导致了“AI 巴别塔问题”——不同代理之间…...

编程新知 2026/1/31 3:30:33

Unit 1 深度强化学习简介

Deep RL Course ——Unit 1 Introduction 从理论和实践层面深入学习深度强化学习。学会使用知名的深度强化学习库，例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。在独特的环境中训练智能体，比如 SnowballFight、Huggy the Do…...

编程新知 2026/2/8 12:54:53

服务器--宝塔命令

一、宝塔面板安装命令 ⚠️ 必须使用 root 用户或 sudo 权限执行！ sudo su - 1. CentOS 系统： yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh2. Ubuntu / Debian 系统…...

编程新知 2025/10/3 10:56:48

JAVA后端开发——多租户

数据隔离是多租户系统中的核心概念，确保一个租户（在这个系统中可能是一个公司或一个独立的客户）的数据对其他租户是不可见的。在 RuoYi 框架（您当前项目所使用的基础框架）中，这通常是通过在数据表中增加一个…...

编程新知 2025/12/18 8:35:12

JVM虚拟机：内存结构、垃圾回收、性能优化

1、JVM虚拟机的简介 Java 虚拟机（Java Virtual Machine 简称：JVM）是运行所有 Java 程序的抽象计算机，是 Java 语言的运行环境，实现了 Java 程序的跨平台特性。JVM 屏蔽了与具体操作系统平台相关的信息，使得 Java 程序只需生成在 JVM 上运行的目标代码（字节码），就可以…...

编程新知 2026/2/7 0:37:40

【C++特殊工具与技术】优化内存分配(一)：C++中的内存分配

目录一、C 内存的基本概念 1.1 内存的物理与逻辑结构 1.2 C 程序的内存区域划分二、栈内存分配 2.1 栈内存的特点 2.2 栈内存分配示例三、堆内存分配 3.1 new和delete操作符 4.2 内存泄漏与悬空指针问题 4.3 new和delete的重载四、智能指针…...

编程新知 2026/1/31 6:12:22

用Python分析《三国演义》中的人物关系网

三国演义

获取文本

文本预处理

分词与词频统计

引入停用词后进行词频统计

构建人物关系网

完整代码

相关文章：