当前位置：首页 > news >正文

【生物信息学】使用谱聚类（Spectral Clustering）算法进行聚类分析

news 2026/2/7 20:26:30

一、实验介绍

二、实验环境

1. 配置虚拟环境

2. 库版本介绍

3. IDE

三、实验内容

0. 导入必要的工具

1. 生成测试数据

2. 绘制初始数据分布图

3. 循环尝试不同的参数组合并计算聚类效果

4. 输出最佳参数组合

5. 绘制最佳聚类结果图

6. 代码整合

一、实验介绍

本实验实现了使用谱聚类（Spectral Clustering）算法进行聚类分析

二、实验环境

本系列实验使用了PyTorch深度学习框架，相关操作如下（基于深度学习系列文章的环境）：

1. 配置虚拟环境

深度学习系列文章的环境

conda create -n DL python=3.7

conda activate DL

pip install torch==1.8.1+cu102 torchvision==0.9.1+cu102 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html

conda install matplotlib

conda install scikit-learn

新增加

conda install pandas

conda install seaborn

conda install networkx

conda install statsmodels

pip install pyHSICLasso

注：本人的实验环境按照上述顺序安装各种库，若想尝试一起安装（天知道会不会出问题）

2. 库版本介绍

软件包	本实验版本	目前最新版
matplotlib	3.5.3	3.8.0
numpy	1.21.6	1.26.0
python	3.7.16
scikit-learn	0.22.1	1.3.0
torch	1.8.1+cu102	2.0.1
torchaudio	0.8.1	2.0.2
torchvision	0.9.1+cu102	0.15.2

新增

networkx	2.6.3	3.1
pandas	1.2.3	2.1.1
pyHSICLasso	1.4.2	1.4.2
seaborn	0.12.2	0.13.0
statsmodels	0.13.5	0.14.0

3. IDE

建议使用Pycharm（其中，pyHSICLasso库在VScode出错，尚未找到解决办法……）

win11 安装 Anaconda（2022.10）+pycharm（2022.3/2023.1.4）+配置虚拟环境_QomolangmaH的博客-CSDN博客https://blog.csdn.net/m0_63834988/article/details/128693741https://blog.csdn.net/m0_63834988/article/details/128693741

三、实验内容

0. 导入必要的工具

import numpy as np
from sklearn.cluster import SpectralClustering
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
from numpy import random
from sklearn import metrics

1. 生成测试数据

random.seed(1)
x, y = make_blobs(n_samples=400, centers=4, cluster_std=1.5)

使用make_blobs方法生成了一个包含400个样本的数据集，共有4个聚类中心，每个聚类中心的标准偏差为1.5。

2. 绘制初始数据分布图

plt.scatter(x[:, 0], x[:, 1], c=y, label=len(np.unique(y)))
plt.title("Initial Data Distribution")
plt.show()

将生成的数据集绘制成散点图，不同聚类的样本使用不同的颜色进行标记。

3. 循环尝试不同的参数组合并计算聚类效果

gamma_best = 0
k_cluster_best = 0
CH = 0
for index, gamma in enumerate((1, 1.5, 2, 2.5, 5)):for index, k in enumerate((2, 3, 4, 5, 6)):y_pred = SpectralClustering(n_clusters=k, gamma=gamma).fit_predict(x)print("Calinski-Harabasz Score with gamma=", gamma, "n_clusters=", k, "score:",metrics.calinski_harabasz_score(x, y_pred))curr_CH = metrics.calinski_harabasz_score(x, y_pred)if (curr_CH > CH):gamma_best = gammak_cluster_best = kCH = curr_CH

使用嵌套的循环尝试不同的参数组合
- 其中gamma代表谱聚类中的高斯核参数
- k代表聚类的簇数。
对于每一组参数，使用SpectralClustering进行聚类，并计算聚类结果的 Calinski-Harabasz 得分（metrics.calinski_harabasz_score）。得分越高表示聚类效果越好。代码会记录得分最高的参数组合。

4. 输出最佳参数组合

print("best gamma:", gamma_best, "best cluster", k_cluster_best)

输出得分最高的参数组合（即最佳的 gamma 和 k）。

5. 绘制最佳聚类结果图

f = plt.figure()
sc = SpectralClustering(n_clusters=k_cluster_best, gamma=gamma_best).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=sc)
plt.title("n_clusters: " + str(k_cluster_best))
plt.show()

6. 代码整合

import numpy as np
from sklearn.cluster import SpectralClustering
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
from numpy import random
from sklearn import metricsSpectralClustering(affinity='rbf', coef0=1, degree=3, gamma=1.0,kernel_params=None, n_clusters=4, n_init=10,n_neighbors=10)# scikit中的make_blobs方法常被用来生成聚类算法的测试数据，make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据，这些数据可用于测试聚类算法的效果
random.seed(1)
# n_samples：样本数 n_features：int，可选（默认值= 2）centers：要生成的中心数或固定的中心位置 cluster_std: 聚类的标准偏差
x, y = make_blobs(n_samples=400, centers=4, cluster_std=1.5)
plt.scatter(x[:, 0], x[:, 1], c=y, label=len(np.unique(y)))
plt.title("Initial Data Distribution")
plt.show()gamma_best = 0
k_cluster_best = 0
CH = 0
for index, gamma in enumerate((1, 1.5, 2, 2.5, 5)):for index, k in enumerate((2, 3, 4, 5, 6)):y_pred = SpectralClustering(n_clusters=k, gamma=gamma).fit_predict(x)# 卡林斯基哈拉巴斯得分（Calinski Harabasz score），本质是簇间距离与簇内距离的比值，整体计算过程与方差计算方式类似，也称为方差比标准，# 通过计算类内各点与类中心的距离平方和来度量类内的紧密度（类内距离），各个类中心点与数据集中心点距离平方和来度量数据集的分离度（类间距离），# 较高的 Calinski Harabasz 分数意味着更好的聚类print("Calinski-Harabasz Score with gamma=", gamma, "n_clusters=", k, "score:",metrics.calinski_harabasz_score(x, y_pred))curr_CH = metrics.calinski_harabasz_score(x, y_pred)if (curr_CH > CH):gamma_best = gammak_cluster_best = kCH = curr_CHprint("best gamma:", gamma_best, "best cluster", k_cluster_best)f = plt.figure()
sc = SpectralClustering(n_clusters=k_cluster_best, gamma=gamma_best).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=sc)
plt.title("n_clusters: " + str(k_cluster_best))
plt.show()
请详细介绍上述代码

【生物信息学】使用谱聚类（Spectral Clustering）算法进行聚类分析

目录一、实验介绍二、实验环境 1. 配置虚拟环境 2. 库版本介绍 3. IDE 三、实验内容 0. 导入必要的工具 1. 生成测试数据 2. 绘制初始数据分布图 3. 循环尝试不同的参数组合并计算聚类效果 4. 输出最佳参数组合 5. 绘制最佳聚类结果图 6. 代码整合一、实验介绍…...

编程日记 2023/10/2 23:57:56

CSS基础语法第二天

目录一、复合选择器 1.1 后代选择器 1.2 子代选择器 1.3 并集选择器 1.4 交集选择器 1.4.1超链接伪类二、CSS特性 2.1 继承性 2.2 层叠性 2.3 优先级基础选择器复合选择器-叠加三、Emmet 写法 3.1HTML标签 3.2CSS 四、背景属性 4.1 背景图 4.2 平铺方式 …...

编程日记 2023/10/2 23:56:55

ThreeJS - 封装一个GLB模型展示组件（TypeScript）

一、引言最近基于Three.JS，使用class封装了一个GLB模型展示，支持TypeScript、支持不同框架使用，具有多种功能。 （下图展示一些基础的功能，可以自行扩展，比如光源等） 二、主要代码本模块依赖…...

编程日记 2023/10/2 23:55:55

HashMap面试题

1.hashMap底层实现 hashMap的实现我们是要分jdk 1.7及以下版本，jdk1.8及以上版本 jdk 1.7 实现是用数组链表 jdk1.8 实现是用数组链表红黑树， 链表长度大于8（TREEIFY_THRESHOLD）时，会把链表转换为红黑树&#xff0c…...

编程日记 2023/10/2 23:53:53

Java编程技巧：swagger2、knif4j集成SpringBoot或者SpringCloud项目

目录 1、springbootswagger2knif4j2、springbootswagger3knif4j3、springcloudswagger2knif4j 1、springbootswagger2knif4j 2、springbootswagger3knif4j 3、springcloudswagger2knif4j 注意点： Api注解：Controller类上的Api注解需要添加tags属性&a…...

编程日记 2023/10/2 23:52:52

第三章：最新版零基础学习 PYTHON 教程（第九节 - Python 运算符—Python 中的除法运算符）

除法运算符允许您将两个数字相除并返回商，即，第一个数字或左侧的数字除以第二个数字或右侧的数字并返回商。 Python 中的除法运算符除法运算符有两种类型：浮点数除法整数除法（向下取整除法）整数相除时，结果四舍五入为最接近的整数，并用符号“//”表示。浮点数“/”…...

编程日记 2023/10/2 23:50:50

【python】导出mysql数据，输出excel！

参考https://blog.csdn.net/pengneng123/article/details/131111713 import pymysql import pandas as pd #import openpyxl import xlsxwriterdb pymysql.connect(host"10.41.241.114", port***,user***,password***,charsetutf8mb4 )cursor db.cursor() #创建游…...

编程日记 2023/10/2 23:47:48

【Java 进阶篇】JDBC ResultSet 遍历结果集详解

在Java数据库编程中，经常需要执行SQL查询并处理查询结果。ResultSet（结果集）是Java JDBC中用于表示查询结果的关键类之一。通过遍历ResultSet，我们可以访问和操作从数据库中检索的数据。本文将详细介绍如何使用JDBC来遍历ResultSe…...

编程日记 2023/10/2 23:45:46

华为数通方向HCIP-DataCom H12-831题库(单选题：161-180）

第161题某台路由器Router LSA如图所示，下列说法中错误的是? A、本路由器已建立邻接关系 B、本路由器为DR C、本路由支持外部路由引入 D、本路由器的Router ID为10.0.12.1 答案： B 解析：一类LSA的在transnet网络中link id值为DR的route id ,但Link id的地址不是10.0.12.…...

编程日记 2023/10/2 23:44:45

【VsCode】SSH远程连接Linux服务器开发，搭配cpolar内网穿透实现公网访问

文章目录前言1、安装OpenSSH2、vscode配置ssh3. 局域网测试连接远程服务器4. 公网远程连接4.1 ubuntu安装cpolar内网穿透4.2 创建隧道映射4.3 测试公网远程连接 5. 配置固定TCP端口地址5.1 保留一个固定TCP端口地址5.2 配置固定TCP端口地址5.3 测试固定公网地址远程前言远程…...

编程日记 2023/10/2 23:41:42

java并发编程守护线程用户线程 main

经常使用线程，没有对守护线程和用户线程的区别做彻底了解下面写4个例子来验证一下源码如下 /* Whether or not the thread is a daemon thread. */ private boolean daemon false;/*** Marks this thread as either a {linkplain #isDaemon daemon} thread*…...

编程日记 2023/10/2 23:39:41

wxWidgets（1）：在Ubuntu 环境中搭建wxWidgets 库环境，安装库和CodeBlocks的IDE，可以运行demo界面了，继续学习中

1，选择使用 wxWidgets 框架选择这个主要是因为完全的开源，不想折腾 Qt的库，而且打包的文件比较大。网络上面有很多的对比，而且使用QT的人比较多。但是我觉得wxwidgets 更加偏向 c 语法本身，也有助学习C。没有太多…...

编程日记 2023/10/2 23:37:39

[VIM]VIM初步学习-3

3-1 编写 vim 配置，我的 vim 我做主_哔哩哔哩_bilibili...

编程日记 2023/10/2 23:36:38

RocketMQ Dashboard说解

RocketMQ Dashboard 是 RocketMQ 的管控利器，为用户提供客户端和应用程序的各种事件、性能的统计信息，支持以可视化工具代替 Topic 配置、Broker 管理等命令行操作。介绍功能概览面板功能运维修改nameserver 地址; 选用 VIPChannel驾驶舱查看 …...

编程日记 2023/10/2 23:35:37

【RabbitMQ实战】05 RabbitMQ后台管理

一、多租户与权限 1.1 vhost的概念每一个 RabbitMQ服务器都能创建虚拟的消息服务器，我们称之为虚拟主机(virtual host),简称为 vhost。每一个 vhost本质上是一个独立的小型RabbitMQ服务器，拥有自己独立的队列、交换器及绑定关系等，并且它拥…...

编程日记 2023/10/2 23:33:35

PHP8中final关键字的应用-PHP8知识详解

在PHP8中，final的中文含义是最终的、最后的意思。被final修饰过的类和方法就是“最终的版本”。如果关键字final放在类的前面，则表示该类不能被继承。如果关键字final放在方法的前面，则表示该方法不能被重新定义。如果有一个类的格式为…...

编程日记 2023/10/2 23:28:28

基于Java的校园失物招领平台设计与实现(源码+lw+部署文档+讲解等)

文章目录前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序（小蔡coding）有保障的售后福利代码参考源码获取前言 💗博主介绍：✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作…...

编程日记 2023/10/2 23:26:25

〔024〕Stable Diffusion 之模型训练篇

✨ 目录 🎈 训练集准备🎈 训练集预处理🎈 数据清洗🎈 下载训练源码🎈 训练文件配置🎈 脚本运行🎈 实战测试🎈 训练集准备声明：该文中所涉及到的女神图片均来自于网络，仅用作技术教程演示，图片已码一般同一个训练集需要准备 20~40 张不同角度的照片，当然可…...

编程日记 2023/10/2 23:25:24

【MySQL入门到精通-黑马程序员】MySQL基础篇-DML

文章目录前言一、DML-介绍二、DML-添加数据三、DML-修改数据四、DML-删除数据总结前言本专栏文章为观看黑马程序员《MySQL入门到精通》所做笔记，课程地址在这。如有侵权，立即删除。一、DML-介绍 DML（Data Manipulation Language&#xf…...

编程日记 2023/10/2 23:24:23

【ARMv8 SIMD和浮点指令编程】NEON 加载指令——如何将数据从内存搬到寄存器（LDxLDxR）？

将内存中的数据搬到 NEON 寄存器，有很多指令可以完成，熟悉这些指令是必须的。 1 LD1 (multiple structures) 将多个单元素结构加载到一个，两个，三个或四个寄存器上。该指令从内存中加载多个单元结构，并将结果写入一、二、三或四个 SIMD&FP 寄存器。无偏移一个寄存…...

编程日记 2023/10/2 23:20:19

Linux-07 ubuntu 的 chrome 启动不了

文章目录问题原因解决步骤一、卸载旧版chrome二、重新安装chorme三、启动不了，报错如下四、启动不了，解决如下总结问题原因在应用中可以看到chrome，但是打不开(说明：原来的ubuntu系统出问题了，这个是备用的硬盘&a…...

编程新知 2026/1/29 17:56:19

Caliper 配置文件解析：config.yaml

Caliper 是一个区块链性能基准测试工具，用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构，并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件，主要包含以下几个部…...

编程新知 2025/8/13 13:40:18

C++使用 new 来创建动态数组

问题： 不能使用变量定义数组大小原因： 这是因为数组在内存中是连续存储的，编译器需要在编译阶段就确定数组的大小，以便正确地分配内存空间。如果允许使用变量来定义数组的大小，那么编译器就无法在编译时确定数组的大…...

编程新知 2026/2/2 18:33:19

JavaScript 数据类型详解

JavaScript 数据类型详解 JavaScript 数据类型分为原始类型（Primitive） 和对象类型（Object） 两大类，共 8 种（ES11）： 一、原始类型（7种） 1. undefined 定…...

编程新知 2025/12/25 4:05:41

TSN交换机正在重构工业网络，PROFINET和EtherCAT会被取代吗？

在工业自动化持续演进的今天，通信网络的角色正变得愈发关键。 2025年6月6日，为期三天的华南国际工业博览会在深圳国际会展中心（宝安）圆满落幕。作为国内工业通信领域的技术型企业，光路科技（Fiberroad&…...

编程新知 2026/1/26 5:57:43

适应性Java用于现代 API：REST、GraphQL 和事件驱动

在快速发展的软件开发领域，REST、GraphQL 和事件驱动架构等新的 API 标准对于构建可扩展、高效的系统至关重要。Java 在现代 API 方面以其在企业应用中的稳定性而闻名，不断适应这些现代范式的需求。随着不断发展的生态系统，Java 在现代 API 方…...

编程新知 2025/11/10 19:07:59

用 Rust 重写 Linux 内核模块实战：迈向安全内核的新篇章

用 Rust 重写 Linux 内核模块实战：迈向安全内核的新篇章摘要： 操作系统内核的安全性、稳定性至关重要。传统 Linux 内核模块开发长期依赖于 C 语言，受限于 C 语言本身的内存安全和并发安全问题，开发复杂模块极易引入难以…...

编程新知 2025/10/25 19:31:21

Python异步编程：深入理解协程的原理与实践指南

💝💝💝欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。持续学习，不断…...

编程新知 2026/2/5 2:28:10

Shell 解释器 bash 和 dash 区别

bash 和 dash 都是 Unix/Linux 系统中的 Shell 解释器，但它们在功能、语法和性能上有显著区别。以下是它们的详细对比： 1. 基本区别特性bash (Bourne-Again SHell)dash (Debian Almquist SHell)来源G…...

编程新知 2025/12/9 16:23:42

从数据报表到决策大脑：AI重构电商决策链条

在传统电商运营中，决策链条往往止步于“数据报表层”：BI工具整合历史数据，生成滞后一周甚至更久的销售分析，运营团队凭经验预判需求。当爆款突然断货、促销库存积压时，企业才惊觉标准化BI的决策时差正成为增长瓶颈。一…...

编程新知 2026/2/5 5:50:31

一、实验介绍

二、实验环境

1. 配置虚拟环境

2. 库版本介绍

3. IDE

三、实验内容

0. 导入必要的工具

1. 生成测试数据

2. 绘制初始数据分布图

3. 循环尝试不同的参数组合并计算聚类效果

4. 输出最佳参数组合

5. 绘制最佳聚类结 果图

6. 代码整合

相关文章：

5. 绘制最佳聚类结果图