当前位置: 首页 > news >正文

使用EM算法完成聚类任务

EM算法(Expectation-Maximization Algorithm)是一种基于迭代优化的聚类算法,用于在无监督的情况下将数据集分成几个不同的组或簇。EM算法是一种迭代算法,包含两个主要步骤:期望步骤(E-step)和最大化步骤(M-step)。

 

在EM算法中,假设我们有一个数据集,但是我们不知道数据集中的数据是如何分布的。我们希望将这个数据集分成K个不同的簇,其中每个簇代表一种不同的数据分布。每个簇都由其均值和协方差矩阵表示。EM算法的主要思想是:在开始时随机地初始化这些簇,然后通过E-step和M-step交替迭代来优化簇的均值和协方差矩阵,直到收敛。

具体来说,EM算法的工作原理如下:

  1. 初始化:随机选择K个中心点作为初始的簇中心,并计算它们的均值和协方差矩阵。

  2. E-step:对于每个数据点,计算其属于每个簇的概率(即责任因子),根据这些概率对每个点进行分组。

  3. M-step:对于每个簇,使用加权最小二乘法计算其新的均值和协方差矩阵。

  4. 重复E-step和M-step,直到收敛(即责任因子和中心点的变化小于预定义的阈值)。

  5. 输出最终的簇中心和它们对应的均值和协方差矩阵,以及每个数据点所属的簇。

使用EM算法完成王者荣耀英雄聚类任务

上面介绍了EM 算法的概念,接下来看个简单的Demo代码,下面的Demo代码是读取原始的csv文件数据,然后使用EM算法进行聚类处理。该文件中记录了不同的hero在最大生命、生命长度等特征上的值。可以看到Demo代码中主要是三个步骤,步骤一:通过热力图选取部分特性,实际就是降纬处理,步骤二:对数据进行归一化处理,步骤三:创建GaussianMixture,传入数据进行无监督训练,然后输出分类结果。

# -*- coding: utf-8 -*-
import pandas as pd
import csv
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.mixture import GaussianMixture
from sklearn.preprocessing import StandardScaler# 数据加载,避免中文乱码问题
data_ori = pd.read_csv('./em/heros.csv', encoding='gb18030')
features = [u'最大生命', u'生命成长', u'初始生命', u'最大法力', u'法力成长', u'初始法力', u'最高物攻', u'物攻成长',u'初始物攻', u'最大物防', u'物防成长', u'初始物防', u'最大每5秒回血', u'每5秒回血成长', u'初始每5秒回血',u'最大每5秒回蓝', u'每5秒回蓝成长', u'初始每5秒回蓝'
]
data = data_ori[features]# 对英雄属性之间的关系进行可视化分析
# 设置 plt 正确显示中文
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
# 用热力图呈现 features_mean 字段之间的相关性
corr = data[features].corr()
plt.figure(figsize=(14, 14))
# annot=True 显示每个方格的数据
sns.heatmap(corr, annot=True)
plt.show()# 相关性大的属性保留一个,因此可以对属性进行降维
features_remain = [u'最大生命', u'初始生命', u'最大法力', u'最高物攻', u'初始物攻', u'最大物防', u'初始物防', u'最大每5秒回血',u'最大每5秒回蓝', u'初始每5秒回蓝'
]
data = data_ori[features_remain]
# data[u'最大攻速'] = data[u'最大攻速'].apply(lambda x: float(x.strip('%')) / 100)
# data[u'攻击范围'] = data[u'攻击范围'].map({'远程': 1, '近战': 0})
# 采用 Z-Score 规范化数据,保证每个特征维度的数据均值为 0,方差为 1
ss = StandardScaler()
data = ss.fit_transform(data)
# 构造 GMM 聚类
gmm = GaussianMixture(n_components=30, covariance_type='full')
gmm.fit(data)
# 训练数据
prediction = gmm.predict(data)
print(prediction)
# 将分组结果输出到 CSV 文件中
data_ori.insert(0, '分组', prediction)
data_ori.to_csv('./hero_out.csv', index=False, sep=',')from sklearn.metrics import calinski_harabaz_scoreprint(calinski_harabaz_score(data, prediction))

下图是分类后的结果,详细信息如下所示:

 在上面的Demo代码中使用到了GaussianMixture方法,该方法是一个用于拟合高斯混合模型(GMM)的类,Demo代码中传入了分类的数量和协方差类型。该方法实际包含很多输入参数,各个参数含义如下所示:

  • n_components:GMM中的分类数量,默认为1。
  • covariance_type:GMM中各个分量的协方差类型。可选的值为"full"(完全协方差矩阵)、"tied"(相同的协方差矩阵)、"diag"(对角协方差矩阵)和"spherical"(各向同性的协方差矩阵)。默认为"full"
  • tol:EM算法的收敛容差,默认为1e-3。
  • reg_covar:协方差矩阵对角线上的正则化参数。该参数用于确保协方差矩阵是半正定的,以避免数值计算的问题。默认为0。
  • max_iter:EM算法的最大迭代次数,默认为100。
  • n_init:使用不同的初始化策略进行训练的次数。模型将选择具有最佳性能的初始化策略。默认为1。
  • init_params:用于控制初始化策略的参数。默认为"kmeans",表示使用K-Means算法初始化GMM的均值和协方差矩阵,也可以设置为一个元组,例如("random", {"means": means_init, "covars": covars_init}),表示使用随机值初始化GMM的均值和协方差矩阵。
  • weights_init:GMM各个分量的权重初始化值。默认为None,表示使用初始化策略(即init_params)来初始化权重。
  • means_init:GMM各个分量的均值初始化值。默认为None,表示使用初始化策略(即init_params)来初始化均值。
  • precisions_init:GMM各个分量的协方差矩阵的逆矩阵初始化值。默认为None,表示使用初始化策略(即init_params)来初始化协方差矩阵。
  • random_state:控制随机数生成器的种子,以便在多次运行中得到相同的结果。默认为None
  • warm_start:如果为True,则使用上一次拟合的结果作为初始化值,并继续从上一次停止的地方训练。默认为False
  • verbose:控制训练过程中的详细程度。默认为0,表示不输出任何信息。
  • verbose_interval:控制训练过程中输出信息的频率。默认为10,表示每迭代10次输出一次信息。

上面的init_params参数控制初始化策略,默认是kmeans,即用K-Means算法初始化GMM的均值和协方差矩阵,前面介绍过K-Means算法,该算法也可以完成聚类任务,那么EM算法和K-means算法有什么区别呢?

EM算法与K-Means算法区别

  1. 簇形状:K-means算法假定每个簇都是由一个中心点和周围的数据点组成的球形簇,而EM算法则假定每个簇可以由任意形状的高斯分布表示。

  2. 簇数量:在K-means算法中,需要预先指定要划分的簇数量K,而在EM算法中则不需要预先指定,可以自动确定最佳的簇数。

  3. 算法原理:K-means算法通过计算每个数据点到簇中心的距离,将数据点分配到最近的簇中。而EM算法则是基于最大似然估计,利用期望最大化算法(Expectation-Maximization Algorithm)来优化簇的均值和协方差矩阵。

  4. 鲁棒性:K-means算法对离群点非常敏感,因为它使用平方误差和来计算距离,而EM算法则对离群点的影响较小,因为它使用高斯分布模型来建模每个簇。

  5. 数据类型:K-means算法适用于数值型数据,而EM算法也适用于混合数据类型,比如文本和图像数据。

  6. 算法复杂度:K-means算法的时间复杂度为O(nki),其中n是数据点的数量,k是簇的数量,i是迭代次数。而EM算法的时间复杂度通常比K-means算法更高,因为它需要估计每个簇的均值和协方差矩阵,这通常需要更多的计算量。

总的来说,EM算法和K-means算法都是用于无监督的聚类问题的算法。但K-means算法更简单,更快速,对于非球形簇和离群点的处理不如EM算法。EM算法更灵活,能够处理更多的数据类型和簇形状,但是通常需要更多的计算时间。

相关文章:

使用EM算法完成聚类任务

EM算法(Expectation-Maximization Algorithm)是一种基于迭代优化的聚类算法,用于在无监督的情况下将数据集分成几个不同的组或簇。EM算法是一种迭代算法,包含两个主要步骤:期望步骤(E-step)和最…...

❤️创意网页:创意视觉效果粒子循环的网页动画

✨博主:命运之光 🌸专栏:Python星辰秘典 🐳专栏:web开发(简单好用又好看) ❤️专栏:Java经典程序设计 ☀️博主的其他文章:点击进入博主的主页 前言:欢迎踏入…...

【MTI 6.S081 Lab】thread

【MTI 6.S081 Lab】thread 前言调度Uthread: switching between threads (moderate)实验任务Hints解决方案thread_switchthread_create()thread_schedule() Using threads (moderate)实验任务解决方案 Barrier (moderate)实验任务解决方案 本实验前去看《操作系统导论》第29章基…...

AWS / VPC 云流量监控

由于安全性、数据现代化、增长、灵活性和成本等原因促使更多企业迁移到云,将数据存储在本地的组织正在使用云来存储其重要数据。亚马逊网络服务(AWS)仍然是最受追捧和需求的服务之一,而亚马逊虚拟私有云(VPC&#xff0…...

【C++学习笔记】extern “c“以及如何查看符号表

如何查看符号表 要查看.a文件的内容&#xff0c;可以使用ar命令。下面是一些常见的用法&#xff1a; 列出.a文件中包含的所有文件&#xff1a; ar t <filename.a>提取.a文件中的单个文件&#xff1a; ar x <filename.a> <filename.o>将.a文件中的所有文件提…...

24考研数据结构-数组和特殊矩阵

目录 数据结构&#xff1a;数组与特殊矩阵数组数组的特点数组的用途 特殊矩阵对角矩阵上三角矩阵和下三角矩阵稀疏矩阵特殊矩阵的用途 结论 3.4 数组和特殊矩阵3.4.1数组的存储结构3.4.2普通矩阵的存储3.4.3特殊矩阵的存储1. 对称矩阵(方阵)2. 三角矩阵(方阵)3. 三对角矩阵(方阵…...

服务器后台运行程序

代码运行 要让代码在服务器后台运行&#xff0c;有多种方法。在 Linux 系统中&#xff0c;最常见的有以下几种方式&#xff1a; **1. 使用 & 符号&#xff1a;** 在命令后面添加 & 符号可以让程序在后台运行。例如&#xff1a; bash python myscript.py &但是…...

大数据课程D7——hadoop的YARN

文章作者邮箱&#xff1a;yugongshiyesina.cn 地址&#xff1a;广东惠州 ▲ 本章节目的 ⚪ 了解YARN的概念和结构&#xff1b; ⚪ 掌握YARN的资源调度流程&#xff1b; ⚪ 了解Hadoop支持的资源调度器&#xff1a;FIFO、Capacity、Fair&#xff1b; ⚪ 掌握YA…...

Rust vs Go:常用语法对比(十三)

题图来自 Go vs. Rust: The Ultimate Performance Battle 241. Yield priority to other threads Explicitly decrease the priority of the current process, so that other execution threads have a better chance to execute now. Then resume normal execution and call f…...

【【51单片机DA转换模块】】

爆改直流电机&#xff0c;DA转换器 main.c #include <REGX52.H> #include "Delay.h" #include "Timer0.h"sbit DAP2^1;unsigned char Counter,Compare; //计数值和比较值&#xff0c;用于输出PWM unsigned char i;void main() {Timer0_Init();whil…...

[SQL挖掘机] - 字符串函数 - substring

介绍: substring函数是在mysql中用于提取字符串的一种函数。它接受一个字符串作为输入&#xff0c;并返回从该字符串中指定位置开始的一部分子串。substring函数可以用于获取字符串中的特定字符或子串&#xff0c;以便进行进一步的处理或分析。 用法: 下面是substring函数的…...

第一百一十六天学习记录:C++提高:STL-string(黑马教学视频)

string基本概念 string是C风格的字符串&#xff0c;而string本质上是一个类 string和char区别 1、char是一个指针 2、string是一个类&#xff0c;类内部封装了char*&#xff0c;管理这个字符串&#xff0c;是一个char型的容器。 特点&#xff1a; string类内部封装了很多成员方…...

Meta-Transformer 多模态学习的统一框架

Meta-Transformer是一个用于多模态学习的新框架&#xff0c;用来处理和关联来自多种模态的信息&#xff0c;如自然语言、图像、点云、音频、视频、时间序列和表格数据&#xff0c;虽然各种数据之间存在固有的差距&#xff0c;但是Meta-Transformer利用冻结编码器从共享标记空间…...

tinkerCAD案例:24.Tinkercad 中的自定义字体

tinkerCAD案例&#xff1a;24.Tinkercad 中的自定义字体 原文 Tinkercad Projects Tinkercad has a fun shape in the Shape Generators section that allows you to upload your own font in SVG format and use it in your designs. I’ve used it for a variety of desi…...

list与流迭代器stream_iterator

运行代码&#xff1a; //list与流迭代器 #include"std_lib_facilities.h" //声明Item类 struct Item {string name;int iid;double value;Item():name(" "),iid(0),value(0.0){}Item(string ss,int ii,double vv):name(ss),iid(ii),value(vv){}friend ist…...

九耶:冯·诺伊曼体系

冯诺伊曼体系&#xff08;Von Neumann architecture&#xff09;是一种计算机体系结构&#xff0c;它由匈牙利数学家冯诺伊曼于1945年提出。冯诺伊曼体系是现代计算机体系结构的基础&#xff0c;几乎所有的通用计算机都采用了这种体系结构。 冯诺伊曼体系的核心思想是将计算机硬…...

探索UCI心脏病数据:利用R语言和h2o深度学习构建预测模型

一、引言 随着机器学习模型在实际应用中的广泛应用&#xff0c;人们对于模型的解释性和可理解性日益关注。可解释性机器学习是指能够清晰、透明地解释机器学习模型决策过程的一种方法和技术。在许多领域中&#xff0c;如医疗诊断、金融风险评估和自动驾驶等&#xff0c;解释模型…...

基于 moleculer 微服务架构的智能低代码PaaS 平台源码 可视化开发

低代码开发平台源码 低代码管理系统PaaS 平台 无需代码或通过少量代码就可以快速生成应用程序的开发平台。 本套低代码管理后台可以支持多种企业应用场景&#xff0c;包括但不限于CRM、ERP、OA、BI、IoT、大数据等。无论是传统企业还是新兴企业&#xff0c;都可以使用管理后台…...

xrdp登录显示白屏且红色叉

如上图所示&#xff0c;xrdp登录出现了红色叉加白屏&#xff0c;这是因为不正常关闭导致&#xff0c;解决方法其实挺简单的 #进入/usr/tmp cd /usr/tmp #删除对应用户的kdecache-** 文件&#xff08;我这里使用的是kde桌面&#xff09;&#xff0c;例如删除ywj用户对应的文件 …...

Docker安装 Mysql 8.x 版本

文章目录 Docker安装 Mysql 8.0.22Mysql 创建账号并授权Mysql 数据迁移同版本数据迁移跨版本数据迁移 Mysql 5.x 版本与 Mysql 8.x版本是两个大版本&#xff0c;这里演示安装Mysql 8.x版本 Docker安装 Mysql 8.0.22 # 下载mysql $ docker pull mysql 默认安装最新…...

【数理知识】刚体 rigid body 及刚体的运动

文章目录 1 刚体2 刚体一般运动1 平移运动2 旋转运动 Ref 1 刚体 刚体是指在运动中和受力作用后&#xff0c;形状和大小不变&#xff0c;而且内部各点的相对位置不变的物体。绝对刚体实际上是不存在的&#xff0c;只是一种理想模型&#xff0c;因为任何物体在受力作用后&#…...

【UE5 多人联机教程】03-创建游戏

效果 步骤 打开“UMG_MainMenu”&#xff0c;增加创建房间按钮的点击事件 添加如下节点 其中&#xff0c;“FUNL Fast Create Widget”是插件自带的函数节点&#xff0c;内容如下&#xff1a; “创建会话”节点指游戏成功创建一个会话后&#xff0c;游戏的其他实例即可发现&am…...

【时间序列预测 】M4

【时间序列预测 】M4 论文题目&#xff1a;The M4 Competition: 100,000 time series and 61 forecasting methods 中文题目&#xff1a; 论文链接&#xff1a; 论文代码&#xff1a; 论文团队&#xff1a; 发表时间&#xff1a; DOI: 引用&#xff1a; 引用数&#xff1a; 摘要…...

SpringCloud微服务实战——搭建企业级开发框架(五十三):微信小程序授权登录增加多租户可配置界面

GitEgg框架集成weixin-java-miniapp工具包以实现微信小程序相关接口调用功能&#xff0c;weixin-java-miniapp底层支持多租户扩展。每个小程序都有唯一的appid&#xff0c;weixin-java-miniapp的多租户实现并不是以租户标识TenantId来区分的&#xff0c;而是在接口调用时&#…...

Stability AI推出Stable Diffusion XL 1.0,文本到图像模型

Stability AI宣布推出Stable Diffusion XL 1.0&#xff0c;这是一个文本到图像的模型&#xff0c;该公司将其描述为迄今为止“最先进的”版本。 Stability AI表示&#xff0c;SDXL 1.0能生成更加鲜明准确的色彩&#xff0c;在对比度、光线和阴影方面做了增强&#xff0c;可生成…...

B076-项目实战--宠物上下架 展示 领养 收购订单

目录 上下架功能提供后台宠物列表实现 前台展示前台宠物列表和详情展示店铺展示 领养分析前台后端PetControllerPetServiceImpl 订单需求分析可能产生订单的模块订单模块额外功能 订单设计表设计流程设计 集成基础代码收购订单创建订单前端后端 上下架功能提供 后台宠物列表实…...

【iOS】—— 持久化

文章目录 数据持久化的目的iOS中数据持久化方案数据持久化方式分类内存缓存磁盘缓存 沙盒机制获取应用程序的沙盒路径沙盒目录的获取方式 持久化数据存储方式XML属性列表Preferences偏好设置&#xff08;UserDefaults&#xff09;数据库存储什么是序列化和反序列化&#xff0c;…...

教程 - 在 Vue3+Ts 中引入 CesiumJS 的最佳实践@2023

1. 本篇适用范围与目的 1.1. 适用范围 严格使用 Vue3 TypeScript 的前端项目&#xff0c;包管理器默认使用 pnpm 构建工具使用 Vite4 使用原生 CesiumJS 依赖做应用开发 客户端渲染&#xff0c;因为我不太熟悉 Vue 的服务端渲染&#xff0c;有本篇的介绍后&#xff0c;熟悉…...

最优化方法

一. 图论 1.最小生成树 图的生成树是它的一颗含有其所有顶点的无环连通子图,一 幅加权图的最小生成树(MST)是它的一颗权值(树中的所有边的权值之和) 最小的生成树 • 适用场景&#xff1a;道路规划、通讯网络规划、管道铺设、电线布设等 题目数据 kruskal算法 稀疏图&#x…...

Mongodb 多文档聚合操作处理方法二(Map-reduce 函数)

聚合 聚合操作处理多个文档并返回计算结果。您可以使用聚合操作来&#xff1a; 将多个文档中的值分组在一起。 对分组数据执行操作以返回单个结果。 分析数据随时间的变化。 要执行聚合操作&#xff0c;您可以使用&#xff1a; 聚合管道 单一目的聚合方法 Map-reduce 函…...

网站开发公司长春/网站发布

数据处理一般步骤1、识别出X和Y2、识别出连续 和 分类变量3、分割数据集&#xff0c;70%训练集&#xff0c;30%测试集4、建立模型5、训练模型、测试模型一、对离散特征的编码离散特征的编码分为两种情况&#xff1a;1、离散特征的取值之间没有大小的意义&#xff0c;比如color&…...

做网站图片路径做缓存吗/今日热点新闻视频

上海最近搞活动调休&#xff0c;要搞深度学习&#xff0c;win上还是不方便&#xff0c;准备弄个ubuntu。于是有以下回忆文字。在机器上装了个双系统。花了两天。再也不想玩了。准备用ubuntu来做深度学习的。本文写于2019年11月4日。机器是神舟Z7-KP7D2&#xff0c;i7-7700HQGTX…...

做网站步骤/优化网站链接的方法

好的&#xff0c;我会用中文回答你的问题。请问你想知道什么&#xff1f;...

wordpress 文本编辑插件/网盘资源大全

在最近的一份报告中&#xff0c;Canonical 的 Will Cooke 透露&#xff0c;Ubuntu Desktop 团队正在考虑在即将推出的 Ubuntu 17.10 版本中以 GDM&#xff08;GNOME显示管理器&#xff09;取代 LightDM 登录管理器。本周早些时候已经有传闻表示 Ubuntu 17.10 将采用 GNOME GDM …...

南通做网站优化公司/卡一卡二卡三入口2021

2019独角兽企业重金招聘Python工程师标准>>> 两段代码&#xff0c;首先是使用方法 CGContextRef context UIGraphicsGetCurrentContext();NSArray *colors [NSArray arrayWithObjects:[UIColor colorWithRed:225.0 / 255.0 green:225.0 / 255.0 blue:225.0 / 255…...

潜江 网站建设/2345网止导航

spring是一个很有名的java开源框架&#xff0c;作为一名javaer还是有必要了解spring的设计原理和机制&#xff0c;beans、core、context作为spring的三个核心组件。而三个组件中最重要的就是beans组件了。 从一个简单实例来查看spring加载配置文件中的bean。 public class Stud…...