机器学习:混合高斯聚类GMM(求聚类标签)+PCA降维(3维降2维)习题
- 使用混合高斯模型 GMM,计算如下数据点的聚类过程:
Data=np.array([1,2,6,7])
均值初值为:
μ1,μ2=1,5
权重初值为:
w1,w2=0.5,0.5
方差:
std1,std2=1,1
K=2
10 次迭代后数据的聚类标签是多少?
采用python代码实现:
from scipy import stats
import numpy as np#初始化数据
Data = np.array([1,2,6,7])
w1 , w2 = 0.5, 0.5
mu1 , mu2 = 1, 5
std1 , std2 = 1, 1n = len(Data) # 样本长度
zij=np.zeros([n,2])
for t in range(10):# E-step 依据当前参数,计算每个数据点属于每个子分布的概率z1_up = w1 * stats.norm(mu1 ,std1).pdf(Data)z2_up = w2*stats.norm(mu2 , std2).pdf(Data)z_all = (w1*stats.norm(mu1 ,std1).pdf(Data)+w2*stats.norm(mu2 ,std2).pdf(Data))+0.001rz1 = z1_up/z_all # 为甲分布的概率rz2 = z2_up/z_all # 为乙分布的概率# M-step 依据 E-step 的结果,更新每个子分布的参数。mu1 = np.sum(rz1*Data)/np.sum(rz1)mu2 = np.sum(rz2*Data)/np.sum(rz2)std1 = np.sum(rz1*np.square(Data-mu1))/np.sum(rz1)std2 = np.sum(rz2*np.square(Data-mu2))/np.sum(rz2)w1 = np.sum(rz1)/nw2 = np.sum(rz2)/n
for i in range(n):zij[i][0] = rz1[i]/(rz1[i]+rz2[i])zij[i][1] = rz2[i]/(rz1[i]+rz2[i])labels = np.argmax(zij, axis=1)#输出每一行的最大值,0或1 axis表示返回每一行中最大值所在列的索引
print(labels)
聚类标签输出结果:[0 0 1 1]
也就是说,10 次迭代后数据的聚类标签是1,2归为0
类6,7归为1
类
附注:
如果 axis 为 None,那么 np.argmax 会将数组展平为一维,然后返回最大值的索引。例如:
>>> a = np.array([[1, 2], [3, 4]]) >>> np.argmax(a) 3
如果 axis 为 0,那么 np.argmax 会沿着第一个维度(行)进行最大值的查找,返回每一列中最大值所在的行索引。例如:
>>> a = np.array([[1, 2], [3, 4]]) >>> np.argmax(a, axis=0) array([1, 1])
如果 axis 为 1,那么 np.argmax 会沿着第二个维度(列)进行最大值的查找,返回每一行中最大值所在的列索引。例如:
>>> a = np.array([[1, 2], [3, 4]]) >>> np.argmax(a, axis=1) array([1, 1])
在之前问题中,np.argmax([gamma1, gamma2], axis=0) 的意思是沿着第一个维度(gamma1 和 gamma2)进行最大值的查找,返回每个数据点属于哪个子分布的概率更大。
-
假设我们的数据集有 10 个 3 维数据, 需要用 PCA 降到 2 维特征。
array([[ 3.25, 1.85, -1.29],[ 3.06, 1.25, -0.18],[ 3.46, 2.68, 0.64],[ 0.3 , -0.1 , -0.79],[ 0.83, -0.21, -0.88],[ 1.82, 0.99, 0.16],[ 2.78, 1.75, 0.51],[ 2.08, 1.5 , -1.06],[ 2.62, 1.23, 0.04],[ 0.83, -0.69, -0.61]])
给出求解过程
解:
- 对所有的样本进行中心化:
x(i)=x(i)−1m∑j=1mx(j)
得到:
X=np.array([[ 1.147 0.825 -0.944][ 0.957 0.225 0.166][ 1.357 1.655 0.986][-1.803 -1.125 -0.444][-1.273 -1.235 -0.534][-0.283 -0.035 0.506][ 0.677 0.725 0.856][-0.023 0.475 -0.714][ 0.517 0.205 0.386][-1.273 -1.715 -0.264]])
- 计算样本的协方差矩阵 XXT
covM2=np.array([[1.26344556 1.08743889 0.32030889],
[1.08743889 1.11076111 0.31611111],
[0.32030889 0.31611111 0.45449333]])
- 对矩阵 XXT 进行特征值分解
取出最大的 n′ 个特征值对应的特征向量 (w1,…,wn′), 将所有的特征向量标准化后,组成特征向量矩阵 W。
3.1求出特征值:
eigval=np.array([2.38219729 0.09637041 0.35013229])
3.2特征向量标准化:
eigvec=np.array([
[ 0.71144 0.67380165 -0.19961077],
[ 0.66498574 -0.73733944 -0.11884665],
[ 0.22725997 0.04818606 0.97264126]])
3.3取出特征值最大的2个特征值索引,也就是[2.38,0.35]对应的第1列和第3列:
indexes=[2 0]
3.4特征向量矩阵W:(对eigvec
取了第3
列和第1
列)
W=np.array([
[-0.19961077 0.71144 ],
[-0.11884665 0.66498574],
[ 0.97264126 0.22725997]])
- 对样本集中的每一个样本 x(i) , 转化为新的样本 z(i)=WTx(i) ,得到输出样本集 D=(z(1),…z(m))
X:3×10 W:3×2 x⋅W=10×33×2 因为输入行列转置,结果是一致的
D=np.array([[-1.24517539 1.15010151][-0.05630956 0.86819503][ 0.49146125 2.29005381][ 0.06174799 -2.1317387 ][-0.1185103 -1.84827733][ 0.55280596 -0.10961848][ 0.6112806 1.15829407][-0.74632697 0.13724149][ 0.24787719 0.5918589 ][ 0.20114923 -2.10611029]])
代码:
import numpy as npX=np.array([[ 3.25, 1.85, -1.29],[ 3.06, 1.25, -0.18],[ 3.46, 2.68, 0.64],[ 0.3 , -0.1 , -0.79],[ 0.83, -0.21, -0.88],[ 1.82, 0.99, 0.16],[ 2.78, 1.75, 0.51],[ 2.08, 1.5 , -1.06],[ 2.62, 1.23, 0.04],[ 0.83, -0.69, -0.61]])def pca(X, d):# Centralization中心化means = np.mean(X, 0)X = X - meansprint(X)# Covariance Matrix 计算样本协方差矩阵M=len(X)X=np.mat(X) covM2=np.cov(X.T)# 求出特征值,特征值分解eigval , eigvec = np.linalg.eig(covM2)indexes = np.argsort(eigval)[-d:]W = eigvec[:, indexes]return X*W
print(pca(X, 2))
附注:
np.cov()是一个用于计算协方差矩阵的函数,它可以接受一个或两个数组作为参数,返回一个二维数组,表示协方差矩阵。
协方差矩阵是一个对称矩阵,它的对角线元素表示各个变量的方差,非对角线元素表示两个变量之间的协方差。协方差反映了两个变量的线性相关程度,如果协方差为正,说明两个变量正相关;如果协方差为负,说明两个变量负相关;如果协方差为零,说明两个变量无相关性。
np.cov()的用法如下:
np.cov(m, y=None, rowvar=True, bias=False, ddof=None, fweights=None, aweights=None)
参数说明:
- m: 一个一维或二维的数组,表示多个变量和观测值。如果是一维数组,表示一个变量的观测值;如果是二维数组,每一行表示一个变量,每一列表示一个观测值。
- y: 可选参数,另一个一维或二维的数组,表示另一组变量和观测值,必须和m具有相同的形状。
- rowvar: 可选参数,布尔值,默认为True。如果为True,表示每一行代表一个变量;如果为False,表示每一列代表一个变量。
- bias: 可选参数,布尔值,默认为False。如果为False,表示计算无偏协方差(除以n-1);如果为True,表示计算有偏协方差(除以n)。
- ddof: 可选参数,整数,默认为None。如果不为None,则覆盖由bias隐含的默认值。ddof=0表示计算有偏协方差;ddof=1表示计算无偏协方差。
- fweights: 可选参数,一维数组或整数,默认为None。表示每次观测的频率权重。
- aweights: 可选参数,一维数组,默认为None。表示每个变量的可靠性权重。
返回值:
- 一个二维数组,表示协方差矩阵。
举例说明:
import numpy as np# 生成两组随机数据 x = np.random.randn(10) y = np.random.randn(10)# 计算x和y的协方差矩阵 cov_xy = np.cov(x,y) print(cov_xy) # 输出: [[ 0.8136679 -0.01594772][-0.01594772 0.84955963]]# 计算x和y的相关系数矩阵 corr_xy = np.corrcoef(x,y) print(corr_xy) # 输出: [[ 1. -0.01904402][-0.01904402 1. ]]
相关文章:
![](https://img-blog.csdnimg.cn/7c55946709514686886c7d3ab2377ee3.png)
机器学习:混合高斯聚类GMM(求聚类标签)+PCA降维(3维降2维)习题
使用混合高斯模型 GMM,计算如下数据点的聚类过程: Datanp.array([1,2,6,7]) 均值初值为: μ1,μ21,5 权重初值为: w1,w20.5,0.5 方差: std1,std21,1 K2 10 次迭代后数据的聚类标签是多少? 采用python代码实现: from scipy import…...
![](https://www.ngui.cc/images/no-images.jpg)
libuv库学习笔记-processes
Processes libuv提供了相当多的子进程管理函数,并且是跨平台的,还允许使用stream,或者说pipe完成进程间通信。 在UNIX中有一个共识,就是进程只做一件事,并把它做好。因此,进程通常通过创建子进程来完成不…...
![](https://img-blog.csdnimg.cn/eb58f6b6652e472780284cc4e59998c7.png#pic_center)
c++ 给无名形参提供默认值
如上图,若函数的形参不在函数体里使用,可以不提供形参名,而且可以给此形参提供默认值。也能编译通过。 在看vs2019上的源码时,也出现了这种写法。应用SFINAE(substitute false is not an error)原则&#x…...
![](https://img-blog.csdnimg.cn/567d3f479a9f45c3a0a0dfcd04baa073.png)
NO1.使用命令行创建Maven工程
①在工作空间目录下打开命令窗口 ②使用命令行生成Maven工程 mvn archetype:generate 运行 MVN 原型:生成命令,下面根据提示操作 选择一个数字或应用过滤器(格式:[groupId:]artifactId,区分大小写包含)&a…...
![](https://img-blog.csdnimg.cn/f675b9a173fa477b9ff3e1e5f6de8638.png#pic_center)
深度学习入门(一):神经网络基础
一、深度学习概念 1、定义 通过训练多层网络结构对位置数据进行分类或回归,深度学习解决特征工程问题。 2、深度学习应用 图像处理语言识别自然语言处理 在移动端不太好,计算量太大了,速度可能会慢 eg.医学应用、自动上色 3、例子 使用…...
![](https://img-blog.csdnimg.cn/d915e13a0e8a4f7a8a54a2a779ee0329.png)
网络知识整理
网络知识整理 网络拓扑网关默认网关 数据传输拓扑结构层面协议层面 网络拓扑 网关 连接两个不同的网络的设备都可以叫网关设备,网关的作用就是实现两个网络之间进行通讯与控制。 网关设备可以是交换机(三层及以上才能跨网络) 、路由器、启用了路由协议的服务器、代…...
![](https://img-blog.csdnimg.cn/img_convert/44408a5e523a1d0369ae7fae1ab2a058.png)
如何有效地使用ChatGPT写小说讲故事?
构思故事情节,虽有趣但耗时,容易陷入写作瓶颈。ChatGPT可提供灵感,帮你解决写作难题。要写出引人入胜的故事,关键在于抓住八个要素——主题、人物、视角、背景、情节、语气、冲突和解决办法。 直接给出故事模板,你可…...
![](https://img-blog.csdnimg.cn/111dce1a8f8348789de0879e8c1dcd84.png)
原生求生记:揭秘UniApp的原生能力限制
文章目录 1. 样式适配问题2. 性能问题3. 原生能力限制4. 插件兼容性问题5. 第三方组件库兼容性问题6. 全局变量污染7. 调试和定位问题8. 版本兼容性问题9. 前端生态限制10. 文档和支持附录:「简历必备」前后端实战项目(推荐:⭐️⭐️⭐️⭐️…...
![](https://img-blog.csdnimg.cn/4013737ceef2416282cdeb3c2e6a0a34.png)
网络编程 IO多路复用 [epoll版] (TCP网络聊天室)
//head.h 头文件 //TcpGrpSer.c 服务器端 //TcpGrpUsr.c 客户端 通过IO多路复用实现服务器在单进程单线程下可以与多个客户端交互 API epoll函数 #include<sys/epoll.h> int epoll_create(int size); 功能:创建一个epoll句柄//创建红黑树根…...
![](https://img-blog.csdnimg.cn/2868d0718ec64ab8b9a96bd64cb2f7bc.png)
【go-zero】浅析 01
“github.com/google/uuid” uuid.New().String() go-zero 文档 https://www.w3cschool.cn/gozero/ go-zero 官网 https://go-zero.dev/ 快速开始: $ mkdir go-zero-demo $ cd go-zero-demo $ go mod init go-zero-demo $ goctl api new greet $ go mod tidy Done…...
![](https://img-blog.csdnimg.cn/32c64873df7742e2bdcee79aa9c83b6c.png)
音视频——视频流H264编码格式
1 H264介绍 我们了解了什么是宏快,宏快作为压缩视频的最小的一部分,需要被组织,然后在网络之间做相互传输。 H264更深层次 —》宏块 太浅了 如果单纯的用宏快来发送数据是杂乱无章的,就好像在没有集装箱 出现之前,…...
![](https://img-blog.csdnimg.cn/725f9d28e6e54810ac5c9c187f37d6d9.png)
【使用深度学习的城市声音分类】使用从提取音频特征(频谱图)中提取的深度学习进行声音分类研究(Matlab代码实现)
💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...
![](https://www.ngui.cc/images/no-images.jpg)
机器学习完整路径
一个机器学习项目从开始到结束大致分为 5 步,分别是定义问题、收集数据和预处理、选择算法和确定模型、训练拟合模型、评估并优化模型性能。是一个循环迭代的过程,优秀的模型都是一次次迭代的产物。 定义问题 要剖析业务场景,设定清晰的目标…...
![](https://img-blog.csdnimg.cn/img_convert/2b6ff16495fbba7fafec0c749abf0f60.png)
CK-00靶机详解
CK-00靶机详解 靶场下载地址:https://download.vulnhub.com/ck/CK-00.zip 这个靶场扫描到ip打开后发现主页面css是有问题的,一般这种情况就是没有配置域名解析。 我们网站主页右击查看源代码,发现一个域名。 把域名添加到我们hosts文件中。…...
![](https://img-blog.csdnimg.cn/5e9df4eb74fb47f1af05e2902e69e583.png)
17-C++ 数据结构 - 栈
📖 1.1 什么是栈 栈是一种线性数据结构,具有后进先出(Last-In-First-Out,LIFO)的特点。可以类比为装满盘子的餐桌,每次放盘子都放在最上面,取盘子时也从最上面取,因此最后放进去的盘…...
![](https://img-blog.csdnimg.cn/img_convert/a361e811a880ba6f7625dc4b277dd9da.png)
Redis如何实现排行榜?
今天给大家简单聊聊 Redis Sorted Set 数据类型底层的实现原理和游戏排行榜实战。特别简单,一点也不深入,也就 7 张图,粉丝可放心食用,哈哈哈哈哈~~~~。 1. 是什么 Sorted Sets 与 Sets 类似,是一种集合类型ÿ…...
![](https://img-blog.csdnimg.cn/edb09b9f59a64164a363d84daaaeaf74.png)
Pycharm debug程序,跳转至指定循环条件/循环次数
在断点出右键,然后设置条件 示例 for i in range(1,100):a i 1b i 2print(a, b, i) 注意: 1、你应该debug断点在循环后的位置而不是循环上的位置,然后你就可以设置你的条件进入到指定的循环上了 2、设置条件,要使用等于符号…...
![](https://www.ngui.cc/images/no-images.jpg)
react实现markdown
参考:https://blog.csdn.net/Jack_lzx/article/details/118495763 参考:https://blog.csdn.net/m0_48474585/article/details/119742984 0. 示例 用react实现markdown编辑器 1.基本布局及样式 <><div classNametf_editor_header>头部&…...
![](https://img-blog.csdnimg.cn/img_convert/4752117caece78674b127ecb65328e46.png)
HTTP请求走私漏洞简单分析
文章目录 HTTP请求走私漏洞的产生HTTP请求走私漏洞的分类HTTP请求走私攻击的危害确认HTTP请求走私漏洞通过时间延迟技术确认CL漏洞通过时间延迟技术寻找TE.CL漏洞 使用差异响应内容确认漏洞通过差异响应确认CL.TE漏洞通过差异响应确认TE.CL漏洞 请求走私漏洞的利用通过请求漏洞…...
![](https://img-blog.csdnimg.cn/img_convert/fa06f9186c95dca037d2f7f17e8761b1.webp?x-oss-process=image/format,png)
BI-SQL丨两表差异比较
BOSS:哎,白茶,我们最近新上了一个系统,后续有一些数据要进行源切换,这个能整么? 白茶:没问题,可以整! BOSS:哦,对了,差点忘记告诉你了…...
![](https://www.ngui.cc/images/no-images.jpg)
ZooKeeper 选举的过半机制防止脑裂
结论: Zookeeper采用过半选举机制,防止了脑裂。 原因: 如果有5台节点,leader联系不上了,其他4个节点由于超过半数,所以又选出了一个leader,当失联的leader恢复网络时,发现集群中已…...
![](https://img-blog.csdnimg.cn/0ebc1aa477b94e338268b260ddb7ed21.png)
【图论】树上差分(边差分)
一.简介 其实点差分和边差分区别不大。 点差分中,d数组存储的是树上的节点 边差分中,d数组存储的是当前节点到父节点的那条边的差分值。 指定注意的是:边差分中因为根连的父节点是虚点,所以遍历结果时应当忽略! 二…...
![](https://img-blog.csdnimg.cn/5238b55c6d344464a3f0c9fa195bc3f4.png)
RT1052的定时器
文章目录 1 通用定时器1.1 定时器框图1.2 实现周期性中断 2 相关寄存器3 定时器配置3.1 时钟使能3.2 初始化GPT1定时器3.2.1 base3.2.2 initConfig3.2.2.1 clockSorce3.2.2.2 divider3.2.2.3 enablexxxxx 3.3 设置 GPT1 比较值3.3.1 base3.3.2 channel3.3.3 value 3.4 设置 GPT…...
![](https://img-blog.csdnimg.cn/d74e04607cc247f88fb24811be85512b.png)
opencv python 训练自己的分类器
源码下载 一、分类器制作 1.样本准备 收集好你所需的正样本,和负样本,分别保存在不同文件夹 在pycharm新建项目,项目结构如下:has_mask文件夹放置正样本,no_mask文件夹放置负样本 安装opencv,把opencv包…...
![](https://img-blog.csdnimg.cn/73205cdc3d824c32a0f85aed5e471382.png)
详解Mybatis之分页插件【PageHelper】
编译软件:IntelliJ IDEA 2019.2.4 x64 操作系统:win10 x64 位 家庭版 Maven版本:apache-maven-3.6.3 Mybatis版本:3.5.6 文章目录 一. 什么是分页?二. 为什么使用分页?三. 如何设计一个Page类(分…...
![](https://img-blog.csdnimg.cn/35714a317ad449e5be72f38ece1c81db.png)
【基于矢量射线的衍射积分 (VRBDI)】基于矢量射线的衍射积分 (VRBDI) 和仿真工具(Matlab代码实现)
💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...
![](https://www.ngui.cc/images/no-images.jpg)
基于jackson对bean的序列号和反序列化
通过观察控制台输出的SQL发现页面传递过来的员工id的值和数据库中的id值不一致,这是怎么回事呢? 分页查询时服务端响应给页面的数据中id的值为19位数字,类型为long 页面中js处理long型数字只能精确到前16位,所以最终通过ajax请求提交给服务…...
![](https://img-blog.csdnimg.cn/ff7fcc9174bc474586c9cfd714eb8a43.png#pic_center)
排队理论简介
排队理论简介 1. 理论背景2. 研究的数学方法3. 拒绝型排队系统与等候型排队系统4. 拒绝型排队系统 本文参考文献为Вентцель Е. С.的《Исследование операций》。 1. 理论背景 排队理论又称大众服务理论,顾名思义指的是在有限的服务条…...
![](https://www.ngui.cc/images/no-images.jpg)
极速查找(3)-算法分析
篇前小言 本篇文章是对查找(2)的续讲二叉排序树 二叉排序树(Binary Search Tree,BST),又称为二叉查找树,是一种特殊的二叉树。性质: 左子树的节点值小于根节点的值,右…...
![](https://www.ngui.cc/images/no-images.jpg)
http 常见的响应状态码 ?
100——客户必须继续发出请求101——客户要求服务器根据请求转换HTTP协议版本200——交易成功201——提示知道新文件的URL202——接受和处理、但处理未完成203——返回信息不确定或不完整204——请求收到,但返回信息为空205——服务器完成了请求,用户代理…...
![](/images/no-images.jpg)
顺企网企业查询/西安seo服务外包
题目描述 G 公司有 \(n\) 个沿铁路运输线环形排列的仓库,每个仓库存储的货物数量不等。如何用最少搬运量可以使 \(n\) 个仓库的库存数量相同。搬运货物时,只能在相邻的仓库之间搬运。 输入格式 文件的第 \(1\) 行中有 \(1\) 个正整数 \(n\) ,…...
![](/images/no-images.jpg)
成都大丰网站建设例表网/青岛seo搜索优化
因为我的笔记本式HASEE的(因为没钱。。),安不了Fedora Core 和 Ubuntu ,所以我打算自己编个内核然后给他们加上支持驱动。不知道行不行,但现在第一步就是先做个LiveCD玩玩。 准备了linux kernel,必须的吧~&…...
![](https://img-blog.csdnimg.cn/img_convert/2c1eef95c1845551960d64b890f70b6b.png)
企业网站制作模板免费下载/网站制作策划书
1.基本参数的设置1)按“MENU”键,控制盘显示屏出现“-99-”字样。2)按“ENTER”键,控制盘显示屏出现“-9902-”字样。再按“ENTER”键,显示屏显示SET、LWD闪烁,同时显示控制参数控9902的数值,反复按“UP/DO…...
![](/images/no-images.jpg)
用wgert 做网站/搜狗收录提交
jQuery Mobile 是针对触屏智能手机与平板电脑的网页开发框架。 移动端兼容性好,但是pc端兼容较差。 <head> <!-- meta使用viewport以确保页面可自由缩放 --> <meta name"viewport" content"widthdevice-width, initial-scale1&quo…...
![](https://img-blog.csdnimg.cn/20200909095730736.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0phY2tpZURZSA==,size_16,color_FFFFFF,t_70)
常州网站建设选思创/微信平台推广方法
借助一个html标签object,来嵌入一个swf媒体播放文件,并利用该文件来播放你预设的文件。下载链接 利用B站开源的flv.js 通过将FLV文件流转换为ISO BMFF(Fragmented MP4)段,然后<video>通过Media Source Extensions API 将mp4…...
![](https://img-blog.csdnimg.cn/4288b5d598df400b93e255637d855fb9.png)
asp网站制作设计教程/广告素材
需求:y轴刻度 最大值取接口返回的 最大值数据 方法一: data() {return {yAxisMaxNum: 49};},initChart() {// 创建 echarts 实例。this.myChartOne this.$echarts.init(this.$refs.Echart);let maxNum this.yAxisMaxNumvar option {tooltip: {trigger…...