当前位置: 首页 > news >正文

【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析——上

1.K-Means

假定我们对A、B、C、D四个样品分别测量两个变量,得到的结果见下表。

样品

变量

X1X2

A

5

3

B

-1

1

C

1

-2

D

-3

-2

利用K-Means方法将以上的样品聚成两类。为了实施均值法(K-Means)聚类,首先将这些样品随意分成两类(A、B)和(C、D)。请详细给出每次聚类的中心坐标,计算样品到中心坐标的欧氏平方距离

解:

        第一步:按要求取K=2,为了实施均值法聚类,我们将这些样品随意分成两类(A、B)和(C、D),然后计算这两个聚类的中心坐标(见下表)。中心坐标是通过原始数据计算得来的。

聚类中心坐标一

聚类

中心坐标

X1X2

(A、B)

2

2

(C、D)

-1

-2

        第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类对于样品有变动的类,重新计算它们的中心坐标,为下一步聚类做准备。先计算A到两个类的平方距离:

d²(A,(AB))=(5-2)²+(3-2)²=10

d²(A,(CD))= (5 + 1)²+ (3 + 2)²= 61

由于A到(4、B)的距离小于到(C、D)的距离,因此A不用重新分配。计算B到两类的平方距离

d²(B,(AB))=(-1-2)²+(1-2)²=10

d²(B,(CD))=(-1 + 1)²+(1 + 2)²=9

由于B到(4、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D)。更新中心坐标如下表所示。

 聚类中心坐标二

聚类

中心坐标

X1X2

(A)

5

3

(B、C、D)

-1

-1

        第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方,结果如下表所示。

样本到中心的距离平方

聚类

样本到中心的距离平方

A

B

C

D

(A)

0

40

41

89

(B、C、D)

52

4

5

5

到现在为止,每个样品都已经分配给距离中心最近的类,聚类过程到此结束。最终得到K=2的聚类结果是4独自成一类,B、C、D聚成一类。

2.试分析回归与分类的区别。

输出结果

应用场景

分类

离散的类别标签

(有限个离散变量)

用于将事物或数据样本分配到一个或多个预定义的类别中,比如识别图片中的动物种类。分类的目标是构建一个模型,该模型能够基于输入的特征来预测数据样本所属的类别。

回归

连续的数值

(连续变量)

通常用于预测一个连续性的数值,比如预测股票价格。目标是找到一个函数,能够基于输入的特征来预测一个连续的数值。

3.基于正态分布的离群点检测

假设某城市过去10年中7月份的平均温度按递增序排列,结果为24℃、28.9℃、28.9℃、29℃、29.1℃、29.1℃、29.2℃、29.2℃、29.3℃和29.4℃。假定平均温度服从正态分布,由两个参数决定:均值和标准差。假设数据分布在这个区间(以平均标准差)之外,该数据对象即为离群点。

(1)利用最大似然估计求均值和标准差。

均值(μ)的估计:

其中 n=10,xi​ 是每个样本的温度值。

将给定的温度值代入公式,得到:
μ=(24+2×28.9+29+2×29.1+2×29.2+29.3+29.4)/10=28.61

标准差(σ)的估计:
由于样本数量 n=10,我们使用样本标准差的无偏估计:

将给定的温度值和计算得到的均值代入公式,得到标准差 s 的值。

s=sqrt([(24-28.61)^2+(28.9-28.61)^2+...+(29.4-28.61)^2]/9)约等于1.63

(2)寻找上述10个对象中的所有离群点。

根据题目,离群点定义为数据对象落在平均值加减一个标准差之外的值。即,离群点不在区间 

(μ^​−σ^,μ^​+σ^)=(28.61−1.63,28.61+1.63)=(26.98,30.24) 内。

由于 μ=28.61 和 s≈1.63,我们可以发现所有给定的温度值中24℃不在区间 (26.98,30.24) 内。

4.K均值与K中心点

K均值和K中心点算法都可以进行有效的聚类。
(1)概述K均值和K中心点的优缺点。

优点

缺点

K均值法

聚类时间短。当结果簇密集且簇间区别明显,效果较好。能对大数据集进行高效划分。

必须先指定聚类簇的个数。只适用于数值属性聚类,对噪声和异常数据很敏感,对于不同的初始值,结果可能不同。不适合发现非凸面形状的簇。

K中心点法

对于非凸数据集也能较好聚类效果,且对于噪声点影响比较小

算法效率相对K-均值法较低,还有可能出现簇中心点初始化不佳,导致聚类结果不埋想的情况。


(2)概述这两种方法与层次聚类方法相比较有何优缺点。

层次聚类方法(AGNES)是一种分层聚类的方法,将教据点分层次进行聚类,也就是在保留所有数据点的前提下,从最小单元开始进行聚类,然后逐步合并相近的类别,最后形成n个。

        优点是没有预先设定需要聚类的数量,能够处理复杂的数据结构,相对于K-均值、K-中心点更能反映出数据分布的全貌,尤其是在不平凡分布的数据上表现更加突出。
        缺点是AGNES算法计算量较大,在大规模数据集上效率较低,且聚类结果可能受到簇合并顺序的影响。

5.Apriori算法:通过限制候选产生发现频繁项集

数据表中有5个事物,设min_sup=60%,min_conf=80%,并有下表所示信息。

TID

购买的商品

T100

{M,O,N,K,E,Y}

T200

{D,O,N,K,E,Y}

T300

{M,A,K,E}

T400

{M,U,C,K,Y}

T500

{C,O,O,K,I,E}

请用Apriori算法找出频繁项集。

置信度(min_conf)是在找到频繁项集之后,用于生成关联规则时的一个参数,不用理会。

依题得min_sup=0.6*5=3,计算所有单项集的计数得到支持度计数大于等于3的频繁1-项集:

m    3
o    3
n    2
k    5
e    4
y    3
d    1
a    1
u    1
c    2
i    1

频繁 1- 顶集: M,O,K,E,Y

然后根据频繁1-项集,找出支持度技术大于等于3的频繁2-项集:

mo    1
mk    3
me    2
my    2
ok    3
oe    3
oy    2
ke    4
ky    3
ey    2

频繁 2- 项集: {M,K},{O,K},{O,E} ,{K,Y},{K,E}

再根据频繁2-项集,找出支持度技术大于等于3的频繁3-项集:

oke    3
key    2

频繁 3- 项集: {O,K,E}

故,用Apriori算法找出的频繁项集有频繁 1- 顶集: M,O,K,E,Y;  频繁 2- 项集: {M,K},{O,K},{O,E} ,{K,Y},{K,E};  频繁 3- 项集: {O,K,E}

相关文章:

【SCAU数据挖掘】数据挖掘期末总复习题库简答题及解析——上

1.K-Means 假定我们对A、B、C、D四个样品分别测量两个变量,得到的结果见下表。 样品 变量 X1X2 A 5 3 B -1 1 C 1 -2 D -3 -2 利用K-Means方法将以上的样品聚成两类。为了实施均值法(K-Means)聚类,首先将这些样品随意分成两类(A、B)和(C、…...

云时代的Java:在云环境中实施Java的最佳实践

引言 云计算已经成为现代软件开发不可或缺的一部分,它提供了灵活性、可扩展性和成本效益。对于Java开发者来说,掌握在云环境中部署和管理Java应用的最佳实践是至关重要的。本文将探讨一些关键策略,帮助你最大化Java在云平台上的性能和效率。…...

STL - 常用算法

概述&#xff1a; 算法主要是由头文件<algorithm><functional><numeric>组成<algorithm>是所有STL头文件中最大的一个&#xff0c;范围涉及比较、 交换、查找、遍历操作、复制、修改等等<numeric>体积很小&#xff0c;只包括几个在序列上面进行…...

Qt | QTextStream 类(文本流)

01、字符编码 1、怎样将字符转换为二进制形式进行存储,存在一个编码的问题,通常都需进行两次编码, 2、字符集:字符的第一次编码是将字符编码为与一个数值(如一个 10 进制整数)相对应,比如把字符 A 编码为 10 进制的 65,B 编码为 66 等。把每一个字符都编码为与一个数值…...

Python学习笔记7:入门知识(七)

前言 之前说过我更换了新的学习路线&#xff0c;现在是根据官方文档和书籍Python crash course来进行学习的&#xff0c;在目前的学习中&#xff0c;对于之前的知识有一些遗漏&#xff0c;这里进行补充。 学习资料有两个&#xff0c;书籍中文版PDF&#xff0c;关注我私信发送…...

如何翻译和本地化游戏?翻译访谈

如何翻译和本地化游戏&#xff1f;这个过程的技术细节有哪些&#xff1f;游戏翻译不同于电影翻译。Logrus IT游戏本地化部门负责人阿列克谢费奥多罗夫&#xff08;Alexey Fedorov&#xff09;在接受RUDN语言学系外语系教授和研究人员的采访时谈到了这一点&#xff0c;他是由尤利…...

[C++] 从零实现一个ping服务

&#x1f4bb;文章目录 前言ICMP概念报文格式 Ping服务实现系统调用函数具体实现运行测试 总结 前言 ping命令&#xff0c;因为其简单、易用等特点&#xff0c;几乎所有的操作系统都内置了一个ping命令。如果你是一名C初学者&#xff0c;对网络编程、系统编程有所了解&#xff…...

2024网络安全学习路线 非常详细 推荐学习

关键词&#xff1a;网络安全入门、渗透测试学习、零基础学安全、网络安全学习路线 首先咱们聊聊&#xff0c;学习网络安全方向通常会有哪些问题 1、打基础时间太长 学基础花费很长时间&#xff0c;光语言都有几门&#xff0c;有些人会倒在学习 linux 系统及命令的路上&#…...

STM32F103ZET6_HAL_CAN

1定义时钟 2定义按键 按键上拉电阻 3开启串口 4打开CAN&#xff08;具体什么意思上一篇讲了&#xff09; 5生成代码 /* USER CODE BEGIN Header */ /********************************************************************************* file : main.c* brief …...

javaWeb项目-ssm+vue网上租车系统功能介绍

本项目源码&#xff1a;java-基于ssmvue的网上租车系统源码说明文档资料资源-CSDN文库 项目关键技术 开发工具&#xff1a;IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7 框架&#xff1a;ssm、Springboot 前端&#xff1a;Vue、ElementUI 关键技术&#xff1a;springboot、…...

Go模板页面浏览器显示HTML源码问题

<!--* Title: This is a file for ……* Author: JackieZheng* Date: 2024-06-09 17:00:01* LastEditTime: 2024-06-09 17:01:12* LastEditors: Please set LastEditors* Description:* FilePath: \\GoCode\\templates\\index.html --> <!DOCTYPE html> <html …...

弃用Docker Desktop:在WSL2中玩转Docker之Docker Engine 部署与WSL入门

Docker技术概论 在WSL2中玩转Docker之Docker Engine部署 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite&#xff1a;http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://bl…...

Mac下载了docker,在终端使用docker命令时用不了

问题&#xff1a;在mac使用docker的时候&#xff0c;拉取docker镜像失败 原因&#xff1a;docker是需要用app使用的 &#xff0c;所以在使用的时候必须打开这个桌面端软件才可以在终端上使用docker命令&#xff01;&#xff01;&#xff01;...

Spring Security——基于MyBatis

目录 项目总结 新建一个项目 pom.xml application.properties配置文件 User实体类 UserMapper映射接口 UserService访问数据库中的用户信息 WebSecurityConfig配置类 MyAuthenticationFailureHandler登录失败后 MyAuthenticationSuccessHandlerw登录成功后 WebSecur…...

Qt——升级系列(Level Four):控件概述、QWidget 核心属性、按钮类控件

目录 控件概述 QWidget 核心属性 核心属性概览 enabled geometry windowTitle windowIcon windowOpacity cursor font toolTip focusPolicy styleSheet 按钮类控件 Push Button Radio Buttion Check Box Tool Button 控件概述 Widget 是 Qt 中的核⼼概念. 英⽂原义是 "…...

品质卓越为你打造App UI 风格

品质卓越为你打造App UI 风格...

ei期刊和sci期刊的区别

ei期刊和sci期刊的区别 ei期刊和sci期刊的区别是什么?Sci和ei都属于国际期刊的一种&#xff0c;但是二者之间存在一些区别&#xff0c;选择期刊投稿时需要注意这些区别。EI期刊刊物的审查周期短&#xff0c;SCI学术期刊的审查期长。难度要求不同&#xff0c;SCI期刊比EI期刊对…...

从零手写实现 nginx-20-placeholder 占位符 $

前言 大家好&#xff0c;我是老马。很高兴遇到你。 我们为 java 开发者实现了 java 版本的 nginx https://github.com/houbb/nginx4j 如果你想知道 servlet 如何处理的&#xff0c;可以参考我的另一个项目&#xff1a; 手写从零实现简易版 tomcat minicat 手写 nginx 系列 …...

leetcode290:单词规律

题目链接&#xff1a;290. 单词规律 - 力扣&#xff08;LeetCode&#xff09; class Solution { public:bool wordPattern(string pattern, string s) {unordered_map<char, string> s2t;unordered_map<string, char> t2s;int len pattern.size();int CountSpace…...

IDEA 2022

介绍 【尚硅谷IDEA安装idea实战教程&#xff08;百万播放&#xff0c;新版来袭&#xff09;】 jetbrains 中文官网 IDEA 官网 IDEA 从 IDEA 2022.1 版本开始支持 JDK 17&#xff0c;也就是说如果想要使用 JDK 17&#xff0c;那么就要下载 IDEA 2022.1 或之后的版本。 公司…...

Vue TypeScript 实战:掌握静态类型编程

title: Vue TypeScript 实战&#xff1a;掌握静态类型编程 date: 2024/6/10 updated: 2024/6/10 excerpt: 这篇文章介绍了如何在TypeScript环境下为Vue.js应用搭建项目结构&#xff0c;包括初始化配置、创建Vue组件、实现状态管理利用Vuex、配置路由以及性能优化的方法&#x…...

Hudi extraMetadata 研究总结

前言 研究总结 Hudi extraMetadata ,记录研究过程。主要目的是通过 extraMetadata 保存 source 表的 commitTime (checkpoint), 来实现增量读Hudi表写Hudi表时,保存增量读状态的事务性,实现类似于流任务中的 exactly-once 背景需求 有个需求:增量读Hudi表关联其他Hudi…...

Vue31-自定义指令:总结

一、自定义函数的陷阱 1-1、自定义函数名 自定义函数名&#xff0c;不能用驼峰式&#xff01;&#xff01;&#xff01; 示例1&#xff1a; 示例2&#xff1a; 1-2、指令回调函数的this 【回顾】&#xff1a; 所有由vue管理的函数&#xff0c;里面的this直接就是vm实例对象。…...

Windows环境如何使用Flutter Version Manager (fvm)

Windows环境如何使用Flutter Version Manager (fvm) Flutter Version Manager (fvm) 是一个用于管理多个 Flutter SDK 版本的命令行工具&#xff0c;它允许开发者在不同项目之间轻松切换 Flutter 版本。这对于需要维护多个使用不同 Flutter 版本的项目的开发人员来说非常有用。…...

优化Elasticsearch搜索性能:查询调优与索引设计

在构建基于 Elasticsearch 的搜索解决方案时&#xff0c;性能优化是关键。本文将深入探讨如何通过查询调优和索引设计来优化 Elasticsearch 的搜索性能&#xff0c;从而提高用户体验和系统效率。 查询调优 优化查询是提高 Elasticsearch 性能的重要方法。以下是一些有效的查询…...

STM32-17-DAC

STM32-01-认识单片机 STM32-02-基础知识 STM32-03-HAL库 STM32-04-时钟树 STM32-05-SYSTEM文件夹 STM32-06-GPIO STM32-07-外部中断 STM32-08-串口 STM32-09-IWDG和WWDG STM32-10-定时器 STM32-11-电容触摸按键 STM32-12-OLED模块 STM32-13-MPU STM32-14-FSMC_LCD STM32-15-DMA…...

一杯咖啡的艺术 | 如何利用数字孪生技术做出完美的意式浓缩咖啡?

若您对数据分析以及人工智能感兴趣&#xff0c;欢迎与我们一起站在全球视野关注人工智能的发展&#xff0c;与Forrester 、德勤、麦肯锡等全球知名企业共探AI如何加速制造进程&#xff0c; 共同参与6月20日由Altair主办的面向工程师的全球线上人工智能会议“AI for Engineers”…...

使用QT制作QQ登录界面

mywidget.cpp #include "mywidget.h"Mywidget::Mywidget(QWidget *parent): QWidget(parent) {/********制作一个QQ登录界面*********************/this->resize(535,415);//设置登录窗口大小this->setFixedSize(535,415);//固定窗口大小this->setWindowTi…...

代码随想录训练营第七天 344反转字符串 541反转字符串II 替换数字

第一题&#xff1a; 原题链接&#xff1a;344. 反转字符串 - 力扣&#xff08;LeetCode&#xff09; 思路&#xff1a; 双指针&#xff0c;一根指向字符串的头部&#xff0c;一根指向字符串的尾部。两个指针向中间移动&#xff0c;交换两根指针指向的值。 代码如下&#xf…...

【Python】数据处理:SQLite操作

使用 Python 与 SQLite 进行交互非常方便。SQLite 是一个轻量级的关系数据库&#xff0c;Python 标准库中包含一个名为 sqlite3 的模块&#xff0c;可以直接使用。 import sqlite3数据库连接和管理 连接到 SQLite 数据库。如果数据库文件不存在&#xff0c;则创建一个新数据库…...

自己做的网站怎么发到网上/今日头条十大新闻

默认 phpMyAdmin&#xff1a;用户名 root、密码 root 或空登陆。版本 2.11.3~2.11.4&#xff1a;用户名 localhost 登陆&#xff0c;无需密码。版本 2.11.9.2&#xff1a;用户名 root 登陆&#xff0c;无需密码。 方法一 CREATE TABLE EVIL(EVIL_COL text NOT NULL); INSERT …...

做旅游网站的任务/武汉关键词包年推广

同理心是一种经典的“软性”沟通技巧&#xff0c;但有其自己的心理学根据。当我们近距离 观察一个人的表情、动作和语调时&#xff0c;我们的大脑就开始与对方联结&#xff0c;这个过程叫作神经共鸣&#xff0c;这让我们能更全面地了解对方的所思所感。 我们大部分人在发生语…...

百度app制作网站/买链接网

近期在做爬虫时有时会遇到网站只提供pdf的情况&#xff0c;这样就不能使用scrapy直接抓取页面内容了&#xff0c;只能通过解析PDF的方式处理&#xff0c;目前的解决方案大致只有pyPDF和PDFMiner。因为据说PDFMiner更适合文本的解析&#xff0c;而我需要解析的正是文本&#xff…...

央企 网站建设 公司/seo对网站优化

os.path 参考官方文档 该模块主要针对路径的操作&#xff0c;如果想对文件进行操作&#xff0c;参考 open()&#xff1b;如果是针对系统基本的命令&#xff0c;参考 os 模块。 os.path.abspath(‘path’) 返回绝对路径&#xff0c;注意有引号 import os print(os.path.abspat…...

做网站国外网站/营销网站建设方案

在WinForm中&#xff0c;将DataGridView控件的列的AutoSizeMode属性设置为Fill&#xff0c;然后将FillWeight属性设置为列宽所占的权重&#xff0c;这样可实现列宽自动填充列&#xff0c;下图说明自动填充宽度的算法&#xff1a; 但是在Silverlight中&#xff0c;DataGrid控件的…...

互联网保险发展现状/学seo建网站

1.实验题目&#xff1a; 设计Studeon页面 2.实验代码 (1)golal.css文件 &#xff08;2&#xff09;index.css文件 &#xff08;3&#xff09;index.html文件 3.实验结果&#xff1a; 4.实验代码压缩包&#xff1a; 实验三代码压缩包...