当前位置: 首页 > news >正文

【SCAU数据挖掘】数据挖掘期末总复习题库选择题及解析

1.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )
A.频繁模式挖掘      B.分类和预测    C.数据预处理      D.数据流挖掘

解析:数据预处理是数据分析和数据挖掘的重要步骤之一,包括数据清洗、集成、变换、规约(如维度规约、数值规约)等。这些步骤的目的是为了改善数据质量,使其更适合于后续的分析和挖掘任务。
频繁模式挖掘:这是数据挖掘中的一种技术,用于发现数据集中频繁出现的模式或项集。
分类和预测:这是数据挖掘的目标之一,分类是对数据进行分类,预测是预测未来的值或趋势
数据流挖掘:这是处理连续到达的数据流(如实时数据)的挖掘技术。

2.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )。
A.层次聚类         B.划分聚类         C.非互斥聚类         D.模糊聚类

解析:划分聚类是将数据集划分为K个(K是给定的)不重叠的子集(或称为簇),每个数据点都属于且仅属于一个簇
层次聚类:这是一种聚类方法,创建了一个层次化的聚类树,其中每个簇都是树中的一个节点。
非互斥聚类:这不是一个标准的聚类类型术语。在聚类中,数据点通常被分配到唯一的簇中,因此它们是“互斥”的。但有一些聚类方法(如模糊聚类)允许数据点以某种程度属于多个簇,但这与“非互斥”的定义不完全一致。
模糊聚类:这是一种聚类方法,其中每个数据点可以以不同的隶属度属于多个簇


3.下表是一个购物篮,假设支持度阈值为40%,其中( AD )是频繁闭项集
TID    项
1    abc
2    abcd
3    bce
4    acde
5    de

A.abc  B. ad  C.cd  D.de

解析:在关联规则挖掘中,频繁项集是指满足最小支持度阈值的项集。支持度是指项集在所有事务中出现的频率。给定支持度阈值为40%,即至少需要在40%的事务中出现才被认为是频繁的
计算每个项集的支持度,找出频繁项集(即支持度大于或等于40%的项集):

最后,频繁闭项集是那些没有超集的频繁项集。我们可以看到,de 没有更大的项集(如ade或bde)是频繁的,因此de是频繁闭项集。

频繁闭项集是一个频繁项集,且它的所有超集都不是频繁的。

  • abc 的超集 abcd 和 abce 都不是频繁的(因为支持度低于40%),所以 abc 是频繁闭项集。
  • ad 的超集 ade 是频繁的(支持度为 80%),所以 ad 不是频繁闭项集。
  • cd 的超集 cde 是频繁的(支持度为 60%),所以 cd 不是频繁闭项集。
  • de 本身就是一个项集,没有超集,且是频繁的,但没有任何超集。

4.Nave Bayes是一种特殊的贝叶斯分类器,特征变量是X,类别标签是C,它的一个假定是:(C  )。
A.各类别的先验概率P(C)是相等的
B.以0为均值,sqr(2)/2为标准差的正态分布
C.特征变量X的各个维度是类别条件独立随机变量
D.P(X|C)是高斯分布

解析:Nave Bayes分类器基于一个关键假设:特征变量(给定类别下)是类别条件独立的随机变量。这意味着,在给定类别的条件下,一个特征的出现概率不会受到其他特征的影响。

Nave Bayes(朴素贝叶斯)分类器是一种特殊的贝叶斯分类器,其中特征变量是X,类别标签是C。
A选项朴素贝叶斯并不要求各类别的先验概率相等
B选项以0为均值,sqr(2)/2为标准差的正态分布。描述了一个特定的正态分布,但并不是朴素贝叶斯分类器的基本假定。朴素贝叶斯分类器可以处理各种分布的数据,而不仅限于正态分布
C. 特征变量X的各个维度是类别条件独立随机变量,这是朴素贝叶斯分类器的核心假定。它假设在给定类别C的条件下,特征变量X的各个维度(即各个特征)是相互独立的。这意味着一个特征的出现概率不会受到其他特征的影响,从而简化了模型的计算。
D选项,朴素贝叶斯可以处理不同类型的特征分布,包括但不限于高斯分布
 

5.某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这属于数据挖掘的哪类问题?( A )
A.关联规则发现 B.聚类 C.分类 D.自然语言处理

解析:买啤酒的人很大概率也会购买尿布是一个典型的关联规则发现问题。关联规则挖掘用于发现数据集中项之间的有趣关系,如“如果购买了A,那么很可能也会购买B”。在这个例子中,A是啤酒,B是尿布。

6.()是一个观测值,它与其他观测值的差别很大,以至于怀疑它是由不同的机制产生的。
A.边界点 B.离群点 C.核心点 D.质心

解析:离群点(Outlier)是一个观测值,它与其他观测值存在显著的差异,以至于怀疑它可能是由不同的机制产生的。

边界点:边界点指的是位于不同聚类边缘或边界上的数据,不属于任何特定的聚类中心,而是位于两个或多个聚类之间的区域,它们只是位于聚类的边缘。
核心点:核心点指的是聚类内部的点,即距离聚类中心较近的点,往往代表了聚类的主要特征和结构,核心点不受到离群点的影响,因为它们位于聚类的中心区域。
质心:质心通常用于描述一个集合(如聚类)的中心或重心。在聚类分析中,质心可以是一个点(如平均值点),用于表示聚类中所有点的中心位置。质心在迭代聚类算法(如K-means算法)中起着重要作用,因为它可以帮助确定新的聚类中心位置。然而,质心本身并不是一个观测值,而是由观测值计算得出的一个统计量


7.影响聚类算法效果的主要原因有(ABC)。
A.特征选取         B.模式相似性测度
C.分类准则         D.已知类别的样本质量

解析:聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。

特征选取的差异会影响聚类效果(A正确)。

聚类的目标是使同一类对象的相似度尽可能地大,因此不同的相似度测度方法对聚类结果有着重要影响(B正确)。

由于聚类算法是无监督方法,不存在带类别标签的样本,因此,D选项不是聚类算法的输入数据。

8.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本有10万条数据,负样本只有1万条数据,以下最合适的处理方法是( ACD)。
A.将负样本重复10次,生成10万样本量,打乱顺序参与分类
B.直接进行分类,可以最大限度地利用数据
C.从10万正样本中随机抽取1万参与分类
D.将负样本每个权重设置为10,正样本权重为1,参与训练过程

解析:在正负样本数据量不等的情况下,通常采取的措施是调整样本的权重,而不是简单地重复样本或随机抽取样本。D选项中将负样本的权重设置为10,正样本的权重设置为1,是一种常用的做法,以平衡正负样本对分类器训练的影响

A.重采样,改变数据分布消除不平衡

C欠采样, 提高少数类的分类性能,可能丢失多数类的重要信息

9.在

相关文章:

【SCAU数据挖掘】数据挖掘期末总复习题库选择题及解析

1.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C ) A.频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 解析:数据预处理是数据分析和数据挖掘的重要步骤之一,包括数据清洗、集成、变换、规约(如维度规约、数值规约)等。这…...

顶顶通呼叫中心中间件-限制最大通话时间(mod_cti基于FreeSWITCH)

顶顶通呼叫中心中间件-限制最大通话时间(mod_cti基于FreeSWITCH) 一、最大通话时间 1、配置拨号方案 1、点击拨号方案 ->2、在框中输入通话最大时长->3、点击添加->4、根据图中配置->5、勾选continue。修改拨号方案需要等待一分钟即可生效 action"sched…...

深度学习:使用argparse 模块

在深度学习中,结合 Bash 脚本和 argparse 模块,可以实现高效的任务自动化和参数管理。Bash 脚本可以用来调度任务和管理环境,而 argparse 模块可以用来解析命令行参数,控制深度学习模型的训练和评估过程。 1.argparse 模块 argp…...

unity text根据文本内容自动设置高度

我们经常会遇到需要根据文字数量动态修改文本框高度的需求,我们可以使用文本的行数*每行的高度来计算文本框的高度,伪代码如下: int oneLineHight 50;// 每行的像素高度 private void ResetTextHight(string str) {//设置文字内容ShowText.…...

ARM 汇编 C语言 for循环

在使用 Keil 编译基于 STM32F103 的 C 语言程序时,生成的汇编代码会有一些不同。STM32F103 是基于 ARM Cortex-M3 内核的微控制器,因为汇编语言是 ARM 汇编,而不是 x86 汇编。 示例 C 代码 假设我们有如下的简单 C 语言 for 循环代码&#x…...

java:【@ComponentScan】和【@SpringBootApplication】扫包范围的冲突

# 代码结构如下&#xff1a; 注意【com.chz.myBean.branch】和【com.chz.myBean.main】这两个包是没有生重叠的。 主程序【MyBeanTest1、MyBeanTest2、MyBeanTest3】这两个类是在包【com.chz.myBean.main】下 # 示例代码 【pom.xml】 <dependency><groupId>org.…...

本学期嵌入式期末考试的综合项目,我是这么出题的

时间过得真快&#xff0c;临近期末&#xff0c;又到了老师出卷的时候。作为《嵌入式开发及应用》这门课的主讲教师&#xff0c;今年给学生出的题目有一点点难度&#xff0c;最后的综合项目要求如下所示&#xff0c;各位学生朋友和教师同行可以评论一下难度如何&#xff0c;单片…...

CSS概述

CSS是一种样式表语言&#xff0c;用于为HTML文档控制外观&#xff0c;定义布局。例如&#xff0c; CSS涉及字体、颜色、边距、高度、宽度、背景图像、高级定位等方面 。 ● 可将页面的内容与表现形式分离&#xff0c;页面内容存放在HTML文档中&#xff0c;而用 于定义表现形式…...

Tensorflow-GPU工具包了解和详细安装方法

目录 基础知识信息了解 显卡算力 CUDA兼容 Tensorflow gpu安装 CUDA/cuDNN匹配和下载 查看Conda driver的版本 下载CUDA工具包 查看对应cuDNN版本 下载cuDNN加速库 CUDA/cuDNN安装 CUDA安装方法 cuDNN加速库安装 配置CUDA/cuDNN环境变量 配置环境变量 核验是否安…...

【python】OpenCV GUI——Trackbar(14.2)

学习来自 OpenCV基础&#xff08;12&#xff09;OpenCV GUI中的鼠标和滑动条 文章目录 GUI 滑条介绍cv2.createTrackbar 介绍牛刀小试 GUI 滑条介绍 GUI滑动条是一种直观且快速的调节控件&#xff0c;主要用于改变一个数值或相对值。以下是关于GUI滑动条的详细介绍&#xff1a…...

Qt自定义日志输出

Qt自定义日志输出 简略版&#xff1a; #include <QApplication> #include <QDebug> #include <QDateTime> #include <QFileInfo> // 将日志类型转换为字符串 QString typeToString(QtMsgType type) {switch (type) {case QtDebugMsg: return "D…...

[C++] vector list 等容器的迭代器失效问题

标题&#xff1a;[C] 容器的迭代器失效问题 水墨不写bug 正文开始&#xff1a; 什么是迭代器&#xff1f; 迭代器是STL提供的六大组件之一&#xff0c;它允许我们访问容器&#xff08;如vector、list、set等&#xff09;中的元素&#xff0c;同时提供一个遍历容器的方法。然而…...

Java——变量作用域和生命周期

一、作用域 1、作用域简介 在Java中&#xff0c;作用域&#xff08;Scope&#xff09;指的是变量、方法和类在代码中的可见性和生命周期。理解作用域有助于编写更清晰、更高效的代码。 2、作用域 块作用域&#xff08;Block Scope&#xff09;&#xff1a; 块作用域是指在…...

WPF界面设计

1、使用C#-WPF实现抽屉效果-炫酷漂亮的侧边栏导航菜单-SplitViewMD主题重绘原生控件的美观效果-提供源码Demo下载 码源地址&#xff1a;https://download.csdn.net/download/Prince999999/89424685 2、使用C#-WPF实现抽屉效果-菜单导航功能实现&#xff0c;常规的管理系统应该…...

【C#】使用JavaScriptSerializer序列化对象

在C#开发语言编程中&#xff0c;通常使用系统内置的JavaScriptSerializer类来序列化对象&#xff0c;以便将其转换为JSON格式的文本存储与后台服务通信, 在这里将为大家详细介绍一下这个过程。 文章目录 反序列化序列化忽略属性 假设处理的数据中有一个对象类, 如下 public cl…...

HTML静态网页成品作业(HTML+CSS)—— 明星吴磊介绍网页(5个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;未使用Javacsript代码&#xff0c;共有5个页面。 二、作品演示 三、代…...

EasyRecovery2024数据恢复神器#电脑必备良品

EasyRecovery数据恢复软件&#xff0c;让你的数据重见天日&#xff01; 大家好&#xff01;今天我要给大家种草一个非常实用的软件——EasyRecovery数据恢复软件&#xff01;你是不是也曾经遇到过不小心删除了重要的文件&#xff0c;或者电脑突然崩溃导致数据丢失的尴尬情况呢&…...

前端HTML相关知识

1.什么是HTML HTML 指的是超文本标记语言 ( HyperText Markup Language )。 超文本:是指页面内可以包含图片、链接、声音,视频等内容 标记:标签(通过标记符号来告诉浏览器网页内容该如何显示) 浏览器根据不同的HTML标签&#xff0c;解析成我们看到的网页 2.HTML的特点 HTML不…...

集合面试题

目录 ①HashMap的理解&#xff1f;以及为什么要把链表转换为红黑树&#xff1f;②HashMap的put&#xff1f;③HashMap的扩容&#xff1f;④加载因子为什么是0.75&#xff1f;⑤modcount的作用&#xff1f;⑥HashMap与HashTable的区别&#xff1f;⑥HashMap中1.7和1.8的区别&am…...

集成学习概述

概述 集成学习(Ensemble learning)就是将多个机器学习模型组合起来&#xff0c;共同工作以达到优化算法的目的。具体来讲&#xff0c;集成学习可以通过多个学习器相结合&#xff0c;来获得比单一学习器更优越的泛化性能。集成学习的一般步骤为&#xff1a;1.生产一组“个体学习…...

Chapter03-Authentication vulnerabilities

文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...

Java 语言特性(面试系列2)

一、SQL 基础 1. 复杂查询 &#xff08;1&#xff09;连接查询&#xff08;JOIN&#xff09; 内连接&#xff08;INNER JOIN&#xff09;&#xff1a;返回两表匹配的记录。 SELECT e.name, d.dept_name FROM employees e INNER JOIN departments d ON e.dept_id d.dept_id; 左…...

【Python】 -- 趣味代码 - 小恐龙游戏

文章目录 文章目录 00 小恐龙游戏程序设计框架代码结构和功能游戏流程总结01 小恐龙游戏程序设计02 百度网盘地址00 小恐龙游戏程序设计框架 这段代码是一个基于 Pygame 的简易跑酷游戏的完整实现,玩家控制一个角色(龙)躲避障碍物(仙人掌和乌鸦)。以下是代码的详细介绍:…...

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务 中文乱码问题&#xff1a; 下面创建一个简单的Flask RESTful API示例。首先&#xff0c;我们需要创建环境&#xff0c;安装必要的依赖&#xff0c;然后…...

Spark 之 入门讲解详细版(1)

1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室&#xff08;Algorithms, Machines, and People Lab&#xff09;开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目&#xff0c;8个月后成为Apache顶级项目&#xff0c;速度之快足见过人之处&…...

java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别

UnsatisfiedLinkError 在对接硬件设备中&#xff0c;我们会遇到使用 java 调用 dll文件 的情况&#xff0c;此时大概率出现UnsatisfiedLinkError链接错误&#xff0c;原因可能有如下几种 类名错误包名错误方法名参数错误使用 JNI 协议调用&#xff0c;结果 dll 未实现 JNI 协…...

学校招生小程序源码介绍

基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码&#xff0c;专为学校招生场景量身打造&#xff0c;功能实用且操作便捷。 从技术架构来看&#xff0c;ThinkPHP提供稳定可靠的后台服务&#xff0c;FastAdmin加速开发流程&#xff0c;UniApp则保障小程序在多端有良好的兼…...

MySQL用户和授权

开放MySQL白名单 可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务&#xff1a; test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...

初学 pytest 记录

安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...

Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信

文章目录 Linux C语言网络编程详细入门教程&#xff1a;如何一步步实现TCP服务端与客户端通信前言一、网络通信基础概念二、服务端与客户端的完整流程图解三、每一步的详细讲解和代码示例1. 创建Socket&#xff08;服务端和客户端都要&#xff09;2. 绑定本地地址和端口&#x…...