当前位置: 首页 > news >正文

【SCAU数据挖掘】数据挖掘期末总复习题库选择题及解析

1.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )
A.频繁模式挖掘      B.分类和预测    C.数据预处理      D.数据流挖掘

解析:数据预处理是数据分析和数据挖掘的重要步骤之一,包括数据清洗、集成、变换、规约(如维度规约、数值规约)等。这些步骤的目的是为了改善数据质量,使其更适合于后续的分析和挖掘任务。
频繁模式挖掘:这是数据挖掘中的一种技术,用于发现数据集中频繁出现的模式或项集。
分类和预测:这是数据挖掘的目标之一,分类是对数据进行分类,预测是预测未来的值或趋势
数据流挖掘:这是处理连续到达的数据流(如实时数据)的挖掘技术。

2.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )。
A.层次聚类         B.划分聚类         C.非互斥聚类         D.模糊聚类

解析:划分聚类是将数据集划分为K个(K是给定的)不重叠的子集(或称为簇),每个数据点都属于且仅属于一个簇
层次聚类:这是一种聚类方法,创建了一个层次化的聚类树,其中每个簇都是树中的一个节点。
非互斥聚类:这不是一个标准的聚类类型术语。在聚类中,数据点通常被分配到唯一的簇中,因此它们是“互斥”的。但有一些聚类方法(如模糊聚类)允许数据点以某种程度属于多个簇,但这与“非互斥”的定义不完全一致。
模糊聚类:这是一种聚类方法,其中每个数据点可以以不同的隶属度属于多个簇


3.下表是一个购物篮,假设支持度阈值为40%,其中( AD )是频繁闭项集
TID    项
1    abc
2    abcd
3    bce
4    acde
5    de

A.abc  B. ad  C.cd  D.de

解析:在关联规则挖掘中,频繁项集是指满足最小支持度阈值的项集。支持度是指项集在所有事务中出现的频率。给定支持度阈值为40%,即至少需要在40%的事务中出现才被认为是频繁的
计算每个项集的支持度,找出频繁项集(即支持度大于或等于40%的项集):

最后,频繁闭项集是那些没有超集的频繁项集。我们可以看到,de 没有更大的项集(如ade或bde)是频繁的,因此de是频繁闭项集。

频繁闭项集是一个频繁项集,且它的所有超集都不是频繁的。

  • abc 的超集 abcd 和 abce 都不是频繁的(因为支持度低于40%),所以 abc 是频繁闭项集。
  • ad 的超集 ade 是频繁的(支持度为 80%),所以 ad 不是频繁闭项集。
  • cd 的超集 cde 是频繁的(支持度为 60%),所以 cd 不是频繁闭项集。
  • de 本身就是一个项集,没有超集,且是频繁的,但没有任何超集。

4.Nave Bayes是一种特殊的贝叶斯分类器,特征变量是X,类别标签是C,它的一个假定是:(C  )。
A.各类别的先验概率P(C)是相等的
B.以0为均值,sqr(2)/2为标准差的正态分布
C.特征变量X的各个维度是类别条件独立随机变量
D.P(X|C)是高斯分布

解析:Nave Bayes分类器基于一个关键假设:特征变量(给定类别下)是类别条件独立的随机变量。这意味着,在给定类别的条件下,一个特征的出现概率不会受到其他特征的影响。

Nave Bayes(朴素贝叶斯)分类器是一种特殊的贝叶斯分类器,其中特征变量是X,类别标签是C。
A选项朴素贝叶斯并不要求各类别的先验概率相等
B选项以0为均值,sqr(2)/2为标准差的正态分布。描述了一个特定的正态分布,但并不是朴素贝叶斯分类器的基本假定。朴素贝叶斯分类器可以处理各种分布的数据,而不仅限于正态分布
C. 特征变量X的各个维度是类别条件独立随机变量,这是朴素贝叶斯分类器的核心假定。它假设在给定类别C的条件下,特征变量X的各个维度(即各个特征)是相互独立的。这意味着一个特征的出现概率不会受到其他特征的影响,从而简化了模型的计算。
D选项,朴素贝叶斯可以处理不同类型的特征分布,包括但不限于高斯分布
 

5.某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这属于数据挖掘的哪类问题?( A )
A.关联规则发现 B.聚类 C.分类 D.自然语言处理

解析:买啤酒的人很大概率也会购买尿布是一个典型的关联规则发现问题。关联规则挖掘用于发现数据集中项之间的有趣关系,如“如果购买了A,那么很可能也会购买B”。在这个例子中,A是啤酒,B是尿布。

6.()是一个观测值,它与其他观测值的差别很大,以至于怀疑它是由不同的机制产生的。
A.边界点 B.离群点 C.核心点 D.质心

解析:离群点(Outlier)是一个观测值,它与其他观测值存在显著的差异,以至于怀疑它可能是由不同的机制产生的。

边界点:边界点指的是位于不同聚类边缘或边界上的数据,不属于任何特定的聚类中心,而是位于两个或多个聚类之间的区域,它们只是位于聚类的边缘。
核心点:核心点指的是聚类内部的点,即距离聚类中心较近的点,往往代表了聚类的主要特征和结构,核心点不受到离群点的影响,因为它们位于聚类的中心区域。
质心:质心通常用于描述一个集合(如聚类)的中心或重心。在聚类分析中,质心可以是一个点(如平均值点),用于表示聚类中所有点的中心位置。质心在迭代聚类算法(如K-means算法)中起着重要作用,因为它可以帮助确定新的聚类中心位置。然而,质心本身并不是一个观测值,而是由观测值计算得出的一个统计量


7.影响聚类算法效果的主要原因有(ABC)。
A.特征选取         B.模式相似性测度
C.分类准则         D.已知类别的样本质量

解析:聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。

特征选取的差异会影响聚类效果(A正确)。

聚类的目标是使同一类对象的相似度尽可能地大,因此不同的相似度测度方法对聚类结果有着重要影响(B正确)。

由于聚类算法是无监督方法,不存在带类别标签的样本,因此,D选项不是聚类算法的输入数据。

8.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本有10万条数据,负样本只有1万条数据,以下最合适的处理方法是( ACD)。
A.将负样本重复10次,生成10万样本量,打乱顺序参与分类
B.直接进行分类,可以最大限度地利用数据
C.从10万正样本中随机抽取1万参与分类
D.将负样本每个权重设置为10,正样本权重为1,参与训练过程

解析:在正负样本数据量不等的情况下,通常采取的措施是调整样本的权重,而不是简单地重复样本或随机抽取样本。D选项中将负样本的权重设置为10,正样本的权重设置为1,是一种常用的做法,以平衡正负样本对分类器训练的影响

A.重采样,改变数据分布消除不平衡

C欠采样, 提高少数类的分类性能,可能丢失多数类的重要信息

9.在

相关文章:

【SCAU数据挖掘】数据挖掘期末总复习题库选择题及解析

1.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C ) A.频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘 解析:数据预处理是数据分析和数据挖掘的重要步骤之一,包括数据清洗、集成、变换、规约(如维度规约、数值规约)等。这…...

顶顶通呼叫中心中间件-限制最大通话时间(mod_cti基于FreeSWITCH)

顶顶通呼叫中心中间件-限制最大通话时间(mod_cti基于FreeSWITCH) 一、最大通话时间 1、配置拨号方案 1、点击拨号方案 ->2、在框中输入通话最大时长->3、点击添加->4、根据图中配置->5、勾选continue。修改拨号方案需要等待一分钟即可生效 action"sched…...

深度学习:使用argparse 模块

在深度学习中,结合 Bash 脚本和 argparse 模块,可以实现高效的任务自动化和参数管理。Bash 脚本可以用来调度任务和管理环境,而 argparse 模块可以用来解析命令行参数,控制深度学习模型的训练和评估过程。 1.argparse 模块 argp…...

unity text根据文本内容自动设置高度

我们经常会遇到需要根据文字数量动态修改文本框高度的需求,我们可以使用文本的行数*每行的高度来计算文本框的高度,伪代码如下: int oneLineHight 50;// 每行的像素高度 private void ResetTextHight(string str) {//设置文字内容ShowText.…...

ARM 汇编 C语言 for循环

在使用 Keil 编译基于 STM32F103 的 C 语言程序时,生成的汇编代码会有一些不同。STM32F103 是基于 ARM Cortex-M3 内核的微控制器,因为汇编语言是 ARM 汇编,而不是 x86 汇编。 示例 C 代码 假设我们有如下的简单 C 语言 for 循环代码&#x…...

java:【@ComponentScan】和【@SpringBootApplication】扫包范围的冲突

# 代码结构如下&#xff1a; 注意【com.chz.myBean.branch】和【com.chz.myBean.main】这两个包是没有生重叠的。 主程序【MyBeanTest1、MyBeanTest2、MyBeanTest3】这两个类是在包【com.chz.myBean.main】下 # 示例代码 【pom.xml】 <dependency><groupId>org.…...

本学期嵌入式期末考试的综合项目,我是这么出题的

时间过得真快&#xff0c;临近期末&#xff0c;又到了老师出卷的时候。作为《嵌入式开发及应用》这门课的主讲教师&#xff0c;今年给学生出的题目有一点点难度&#xff0c;最后的综合项目要求如下所示&#xff0c;各位学生朋友和教师同行可以评论一下难度如何&#xff0c;单片…...

CSS概述

CSS是一种样式表语言&#xff0c;用于为HTML文档控制外观&#xff0c;定义布局。例如&#xff0c; CSS涉及字体、颜色、边距、高度、宽度、背景图像、高级定位等方面 。 ● 可将页面的内容与表现形式分离&#xff0c;页面内容存放在HTML文档中&#xff0c;而用 于定义表现形式…...

Tensorflow-GPU工具包了解和详细安装方法

目录 基础知识信息了解 显卡算力 CUDA兼容 Tensorflow gpu安装 CUDA/cuDNN匹配和下载 查看Conda driver的版本 下载CUDA工具包 查看对应cuDNN版本 下载cuDNN加速库 CUDA/cuDNN安装 CUDA安装方法 cuDNN加速库安装 配置CUDA/cuDNN环境变量 配置环境变量 核验是否安…...

【python】OpenCV GUI——Trackbar(14.2)

学习来自 OpenCV基础&#xff08;12&#xff09;OpenCV GUI中的鼠标和滑动条 文章目录 GUI 滑条介绍cv2.createTrackbar 介绍牛刀小试 GUI 滑条介绍 GUI滑动条是一种直观且快速的调节控件&#xff0c;主要用于改变一个数值或相对值。以下是关于GUI滑动条的详细介绍&#xff1a…...

Qt自定义日志输出

Qt自定义日志输出 简略版&#xff1a; #include <QApplication> #include <QDebug> #include <QDateTime> #include <QFileInfo> // 将日志类型转换为字符串 QString typeToString(QtMsgType type) {switch (type) {case QtDebugMsg: return "D…...

[C++] vector list 等容器的迭代器失效问题

标题&#xff1a;[C] 容器的迭代器失效问题 水墨不写bug 正文开始&#xff1a; 什么是迭代器&#xff1f; 迭代器是STL提供的六大组件之一&#xff0c;它允许我们访问容器&#xff08;如vector、list、set等&#xff09;中的元素&#xff0c;同时提供一个遍历容器的方法。然而…...

Java——变量作用域和生命周期

一、作用域 1、作用域简介 在Java中&#xff0c;作用域&#xff08;Scope&#xff09;指的是变量、方法和类在代码中的可见性和生命周期。理解作用域有助于编写更清晰、更高效的代码。 2、作用域 块作用域&#xff08;Block Scope&#xff09;&#xff1a; 块作用域是指在…...

WPF界面设计

1、使用C#-WPF实现抽屉效果-炫酷漂亮的侧边栏导航菜单-SplitViewMD主题重绘原生控件的美观效果-提供源码Demo下载 码源地址&#xff1a;https://download.csdn.net/download/Prince999999/89424685 2、使用C#-WPF实现抽屉效果-菜单导航功能实现&#xff0c;常规的管理系统应该…...

【C#】使用JavaScriptSerializer序列化对象

在C#开发语言编程中&#xff0c;通常使用系统内置的JavaScriptSerializer类来序列化对象&#xff0c;以便将其转换为JSON格式的文本存储与后台服务通信, 在这里将为大家详细介绍一下这个过程。 文章目录 反序列化序列化忽略属性 假设处理的数据中有一个对象类, 如下 public cl…...

HTML静态网页成品作业(HTML+CSS)—— 明星吴磊介绍网页(5个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;未使用Javacsript代码&#xff0c;共有5个页面。 二、作品演示 三、代…...

EasyRecovery2024数据恢复神器#电脑必备良品

EasyRecovery数据恢复软件&#xff0c;让你的数据重见天日&#xff01; 大家好&#xff01;今天我要给大家种草一个非常实用的软件——EasyRecovery数据恢复软件&#xff01;你是不是也曾经遇到过不小心删除了重要的文件&#xff0c;或者电脑突然崩溃导致数据丢失的尴尬情况呢&…...

前端HTML相关知识

1.什么是HTML HTML 指的是超文本标记语言 ( HyperText Markup Language )。 超文本:是指页面内可以包含图片、链接、声音,视频等内容 标记:标签(通过标记符号来告诉浏览器网页内容该如何显示) 浏览器根据不同的HTML标签&#xff0c;解析成我们看到的网页 2.HTML的特点 HTML不…...

集合面试题

目录 ①HashMap的理解&#xff1f;以及为什么要把链表转换为红黑树&#xff1f;②HashMap的put&#xff1f;③HashMap的扩容&#xff1f;④加载因子为什么是0.75&#xff1f;⑤modcount的作用&#xff1f;⑥HashMap与HashTable的区别&#xff1f;⑥HashMap中1.7和1.8的区别&am…...

集成学习概述

概述 集成学习(Ensemble learning)就是将多个机器学习模型组合起来&#xff0c;共同工作以达到优化算法的目的。具体来讲&#xff0c;集成学习可以通过多个学习器相结合&#xff0c;来获得比单一学习器更优越的泛化性能。集成学习的一般步骤为&#xff1a;1.生产一组“个体学习…...

记录一次root过程

设备: Redmi k40s 第一步&#xff0c; 解锁BL&#xff08;会重置手机系统&#xff01;&#xff01;&#xff01;所有数据都会没有&#xff01;&#xff01;&#xff01;&#xff09; 由于更新了澎湃OS系统, 解锁BL很麻烦, 需要社区5级以上还要答题。 但是&#xff0c;这个手机…...

函数(上)(C语言)

函数(上&#xff09; 一. 函数的概念二. 函数的使用1. 库函数和自定义函数(1) 库函数(2) 自定义函数的形式 2. 形参和实参3. return语句4. 数组做函数参数 一. 函数的概念 数学中我们其实就见过函数的概念&#xff0c;比如&#xff1a;一次函数ykxb&#xff0c;k和b都是常数&a…...

ARM-V9 RME(Realm Management Extension)系统架构之系统安全能力的侧信道抵御

安全之安全(security)博客目录导读 目录 一、系统PMU计数器 二、使用信号和功耗操作进行的故障攻击 一、系统PMU计数器 性能监测单元 (PMU) 计数器可能成为泄露机密信息的侧信道,如访问模式或受RME安全保障保护的安全状态下的执行控制流。以下规则补充了《Arm CoreSight™…...

Java高级技术探索:深入理解JVM内存分区与GC机制

文章目录 引言JVM内存分区概览垃圾回收机制&#xff08;GC&#xff09;GC算法基础常见垃圾回收器ParNew /Serial old 收集器运行示意图 优化实践结语 引言 Java作为一门广泛应用于企业级开发的编程语言&#xff0c;其背后的Java虚拟机&#xff08;JVM&#xff09;扮演着至关重…...

新视野大学英语2 词组 6.15

do you feel as confused and manipulated as i do with this question 你是否和我一样&#xff0c;对这个问题感到困惑和被操控 manipulated&#xff1a;被操控 defy common sense and contradict each other 违背常识且相互矛盾 defy&#xff1a;违背 contradict&#xf…...

【JavaScript】MDN

一、初识 1.1 基础 1.1.1 语言速成课 1.1.1.1 变量 ​ 变量是存储值的容器。首先用let关键字声明一个变量&#xff0c;后面跟着你给变量的名字 ​ 变量命名区分大小写 ​ 分号在JavaScript中是用来分隔语句的&#xff0c;但是如果语句后面有一个换行符(或者在{block}中只…...

Qt/C++中的异步编程

Qt/C++中的异步编程 1 介绍2 含义2.1 QtConcurrent2.2 std::future2.3 Qml中的Promise3 使用场景4 代码示例5 注意事项5.1异常处理5.2 线程安全5.3 性能优化5.4 线程间通信5.5 避免死锁1 介绍 异步编程是现代应用程序开发中不可或缺的一部分。它允许程序在执行耗时任务时保持响…...

解决javadoc一直找不到路径的问题

解决javadoc一直找不到路径的问题 出现以上问题就是我们在下载jdk的时候一些运行程序安装在C:\Program Files\Common Files\Oracle\Java\javapath下&#xff1a; 一开始是没有javadoc.exe文件的&#xff0c;我们只需要从jdk的bin目录下找到复制到这个里面&#xff0c;就可以使用…...

存储器的性能指标以及层次化存储器

存储器的性能指标 存储器有三个性能指标&#xff1a;速度、容量和位价&#xff08;每位价格&#xff09; 1.存储速度 &#xff08;1&#xff09;存取时间 想衡量存储速度&#xff0c;最直观的指标就是完成一次存储器读写操作所需要的时间&#xff0c;这叫做存取时间&#x…...

【C++】C++入门的杂碎知识点

思维导图大纲&#xff1a; namespac命名空间 什么是namespace命名空间namespace命名空间有什么用 什么是命名空间 namespace命名空间是一种域&#xff0c;它可以将内部的成员隔绝起来。举个例子&#xff0c;我们都知道有全局变量和局部变量&#xff0c;全局变量存在于全局域…...

怎么做物物交换网站/sem竞价教程

PCI设备电源管理的ACPI分析 1 ACPI方法的定义 1.1 描述Power Resource Object 可通过ASL声明来描述Power Resource Object, 定义如下所示&#xff1a; PowerResource(PIDE&#xff0c; 0&#xff0c; 0) {Methold(_STA&#xff09;{Return &#xff08;Xor &#xff08;GIO…...

海安环评在哪个网站做/周口网络推广哪家好

直接症状&#xff1a;直接双击打开一个文件&#xff0c;比如一个 Word 文档&#xff0c;要等超过15秒的时间&#xff0c;如果先打开 Word&#xff0c;然后再把文档拖到 Word 中则正常。 在某文件上点击右键&#xff0c;弹出右键菜单需要超过15秒的时间。 对某个文件进行键盘上的…...

腾讯公告最新官方消息/搜索引擎优化策略有哪些

今天&#xff0c;我们开始学习运维自动化工具Ansible。 一、Ansible原理 1.1 什么是Ansible Ansible一种集成IT系统的配置管理、应用部署、执行特定任务的开源平台/框架。基于Python语言实现&#xff0c;核心模块包括&#xff1a;jinja2、PyYAML和paramiko。Ansible允许重复…...

wap网站 手机网站/百度快速优化软件

用户切换相关命令 为什么要进行用户切换&#xff1f; 在操作过程中需要使用特定的用户进行特定的操作&#xff0c;多数情况下是因为权限&#xff0c;比如要修改一个文件&#xff0c;只有root用户有权限修改&#xff0c;那么就要切换到root用户下进行操作。切换用户一般有两个…...

wordpress 上传目录权限/培训机构好还是学校好

感谢 CSDN&#xff0c;感谢曙光老师&#xff0c;借此机会得以认识很多大牛&#xff0c;特别是二号桌的几位大牛的讨论很精彩&#xff0c;受益匪浅。...

哪个网站教做ppt/互联网营销的优势

本篇博客参考Laravel China 吴坷麟的文章 人人为我&#xff0c;我为人人&#xff01;向社区发布自己的 Composer 包 主要讲解如何上传Composer包到Packagist&#xff0c;并在Thinkphp5.0中使用。 1.Github上创建仓库&#xff0c;并pull至本地。在本地cmd运行&#xff1a; git c…...