当前位置: 首页 > news >正文

数据仓库与数据挖掘小结

更加详细的只找得到pdf版本 

填空10分
判断并改错10分
计算8分
综合20分

客观题

填空10分
判断并改错10分--错的要改

mooc中的--尤其考试题

 

名词解释12分

4个,每个3分

经常碰到的专业术语

简答题40分

5个,每道8分

综合

roc曲线

类似于和计算相关的题目

C1

什么是数据挖掘?概念是什么?

哪些操作属于数据挖掘操作,哪些操作不属于
数据:海量、多源异构

操作:从大量的数据中提取出有趣的(重要、隐含、以前未知、潜在有用)模式或知识。

数据分析与数据挖掘有区别
数据挖掘AKA知识发现KDD

数据挖掘的流程

在数据管理的视角下,数据挖掘的流程是什么?有哪些环节?一定要注意是一个迭代反馈的过程
 

数据集成

不同数据源中描述同一条数据对象《变成一个比较统一的数据信息

数据清理

错误、异常、冗余、缺失

进入数据仓库

按主题存储数据

选择、变换

把数据仓库中的数据变成与数据挖掘任务相关的数据集
选择:选择相关数据、属性特征
变换:格式可能不满足算法要求、数据量纲;特征转换--相乘相除etc…

得到和任务相关的数据集,可供我们使用算法

数据挖掘

设计或选择合适的模型,用于任务相关的数据上,得到模式

知识评估

若不满足,考虑到之前所有步骤--哪个或哪几个步骤不合适


反复试验的过程

数据挖掘的任务

分类回归

利用历史记录预测未来的值--预测问题

聚类

相关性分析与关联分析-关联规则挖掘

异常检测

预测性任务

描述性任务

关联规则挖掘-物品之间共线关系

C2

数据集的主要特征

维度、分辨率、稀疏性

识别数据属性值中的异常的方法

画图【箱线图】、统计的3σ原则

标称【标称属性中的二分属性->对称二分与不对称二分】、序数、数值,如何计算这些数据类型的相似度?如果数据的属性是混合类型的数据类型的相似度怎么计算?【核心

数据对象的相似性度量问题【两个行的相似性】【属性之间的相似性是两个列】

相似性和相异性此涨彼消

标称

p为属性个数,m是两个对象属性取值相等的个数,p-m两个对象取值不相等的个数

二分
需要四个指标
 

非对称:
取0的可能性更高:尽管差异性很大但是因为取0概率高导致差异性不准
 

序数

取值转换为数值类型--把级别从低到高排序;
取值按公式转换
 

数值

用距离衡量
 

常用距离

闵氏距离

曼哈顿距离-出租车距离-沿着街道走走折线--高维
 

上确界距离

文档

余弦相似度
 

混合类型

f:每个属性
dij(f):在f属性上的相异度
前面为权重

属性之间的相关性

单相关和复相关

正相关和负相关

线性相关和非线性相关

不相关、完全相关、不完全相关

画散点图
相关系数

线性:

协方差

皮尔森相关系数

等级

最大信息系数MIC:用于度量高维数据中属性变量之间强相关性
 

属性和属性间的计算属于相关性分析--方法

C3

数据预处理主要包括哪些步骤?

数据清理、数据集成、数据转换、数据约减
 

简述数据清理的主要任务、常用方法、流程

处理缺失数据、平滑噪声、识别或移除异常(属性值的异常)、解决数据不一致的问题…
 

常用方法
 

缺失值

删除;
插补
 

异常值

噪音

不一致

实体识别技术

流程
 

流程:

右侧是数据清理的过程,首先import data导入数据,集中相关数据,处理缺失值,标准化【max-min这种,目标是统一特征维度的量纲】、规范化【变换后吻合一个分布zscore】,重复性检测、修正错误与丰富,导出

常用离散化方法有哪些?【看下游任务】

无监督

分箱

直方图

聚类(k-means)

有监督--类标签指导下

基于熵的方法

不断离散化

如何识别冗余属性?

通过相关性分析发现冗余属性
 

数值属性:相关系数、协方差
标称类型:卡方检验
 

常用的约减方法--前三个对数据量压缩,PCA是无监督的降维

回归

聚类

抽样

PCA

数据量的压缩

有参

回归

只保留参数wb,想生成数据集的时候直接在x上随机采样生成y值

无参

聚类

对每个簇抽样

抽样

有放回、无放回、分层

维度压缩

无监督pca

把原始的属性描述的特征空间映射为正交矩阵空间,尽可能多的保留原始数据信息
消除冗余--维度彼此独立
pca通过做正交矩阵分解,得到主成分,选前k个重要特征作为新的空间中的特征,把所有数据对象由前k个特征的线性组合表示

属性子集选择

Method1:删除冗余属性、删除不重要的…得到子集
Method2:添加最重要的、次重要的…得到子集
 

Vs

属性选择得到的特征有具体含义,PCA没有【黑箱】-可能可以得到非常好的特征提取但是可解释性差


 

olap

数仓的基本架构

简述数仓的数据模型及各模型特点

数据仓库与数据库的区别

关联规则挖掘

方法与评估指标
 

 两阶段

频繁项集的产生--关联规则的产生

频繁项集的实现

用了性质缩小频繁项集的空间

关联规则挖掘的内容

评估指标--常用支持度和置信度,并不一定是一个有意义的关联规则,

提升度

聚类

聚类和分类的区别

kmeans和DBSCAN的原理和流程和优缺点特点,对kmeans的缺点有哪些办法可以解决

k值需要确定

设置不同k值求sse,考虑拐点附近的k值

初始聚类中心的选择

第一个随机选,下一个选离当前选择的最远的

对噪声点和异常敏感【因为均值敏感】

使用k-medoids用真实数据对象作为中心-复杂度高-由簇中的数据对象替代;用k中位数

球形簇【基于距离】

空簇

选sse贡献最大的点作为簇中心,从簇中选一个对sse贡献最大的点,
 

尺寸:

密度:
 



非凸:
 

解决:
 

k取较大值分为多个小簇再合并

纵轴:第k个最近邻距离的变化范围
横轴:数据对象按最近邻距离编码
大部分数据对象的第k个最近邻的变化变化幅度不大,拐点飙升-异常点,当k取大,距离大
由此判断k

聚类的评估指标--有监督【和分类一样】和无监督【规范化的互信息与轮廓系数】

标准化的互信息-Y是聚类标签,C是真实标签-I(Y,C)互信息=H(C )-H(Y|C)yc依赖性越高越好

分类

roc怎么画

tpr是召回率
 

评估指标--精度召回率fscore

决策树、贝叶斯、集成

贝叶斯:易于实现,结果比较好,鲁棒的
有可能有依赖


集成
 

对于不稳定的分类器才有提升效果

评估框架--bootstrap cosostation??交叉验证的bootstrap

二分类问题

正事例
 

异常

异常的类型

异常的方法

基于统计、距离、密度、

相关文章:

数据仓库与数据挖掘小结

更加详细的只找得到pdf版本 填空10分 判断并改错10分 计算8分 综合20分 客观题 填空10分 判断并改错10分--错的要改 mooc中的--尤其考试题 名词解释12分 4个,每个3分 经常碰到的专业术语 简答题40分 5个,每道8分 综合 画roc曲线 …...

ensp创建配置环境,实现全网互访

文章目录 创建配置环境,实现全网互访配置步骤接入层交换机(sw4、sw5)划分vlan汇聚层交换机(sw2、sw3)配置ip地址作为vlan网关、与sw1 ip地址直连核心层交换机(sw1)配置ip地址与汇聚层交换机&…...

智能优化算法应用:基于JAYA算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于JAYA算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于JAYA算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.JAYA算法4.实验参数设定5.算法结果6.参考文献7.MA…...

ripro后台登录后转圈和图标不显示的原因及解决方法

最近,好多小伙伴使用ripro主题的小伙伴们都发现,登录后台后,进入主题设置就转圈,等待老半天后好不容易显示页面了,却发现图标不显示了,都统一显示为方框。 这是因为后台的js、css这类静态资源托管用的是js…...

android 源码编译android 12

一、python安装 python2 sudo apt-get install python python3 sudo apt-get install python3 二、repo管理多个git repo因为Android源码由多个git组成,故安装repo利于管理git工程. repo安装步骤 a.第一步, 新建一个空白文件夹保存repo引导文件,并包含你的路径…...

CSS第二天导读

1,Emmet语法 Emmet语法的前身是Zen coding,它使用缩写,来提高html / css 的编写速度,Vscode内部已经集成该语法 1.1,快速生成HTML结构语法 1.想要快速生成多个相同标签,加上*就可以了,比如 d…...

scroll-behavior属性使用方法

定义和用法&#xff1a; scroll-behavior 属性规定当用户单击可滚动框中的链接时&#xff0c;是否平滑地&#xff08;具动画效果&#xff09;滚动位置&#xff0c;而不是直线跳转。 <style>element{/* 核心代码 */scroll-behavior: smooth;} </style> 属性值&am…...

Python Django 连接 PostgreSQL 操作实例

更多Python学习内容&#xff1a;ipengtao.com 大家好&#xff0c;我是彭涛&#xff0c;今天为大家分享 Python Django 连接 PostgreSQL 操作实例&#xff0c;全文3500字&#xff0c;阅读大约10分钟 在Web开发中&#xff0c;使用Django连接到PostgreSQL数据库是一种常见的选择。…...

5.实现简化版raft协议完成选举

1.设计 前面已经完成了netty的集成&#xff0c;接下来就是借助netty完成选举就行了。 针对选举&#xff0c;我们用到了VotRequestMessage、VotRespMessage、当节点下线时NodeOfflineMessage、NodeOnlineMessage、NodeOnlineRespMessage 1.1 节点详细的交互 1.2 对所有消息的…...

服装管理系统 简单实现

服装管理系统 项目使用jsp servletmysql实现&#xff1b; 登陆注册 首页 首页显示服装信息 服装管理 1添加服装 2修改服装 3分页查询服装 4导出服装信息 5 导入服装信息 代码结构截图 百度网盘 链接&#xff1a;https://pan.baidu.com/s/1zfLHGMnrYd-JtnhzS5elYQ 提取码…...

深度学习项目实战:垃圾分类系统

简介&#xff1a; 今天开启深度学习另一板块。就是计算机视觉方向&#xff0c;这里主要讨论图像分类任务–垃圾分类系统。其实这个项目早在19年的时候&#xff0c;我就写好了一个版本了。之前使用的是python搭建深度学习网络&#xff0c;然后前后端交互的采用的是java spring …...

C#浅拷贝和深拷贝数据

目录 一、浅拷贝 二、深拷贝 一、浅拷贝 就是把原来的数据&#xff0c;复制一份&#xff0c;但是2份数据是共享地址的&#xff0c;修改第一份数据或者修改第二份数据&#xff0c;都会一起改变&#xff0c;这可能不是我们程序中需要的场景。 下面我们演示一下&#xff0c;首…...

【JVM】4.运行时数据区(程序计数器、虚拟机栈)

文章目录 4.JVM的运行时数据区4.1 程序计数器4.2 Java虚拟机栈4.3 虚拟机栈内存溢出 4.JVM的运行时数据区 4.1 程序计数器 程序计数器&#xff08;PC&#xff09;会记录着下一行字节码指令的地址。执行完当前指令后&#xff0c;PC刷新&#xff0c;JVM的执行引擎根据程序计数器…...

算法:程序员的数学读书笔记

目录 ​0的故事 ​一、按位计数法 二、不使用按位计数法的罗马数字 三、十进制转二进制​​​​​​​ ​四、0所起到的作用​​​​​​​ 逻辑 一、为何逻辑如此重要 二、兼顾完整性和排他性 三、逻辑 四、德摩根定律 五、真值表 六、文氏图 七、卡诺图 八、逻…...

机器学习算法---时间序列

类别内容导航机器学习机器学习算法应用场景与评价指标机器学习算法—分类机器学习算法—回归机器学习算法—聚类机器学习算法—异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱…...

RK3568/RV1126/RV1109/RV1106 ISP调试方案

最近一直在做瑞芯微rv1126的开发&#xff0c;由于项目性质&#xff0c;与camera打的交道比较多&#xff0c;包括图像的采集&#xff0c;ISP处理&#xff0c;图像处理&#xff0c;H.264/H.265编解码等各个方面吧。学到了不少&#xff0c;在学习的过程中&#xff0c;也得到了不少…...

【TB作品】51单片机,语音出租车计价器

西交大题目 1.语音出租车计价器 一、功能要求: 1.具有可模拟出租车车轮转速传感器的硬件设计,可计量出租车所走的公 里数。 2.显示和语音播报里程、价格和等待红灯或堵车的计时价格: 3.具有等待计时功能 4.具有实时年月日显示和切换功能。 5.操作简单、界面友好。 二、设计建议…...

jmeter简单压测kafka

前言 这也是一个笔记&#xff0c;就是计划用jmeter做性能测试&#xff0c;但是这里是只要将数据放到kafka的topic里&#xff0c;后面查看下游业务处理能力。 一、方案 因为只要实现数据放到kafka&#xff0c;参考了下博友的方案&#xff0c;可行。 二、方案验证 详细过程就不…...

【漏洞复现】红帆OA iorepsavexml.aspx文件上传漏洞

漏洞描述 广州红帆科技深耕医疗行业20余年,专注医院行政管控,与企业微信、阿里钉钉全方位结合,推出web移动一体化办公解决方案——iOffice20(医微云)。提供行政办公、专业科室应用、决策辅助等信息化工具,采取平台化管理模式,取代医疗机构过往多系统分散式管理,实现医…...

04_Web框架之Django一

Web框架之Django一 学习目标和内容 1、能够描述Django的作用 2、能够使用Django创建应用 3、能够使用GET和POST请求方式进行传参 4、能够使用Django的函数式方法定义视图 5、能够进行Django的配置文件修改 6、能够基本使用Django的路由定义 一、Django相关介绍 1、什么是Djan…...

单机架构到分布式架构的演变

目录 1.单机架构 2.应用数据分离架构 3.应用服务集群架构 4.读写分离 / 主从分离架构 5.引入缓存 —— 冷热分离架构 6.垂直分库 7.业务拆分 —— 微服务 8.容器化引入——容器编排架构 总结 1.单机架构 初期&#xff0c;我们需要利用我们精干的技术团队&#xff0c;快…...

1.新入手的32位单片机资源和资料总览

前言&#xff1a; 学了将近1年的linux驱动和uboot&#xff0c;感觉反馈不足&#xff0c;主要是一直在学各种框架&#xff0c;而且也遇到了门槛&#xff0c;比如驱动部分&#xff0c;还不能随心所欲地编程&#xff0c;原因是有些外设的原理还不够深刻、有些复杂的底层驱动的代码…...

jmeter判断’响应断言‘两个变量对象是否相等

1、首先需要设置变量&#xff0c;json、正则、csv文件等变量 2、然后在响应断言中 ①JMeter Variable Name to use —— 输入一个变量&#xff0c;变量名即可 ② 模式匹配规则 ——相等 ③测试模式 ——输入引用的变量命${变量名} &#xff08;注意这里是需要添加一个测试模式…...

【Linux基础命令使用】

文章目录 一. 操作系统和文件及文件路径介绍二. 基础指令介绍三. 结束语 一. 操作系统和文件及文件路径介绍 什么是操作系统&#xff1f;操作系统是一款进行软硬件资源管理的软件为什么要进行软硬件资源管理&#xff1f;对上提供良好的稳定的运行服务----工具Linux指令和图形化…...

【JNA与C++基本使用示例】

JNA中java与C使用注意事项和代码示例 JNA关系映射表使用案列注意代码示例C代码java代码 JNA关系映射表 使用案列 注意 JNA只支持C方式的dll使用C的char* 作为返回值时&#xff0c;需要返回的变量为malloc分配的地址C的strlen函数只获得除/0以外的字符串长度 代码示例 C代码…...

HttpRunner接口自动化测试框架

简介 HttpRunner是一款面向 HTTP(S) 协议的通用测试框架&#xff0c;只需编写维护一份 YAML/JSON 脚本&#xff0c;即可实现自动化测试、性能测试、线上监控、持续集成等多种测试需求。 项目地址&#xff1a;GitHub - httprunner/httprunner: HttpRunner 是一个开源的 API/UI…...

云计算:Vmware 安装 FreeNAS

目录 一、实验 1.Vmware 安装 FreeNAS 2.配置Web界面 二、问题 1.iSCSI如何限定名称 2.LUN和LVM的区别 一、实验 1.Vmware 安装 FreeNAS &#xff08;1&#xff09;环境准备 VMware Workstation 17 FreeNAS相关安装部署镜像: 官网地址&#xff1a; https://download…...

数据库交付运维高级工程师-腾讯云TDSQL

数据库交付运维高级工程师-腾讯云TDSQL上机指导&#xff0c;付费指导&#xff0c;暂定99...

目标检测YOLO实战应用案例100讲-光伏电站热斑检测(续)

目录 2.5 图像重建方法实验及其结果分析 2.5.1 数据集与超参数 2.5.2 结果分析...

jmeter如何循环运行到csv文件最后一行后停止

1、首先在线程组中设置’循环次数‘–勾选永远 2、csv数据文件设置中设置&#xff1a; 遇到文件结束符再次循环?——改为&#xff1a;False 遇到文件结束符停止线程?——改为&#xff1a;True 3、再次运行就会根据文档的行数运行数据 &#xff08;如果需要在循环控制器中&…...

西安北郊做网站公司/唐山seo快速排名

链接&#xff1a;题目 来源&#xff1a;牛客网 处女座的期末复习 时间限制&#xff1a;C/C 1秒&#xff0c;其他语言2秒 空间限制&#xff1a;C/C 262144K&#xff0c;其他语言524288K 64bit IO Format: %lld 题目描述 快要期末考试了&#xff0c;处女座现在有n门课程需要…...

网站用户体验分析怎么做/网站关键词优化的步骤和过程

2023/4/6 QT练习QQ登录界面&#xff08;完善&#xff09; 作业 完善登录界面 点击登录按钮后&#xff0c;判断账号和密码是否一致&#xff0c;如果匹配失败&#xff0c;则弹出错误对话框&#xff0c;文本内容“账号密码不匹配&#xff0c;是否重新登录”&#xff0c;给定两个按…...

jsp新闻网站/谷歌seo怎么优化

■■集合运算(UNION、UNION ALL、INTERSECT、MINUS)集合运算组合两个或多个部分查询的结果到一个结果中。包含集合运算的查询称为复合查询。OperatorReturnsUNION(联合)由每个查询选择的所有不同的行(无重复值)UNION ALL由每个查询选择的所有的行&#xff0c;包括所有重复的行I…...

没有备案的网站怎么访问/网站推广优化排名教程

熔断 当某个服务调用慢或者有大量超时现象(过载)&#xff0c;系统停止后续针对该服务的调用而直接返回&#xff0c;直至情况好转才恢复调用。这通常是为防止造成整个系统故障而采取的一种保护措施&#xff0c;也称过载保护。很多时候刚开始&#xff0c;可能只是出现了局部小规…...

网站建设的误区/零基础能做网络推广吗

为什么80%的码农都做不了架构师&#xff1f;>>> 进入IT行业快有半辈子了,今天在家看书无聊,写一遍文章跟大家一起探讨一下只学了一门C#后的优点缺点.希望大家一起补充. 所谓的只学了C#也是有些相对的, 以前学过FoxBase, C, pascal, delphi, VFP, PB, c, javascript…...

做搜狗网站排名软件/市场营销是做什么的

这个确实好久没弄过了&#xff0c;完全忘记了&#xff0c;以前在一本书上看见过&#xff0c;不过后来在网上搜到的&#xff0c;其实就是球面距离算法lat是纬度&#xff0c;lung是经度aLat1 – Lat2 为两点纬度之差 bLung1 -Lung2 为两点经度之差&#xff1b;6378.137(KM) 为地…...