数据挖掘(1)概述
一、数据仓库和数据挖掘概述
1.1 数据仓库的产生
- 数据仓库与数据挖掘:
- 数据仓库和联机分析处理技术(存储)。
- 数据挖掘:在大量的数据中心挖掘感兴趣的知识、规则、规律、模式、约束(分析)。
- 数据仓库用于决策分析:
- 数据仓库:是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,并不是‘大型数据库’。
- 数据仓库与数据库的区别:
数据库 | 数据仓库 |
---|---|
事务处理 | 决策分析 |
保持事务处理的当前状态 | 保存过去和当前的数据 |
大量数据库的集成 |
1.2 数据挖掘的基本概念
-
数据挖掘定义:
- 数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。
- 几层含义:
- 数据:真实、大量、含噪声。
- 发现的是用户感兴趣的知识。
- 发现的知识:可接受、可理解、可运用。
- 不要求发现全部的知识,仅对特定的问题。
- 数据挖掘的一个过程
-
数据挖掘的功能
- 关联分析(描述)
- 反映一个事件和其他事件之间依赖或关联的知识。
- 广泛用于:购物篮、事务数据分析。
- 聚类分析(描述)
- 最大化类内的相似性和最小化类间的相似性(无监督的学习方法)
- 找出数据集中的共性与差异,将具有共性的对象聚合在相应的类中。
- 无指导的观察室学习,没有预先定义的类
- 分类挖掘(预测)
- 分类:同类事物共同性质的特征型知识,不同事物之间的差异型特征知识。(有监督的学习方法)
- 类别:特征联系,决策树
- 有指导的事例式学习,有预先定义的类
- 过程:分析训练集中数据,为每个类别建立分类分析模型;用这个分类分析模型对DB中的其他记录进行分类。
- 聚类与分类的区别:
- 分类:同类事物共同性质的特征型知识,不同事物之间的差异型特征知识。(有监督的学习方法)
- 孤立点分析
- 对差异和极端特例的描述。
- 孤立点:事物偏离常规的异常现象。
- 没有孤立点分析算法。
- 异常检测:通过构建正常行为模型(特征描述),来检测与特征描述严重偏离的新的模式。
- 关联分析(描述)
二、数据仓库的基本概念
2.1概念
数据仓库(Data Warehouse)是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了决策需要而产生的,它并不是所谓的“大型数据库
2.2数据仓库的两个主要作用
-
存储经过加工处理的决策需要的数据
-
查询决策分析的依据
2.3数据仓库的关键特征
- 面向主题(从面向应用到面向主题)
- 集成的(需要使用数据清洗、数据继承来处理数据)
- 随时间而变化的(只进行两种数据访问:数据的初始装载、查询操作)
- 不容易丢失的(包含时间元素)
2.4为什么要建立数据仓库
- 事务型处理(DB):
- 日常事务处理
- 处理细 节 信 息
- 分析型处理(DW):
- 用于管理员的决 策 分 析
- 处理宏 观 信 息
- 区别
2.5数据仓库与数据挖掘的关系
- 区别:
- 数据仓库:存储技术,提供对不同决策的数据和信息。
- 数据挖掘:分析技术,从数据中挖掘信息。
- 联系:
- 成功的数据挖掘:通过访问正确的、完整的、集成的数据,进行深层次的分析。
- 数据仓库并不是数据挖掘的必要条件:
- DM不一定建立在DW之上,DW不是实施DM的必要条件。
- 在开发DW过程中所进行的数据集成、清洗、准备,才使得DW对DM有重要的价值。
2.6数据立方体
1. 概念分层(单个维)
- 定义:定义一个映射序列,将低层概念映射到更一般的高层概念中。
- 比如:在城市->省份->国家->州,维度中,我们可以从中选取一个维度进行考查。
2.方体的格(维的集合)
- 定义:给定一个维的集合,将在不同汇总级别上给出的数据立方体。
- 0维方体:存放最高层的汇总,顶 点 方 体
- 最底层汇总:基 本 方 体
2.7 数据仓库的三级模型
1.概念模型:
- 首先将现实世界抽象为概念模型、然后再用计算机世界的模型和语言描述。
- 数据仓库的第一层、最高层
- 数据仓库用信 息 包 图表示概念模型。
- 信息包图
eg:确定维度、级别(类别、概念分层、将维度细分)、度量(指标与事实)。
2.逻辑模型:
- 数据仓库第二层
- 三种表示:星型、雪花模型、事实星座模型。
- 几个基本概念:
- 维:视角、观点;eg:时间维度、产地维度。
- 维表:每一维都有一个表与之对应。
- 事实:数字度量。
- 事实表:事实的名称或度量、以及每个相关维表的关键字。
- 星型模型
-
事实表在中心,周围围绕地连接维表。
- 通常由三种逻辑模型表示法:星型模型,雪花模型,事实星座模型
-
- 雪花模型
-
相当于增加了外键,维护表与表的关系,减少了冗余。
-
- 事实星座模型
- 对主题的数据仓库,需要多个事实表共享维表。
3.物理模型:
- 定义:是逻辑模型在数据仓库中的实现。
- 主要进行:数据存储结构、存储策略、索引策略、存储分配优化。
- 两种常见的存储结构:
- 分布式存储
- 物理上分布、逻辑上统一。
- 集中式存储
- 通过FC(光纤通信)交换机来直接访问所有数据,而不需要其它节点。
- 分布式存储
2.8DW的设计
- 数据仓库设计与数据库设计的区别(** )
- DW设计的原则
- 以数据驱动为中心,数据驱动和需求驱动相结合
- 数据驱动:根据当前数据基础和质量进行数据源分析
- 需求驱动:根据业务方向需求进行调整。
三、联机分析处理
建立数据仓库的目的,是要为决策提供必要的支持。
3.1 OLAP概述
1. OLAP的基本概念
- 定义:联机分析处理是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
- 核心技术是维,OLAP是多维数据分析工具的集合。
- OLAP与数据仓库的多维数据组织管理正好形成相互结合相互补充的关系。
2. 几个关系?
- OLAP与DW
- 数据仓库:侧重于存储和管理面向主题的数据。
- OLAP:侧重于数据仓库中的数据分析,并将其转换成辅助决策的信息。
- 多维数据分析,这与数据仓库的多维数据组织管理相互结合、相互补充。
- 使得DW能快速分析查询,从而能有效的联机分析。
- OLAP(联机处理分析)与OLTP()
- OLTP:关系型数据库的主要应用,增删改查。事务型
- OLAP:数据仓库的主要应用,分析与决策,并提供查询结果。分析型
- OLAP的数据来自于OLTP数据库
3. OLAP的特性
- 快速性:在5s内对用户大大部分分析要求作出反应。
- 可分析性:能处理任何逻辑分析和系统分析。
- 多维性:关键属性,提供数据的多维视图和分析
- 信息性:应能及时获取信息,管理大容量信息。
3.2 OLAP的分析方法
切片
选定一个二维子集,切出一个平面
切块
选定一个三位子集,切出立方体
旋转
改变一个报告显示的维方向
钻取
根据维层次改变数据的粒度
1.相关概念
2. 切片
- 广义:某一维上一个维成员。降1维
- 狭义:选取一个二维子集。降n-2维
3. 切块
- 广义:在某一维上选定某一区间的维成员,没有降维
- 比如考察2021年1月到2021年6月的信息。
- 狭义:选取一个三维子集。降n-3维
4. 钻取(某个维的层次性)
5. 旋转
3.3 OLAP的数据组织
ROLAP
rolap是基于关系型数据库的OLAP
- 利用关系数据库存储、管理、聚合数据。
- 良好扩展性,可以简单增加新维
- 星型模型
- 响应时间长。
MOLAP
MOLAP是基于多维数据库存储方式建立的OLAP,采用类似多维数组的结构
- 多维数据库
- 预综合的数据快速索引。
- 响应速度快。
- 增加新的维度,需要重新建立数据库。
HOLAP
HOLAP是混合型的
- 常用维:多维数据库存储。
- 不常用的维:用ROLAP存储。
ROLAP和MOLAP的对比
- 数据存储速度:ROLAP需要将SQL语句转化为多维存储语句,临时拼合为多维数据立方体,因此ROLAP的响应时间较长
- 维度变化的适应性:MOLAP增加新的维度,则多维数据库通常需要重新建立,ROLAP对于维表的变更有很好的适应性
四、数据挖掘的基本概念
4.1 什么是数据挖掘
- 定义:从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。
相关文章:
数据挖掘(1)概述
一、数据仓库和数据挖掘概述 1.1 数据仓库的产生 数据仓库与数据挖掘: 数据仓库和联机分析处理技术(存储)。数据挖掘:在大量的数据中心挖掘感兴趣的知识、规则、规律、模式、约束(分析)。数据仓库用于决策分析: 数据仓库:是在数…...
YApi Pro
1.介绍 说明:YApi Pro 是一款高效、易用、功能强大的 API 管理平台,旨在为开发、产品、测试人员提供更优雅的接口管理服务。它可以帮助开发者轻松创建、发布、维护 API,同时为用户提供了优秀的交互体验,开发人员可以更加高效地完…...
AUTOSAR RTE介绍(更新版230925)
RTE是什么 AUTOSAR RTE(Run Time Environment)实现了AUTOSAR系统中的虚拟功能总线(VFB),提供了SWC(Software Component)之间的访问接口和SWC对于BSW资源的访问接口。RTE为SWC中的Runnable提供与其他SWC或者BSW模块通信的接口,RTE将Runnable映射到OS Task中,并且管理Runna…...
深度学习笔记_1、定义神经网络
1、使用了PyTorch的nn.Module类来定义神经网络模型;使用nn.Linear来创建全连接层。(CPU) import torch.nn as nn import torch.nn.functional as F from torchsummary import summary# 定义神经网络模型 class Net(nn.Module):def __init__(self):super(Net, self).__init__()…...
【Java 进阶篇】MySQL 事务详解
在数据库管理中,事务是一组SQL语句的执行单元,它们被视为一个整体。事务的主要目标是保持数据库的一致性和完整性,即要么所有SQL语句都成功执行,要么所有SQL语句都不执行。在MySQL中,事务起到了非常重要的作用…...
Spring修炼之旅(3)自动装配与注解开发
一、自动装配说明 1.1概述 自动装配是使用spring满足bean依赖的一种方法 spring会在应用上下文中为某个bean寻找其依赖的bean。 1.2装配机制 Spring中bean有三种装配机制,分别是: 在xml中显式配置; 在java中显式配置; 隐式…...
嵌入式Linux应用开发-基础知识-第十六章GPIO和Pinctrl子系统的使用
嵌入式Linux应用开发-基础知识-第十六章GPIO和Pinctrl子系统的使用 第十六章 GPIO 和 Pinctrl 子系统的使用16.1 Pinctrl 子系统重要概念16.1.1 引入16.1.2 重要概念16.1.3 示例16.1.4 代码中怎么引用pinctrl 16.2 GPIO子系统重要概念16.2.1 引入16.2.2 在设备树中指定引脚16.2…...
Ubuntu系统下使用apt-get安装Mysql8
记录一下在Ubuntu20.04 64位系统下面使用apt-get方式安装mysql8关系型数据库 Centos下使用yum安装Mysql8(Mysql5.7)以及常见的配置和使用 首先肯定是检查下当前Ubuntu系统是否已经安装过mysql数据库 一般拿到新的云服务器是没有安装的 rootmyw:~# whe…...
jenkins联动显示或隐藏参数
1. 添加组件 Active Choices Plug-in 如jenkins无法联网,可在以下两个地址中下载插件,然后放到/home/jenkins/.jenkins/plugin下面重启jenkins即可 Active Choices Active Choices | Jenkins plugin 2. 效果如下: sharding为空时…...
Error: Activity class {xxx.java} does not exist
git切换到不同的branch之后,报下面的错误: Error: Activity class {xxx.java} does not exist 解决方案: 首先clean 然后会删除build目录 然后点击:Invalidate Caches Android Studio重启,然后重新build即可。...
保护模式阶段测试-模拟3环0环调用
保护模式阶段测试-模拟3环0环调用 最近又复习了一下保护模式相关的内容,然后打算搞个能够把段页的大部分知识能够串联起来的测试代码 最终想到的一个项目如下: 三环部分: 0.编写一个函数读取高2g的地址内容 1.通过设备通信到0环告诉0环我新…...
Dart笔记:stream_channel 包用法
标题1 标题2 作者:李俊才 (jcLee95):https://blog.csdn.net/qq_28550263 邮箱 :291148484163.com 本文地址:https://blog.csdn.net/qq_28550263/article/details/133426961 【介绍】stream_channel是一个用…...
Java进阶必会JVM-深入浅出Java虚拟机
系列文章目录 送书第一期 《用户画像:平台构建与业务实践》 送书活动之抽奖工具的打造 《获取博客评论用户抽取幸运中奖者》 送书第二期 《Spring Cloud Alibaba核心技术与实战案例》 送书第三期 《深入浅出Java虚拟机》 文章目录 系列文章目录前言一、推荐书籍二…...
1200*B. Sorted Adjacent Differences(构造)
Problem - 1339B - Codeforces 解析: 题目要求每相邻两个值差的绝对值相等或递增。 先排序,可以想到我们先取两侧的数肯定相距最远,然后靠中心每次取两个数,这样符合题目要求。 直接遍历,先取的是答案靠后的数据&…...
恼人的TCP套接字部分发送成功场景
源起 以前就知道套接字有可能出现部分发送成功的可能,直到近段时间一个典型的使用场景触发了明确的此问题,才予以重视,比较深入地考虑解决这个问题的方案! 分析 因为TCP的流式特征,如果出现部分发送成功,…...
ROS2 中的轻量级、自动化、受控回放
一、说明 这篇文章描述了一种在 ROS2 中实现受控重播器的轻量级方法。用以测试中将现象重新播放一遍,以实现调参或故障定位的目的。所有源代码都可以在这里找到。该帖子也可在此处获得。 二、问题:不同步重播 任何曾经认真开发过 ROS2 的人都会知道这个问…...
Egg使用jwt拦截jtoken验证
安装 npm install egg-jwt注册插件 在config文件夹子下 plugin,js下 use strict;module.exports {//mysqlmysql: {enable: true,package: egg-mysql},//jwtjwt: {enable: true,package: egg-jwt} };使用中间件 在app文件下创建 middleware 文件夹 在middleware 文件下创建…...
装饰器模式详解和实现(设计模式 二)
装饰器模式(Decorator Pattern)是一种结构型设计模式,它允许你动态地将对象添加到现有对象中,以提供额外的功能,同时又不影响其他对象。 实现示例 1.定义一个接口或抽象类,表示被装饰对象的公共接口 //抽…...
面试问到MySQL模块划分与架构体系怎么办
面试问到Mysql模块划分与架构体系怎么办 文章目录 1. 应用层连接管理器(Connection Manager)安全性和权限模块(Security and Privilege Module) 2. MySQL服务器层2.1. 服务支持和工具集2.2. SQL Interface2.3. 解析器举个解析器 …...
并查集及其优化
1.并查集 #define SIZE 100 int UFSets[SIZE];void Initial(int S[]) {for (int i 0; i < SIZE; i)S[i]-1; }int Find(int S[], int x) {//查while(S[x] > 0)x S[x];return x; }void Union(int S[], int Root1, int Root2) {//并if(Root1 Root2)return;S[Root2] Roo…...
LeetCode 周赛上分之旅 #48 一道简单的树上动态规划问题
⭐️ 本文已收录到 AndroidFamily,技术和职场问题,请关注公众号 [彭旭锐] 和 BaguTree Pro 知识星球提问。 学习数据结构与算法的关键在于掌握问题背后的算法思维框架,你的思考越抽象,它能覆盖的问题域就越广,理解难度…...
mysql报错:Column Count Doesn‘t Match Value Count at Row 1
mysql中执行insert、update、delete报错:Column Count Doesnt Match Value Count at Row 1 的解决方案 通常情况:字段不匹配 如:student有id, name, age字段 -- 错误写法 INSERT INTO student VALUES(5,horse)-- 正确写法 INSERT INTO stu…...
安卓 kuaishou 设备did和egid 学习分析
did和egid注册 接口 https://gdfp.ksapisrv.com/rest/infra/gdfp/report/kuaishou/android did 是本地生成的16进制 或者 获取的 android_id public static final Random f16237a new Random(System.currentTimeMillis()); public static long m19668a() { return f1623…...
基于Vue+ELement实现增删改查案例与表单验证(附源码)
🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是Java方文山,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的专栏《ELement》。🎯🎯 …...
webpack:使用externals配置来排除打包后的某个依赖插件IgnorePlugin的使用
背景 假设,我们写了一个库并使用 webpack 打包输出 bundle,但是这个库依赖一个第三方包,比如依赖 lodash,这时候我们不想把这个库打包进 bundle 里因为体积会变大,而且我们的主项目里已经安装了这个 lodash࿰…...
2023年中国工业脱水机行业供需分析:随着自动化和智能化技术的快速发展,销量同比增长4.9%[图]
工业脱水机行业是指专门从湿润的固体物料中去除水分的设备制造和相关服务。它广泛应用于食品加工、化工、制药、纺织、环保等行业,用于去除物料中的水分,提高产品质量和降低能耗。 工业脱水机行业分类 资料来源:共研产业咨询(共研…...
[论文笔记]MacBERT
引言 今天带来MacBERT的阅读笔记。论文题目是 重新审视中文自然语言处理的预训练模型。 本篇主要是探讨中文预训练语言模型在非英文语言中的有效性,然后提出了一种简单而有效的模型,称为MacBERT,它在多个方面改进了RoBERTa,特别是采用纠错型掩码语言模型(MLM as correcti…...
AI发展目前最大挑战是什么?
影响AI成本的因素包括多个方面: 首先,AI技术的复杂性是其成本高昂的一个重要原因。AI技术需要进行大量数据处理、模型训练和优化,这需要耗费大量的计算资源和时间。同时,AI技术需要高水平的专业人才进行设计、开发和维护…...
自然语言处理NLP:LTP、SnowNLP、HanLP 常用NLP工具和库对比
文章目录 常见NLP任务常见NLP工具英文NLP工具中文NLP工具 常见NLP任务 Word Segmentation 分词 – Tokenization Stem extraction 词干提取 - Stemming Lexical reduction 词形还原 – Lemmatization Part of Speech Tagging 词性标注 – Parts of Speech Named entity rec…...
百度交易中台之内容分润结算系统架构浅析
作者 | 交易中台团队 导读 随着公司内容生态的蓬勃发展,内容产出方和流量提供方最关注的“收益结算”的工作,也就成为重中之重。本文基于内容分润结算业务为入口,介绍了实现过程中的重难点,比如千万级和百万级数据量下的技术选型和…...
头条网站模版/信息流优化师培训
ubuntu安裝了wireshark,發現打不開網絡接口,后來從網上得知要用sudo從命令行執行,確實可以,但是執行過程中一直要開一個命令行窗口,不爽,想直接用單擊圖標的方法運行之,在網上查詢找到以下兩個方…...
少儿编程几岁开始学最好/广州seo
nohup 命令的功能是在不挂端的情况下执行命令,默认会输出一个 nohup.out 的文件。 用法: nohup COMMAND [ARG]... nohup OPTION 如果标准输入是终端,则将其从不可读的文件中重定向。 如果标准输出是终端,则尽可能将输出附加到…...
网站有二级域名做竞价/手游推广渠道和推广方式
MRT(MODIS Reprojection Tool)简介:MODIS的全称为中分辨率成像光谱仪(Moderate-Resolution Imaging Spectroradiometer),是搭载在Terra和Aqua卫星上的一个重要的传感器。MRT是一种针对MODIS数据的处理工具。它可以帮助用户把MODIS影像重新投影到更为标准…...
日挣30元的微信小兼职/昆明seo排名
先上代码:naked.cpp:#include "stdafx.h"extern "C" int __declspec(naked) add2(int x,int y) //引用说明支持跨文件的调用{__asm{ //函数的环境初始化(升栈、保护现场、填充缓…...
网站的运营费用吗/百度公司简介
起因: JDK的InheritableThreadLocal类可以完成父子线程值的传递。 但对于使用线程池等会缓存线程的组件的情况,线程由线程池创建好,并且线程是缓存起来反复使用的;这时父子线程关系的上下文传递已经没有意义,应用中要做…...
传奇怎么做充值网站/搜索引擎优化的名词解释
上图一共有5个区间,分别是[0,2]、[2,4]、[8,11]、[7,11]、[15,18]。如果要求这些区间合并后区间的大小,有两种简单的方法。 方法一:比较每两个区间的范围,如果两个区间有交集,则合并它们。最后所有区间会合并成几个离散…...