数据仓库之维度建模
维度建模(Dimensional Modeling)是一种用于数据仓库设计的方法,旨在优化查询性能并提高数据的可读性。它通过组织数据为事实表和维度表的形式,提供直观的、易于理解的数据模型,使业务用户能够轻松地进行数据分析和查询。
维度建模的基本概念
-
事实表(Fact Table)
- 定义:存储与业务过程相关的度量数据(Measures),如销售金额、订单数量等。
- 特征:
- 度量:数值型数据,可以进行聚合(如求和、平均)。
- 外键:引用多个维度表的主键。
- 记录量大:每条记录代表一个业务事件或事务。
-
维度表(Dimension Table)
- 定义:存储业务实体的描述性信息,为事实表中的度量提供上下文。
- 特征:
- 主键:单一列,通常是代理键(Surrogate Key)。
- 属性:多个描述性的属性(如客户姓名、产品类别、日期等)。
- 记录量小:相对事实表记录数较少,且变化缓慢。
维度建模的步骤
- 选择业务过程:确定需要建模的业务过程,如销售、订单、库存等。
- 声明粒度:确定事实表的粒度,即一条事实记录所代表的业务事件的详细程度。
- 识别维度:确定与业务过程相关的维度,如时间、地点、产品、客户等。
- 识别事实:确定需要在事实表中存储的度量数据。
维度建模的典型模式
-
星形模型(Star Schema)
- 结构:一个中心事实表,周围连接多个维度表,结构类似星形。
- 特点:结构简单、查询性能高、易于理解和实现。
- 示例:销售数据仓库的星形模型。
-
雪花模型(Snowflake Schema)
- 结构:星形模型的扩展,维度表进行规范化处理,进一步分解为子维度表。
- 特点:数据冗余减少、存储空间节省、查询性能稍低于星形模型。
- 示例:产品维度表进一步分解为产品类别表、品牌表等。
-
星座模型(Constellation Schema)
- 结构:多个事实表共享维度表,形成复杂的多星形结构。
- 特点:能够支持多个业务过程的分析需求,灵活性高。
- 示例:销售和订单数据仓库共享时间和客户维度。
维度建模的设计技巧
-
代理键(Surrogate Key)
- 定义:人工生成的唯一标识符,作为维度表的主键。
- 优点:避免使用业务主键,提高数据一致性和查询性能。
- 实现:通常使用自增序列或 UUID 作为代理键。
-
缓慢变化维度(Slowly Changing Dimensions, SCD)
- 类型:
- SCD Type 1:直接覆盖旧值,简单快速。
- SCD Type 2:新增记录,保留历史数据,适合需要追踪变化的场景。
- SCD Type 3:增加字段,存储历史和当前值,适合需要追踪最近一次变化的场景。
- 选择:根据业务需求选择合适的 SCD 类型。
- 类型:
-
退化维度(Degenerate Dimension, DD)
- 定义:事实表中没有对应维度表的维度,通常是业务事务号或标识符。
- 用途:简化模型设计,减少维度表的数量。
-
多值维度(Multi-valued Dimension)
- 定义:一个事实记录与多个维度值相关联。
- 实现:通常通过桥接表(Bridge Table)解决多对多关系。
- 示例:一个订单可以包含多个产品。
-
度量聚合(Aggregated Measures)
- 定义:对度量数据进行预聚合,如月度销售总额、季度利润等。
- 优点:提高查询性能,减少运行时的计算量。
- 实现:在事实表中增加预聚合列或创建汇总事实表。
维度建模的示例
假设我们有一个零售商的销售数据仓库,以下是一个星形模型的示例:
销售事实表(Sales Fact Table)
| 时间键(Time Key) | 产品键(Product Key) | 客户键(Customer Key) | 销售金额(Sales Amount) | 销售数量(Sales Quantity) |
|---|---|---|---|---|
| 20220101 | 1001 | 5001 | 1000.00 | 10 |
| 20220101 | 1002 | 5002 | 1500.00 | 15 |
| ... | ... | ... | ... | ... |
时间维度表(Time Dimension Table)
| 时间键(Time Key) | 年(Year) | 季度(Quarter) | 月(Month) | 日(Day) |
|---|---|---|---|---|
| 20220101 | 2022 | Q1 | 1 | 1 |
| 20220102 | 2022 | Q1 | 1 | 2 |
| ... | ... | ... | ... | ... |
产品维度表(Product Dimension Table)
| 产品键(Product Key) | 产品名称(Product Name) | 类别(Category) | 品牌(Brand) |
|---|---|---|---|
| 1001 | 产品A | 电子产品 | 品牌X |
| 1002 | 产品B | 家居用品 | 品牌Y |
| ... | ... | ... | ... |
客户维度表(Customer Dimension Table)
| 客户键(Customer Key) | 客户姓名(Customer Name) | 地址(Address) | 联系方式(Contact Info) |
|---|---|---|---|
| 5001 | 客户甲 | 地址A | 联系方式A |
| 5002 | 客户乙 | 地址B | 联系方式B |
| ... | ... | ... | ... |
维度建模的优缺点
优点
- 高效查询:模型设计优化了查询性能,适合复杂的分析查询。
- 易于理解:维度建模结构简单直观,业务用户容易理解。
- 灵活扩展:新增维度和事实表较为方便,支持业务需求变化。
缺点
- 维护成本:需要处理缓慢变化维度,数据清洗和转换过程复杂。
- 数据冗余:维度表中可能存在数据冗余,增加存储开销。
- 复杂性:随着业务复杂度增加,模型设计和维护变得更加复杂。
维度建模是数据仓库设计中的核心技术,通过合理的模型设计,可以显著提升数据分析和查询的效率,为业务决策提供强有力的支持。
相关文章:
数据仓库之维度建模
维度建模(Dimensional Modeling)是一种用于数据仓库设计的方法,旨在优化查询性能并提高数据的可读性。它通过组织数据为事实表和维度表的形式,提供直观的、易于理解的数据模型,使业务用户能够轻松地进行数据分析和查询…...
解决远程服务器连接报错
最近使用服务器进行数据库连接和使用的时候出现了一个报错: Error response from daemon: Conflict. The container name “/mysql” is already in use by container “1bd3733123219372ea7c9377913da661bb621156d518b0306df93cdcceabb8c4”. You have to remove …...
通过电脑查看Wi-Fi密码的方法,提供三种方式
式一: 右击桌面右下角的网络图标,依次选择【网络和Internet设置】、【WLAN】、【网络和共享中心】。点击已连接的无线网络。依次点击【无线属性】、【安全】,勾选下方【显示字符】即可。 方式二: 在开始菜单输入“cmd”进入命令…...
Nvidia 目前的市值为 3.01 万亿美元,超过苹果Apple
人工智能的繁荣将英伟达的市值推高到足以使其成为全球第二大最有价值的公司。 英伟达已成为全球第二大最有价值的公司。周三下午,这家芯片制造巨头的市值达到 3.01 万亿美元,领先于苹果公司的 3 万亿美元。 喜好儿网AIGC专区:https://heehe…...
用langchain搭配最新模型ollama打造属于自己的gpt
langchain 前段时间去玩了一下langchain,熟悉了一下大模型的基本概念,使用等。前段时间meta的ollama模型发布了3.0,感觉还是比较强大的,在了解过后,自己去用前后端代码,调用ollama模型搭建了一个本地的gpt应用。 核心逻辑 开始搭…...
工业互联网基本概念及关键技术(295页PPT)
资料介绍: 工业互联网的核心是通过工业互联网平台把设备、生产线、工厂、供应商、产品和客户紧密地连接融合起来。这种连接能够形成跨设备、跨系统、跨厂区、跨地区的互联互通,从而提高效率,推动整个制造服务体系智能化。同时,工…...
Python pandas openpyxl excel合并单元格,设置边框,背景色
Python pandas openpyxl excel合并单元格,设置边框,背景色 1. 效果图2. 源码参考 1. 效果图 pandas设置单元格背景色,字体颜色,边框 openpyxl合并单元格,设置丰富的字体 2. 源码 # excel数字与列名互转 import o…...
【vue3|第7期】 toRefs 与 toRef 的深入剖析
日期:2024年6月6日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方ÿ…...
git代码冲突处理软件P4Merge
文章目录 1. 下载安装2. 配置脚本参考链接 1. 下载安装 下载地址:https://www.perforce.com/downloads/helix-visual-client-p4v 下载教程:http://blog.csdn.net/wirelessqa/article/details/9035215 这里下载之前需要注册。 2. 配置脚本 编写一个全局…...
Unity物体材质属性Offset动态偏移
Unity物体材质属性Offset动态偏移 MeshRenderer mr;float offset;public float scrollSpeed 0.5F;private void Start(){mr GetComponent<MeshRenderer>();}void Update(){offset -Time.time * scrollSpeed;mr.material.mainTextureOffset new Vector2(0, -offset);}…...
【数据结构】筛选法建堆
💞💞 前言 hello hello~ ,这里是大耳朵土土垚~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 💥个人主页&#x…...
DevExpress Installed
一、What’s Installed 统一安装程序将DevExpress控件和库注册到Visual Studio中,并安装DevExpress实用工具、演示应用程序和IDE插件。 Visual Studio工具箱中的DevExpress控件 Visual Studio中的DevExpress菜单 Demo Applications 演示应用程序 Launch the Demo…...
解决QT QMessageBox 弹出需点击两次才能关闭问题
放个链接不迷路:添加链接描述...
Milvus--向量数据库
Milvus 是一个开源的向量数据库,专为高维向量数据的存储、查询和检索而设计。它支持多种类型的向量数据,如浮点数向量、整数向量等,并且提供了强大的向量相似度计算功能。Milvus采用分布式架构,可以轻松地扩展到大规模数据集&…...
php质量工具系列之PHPCPD
PHPCPD 用于检测重复代码,直观的说就是复制粘贴再稍微改改 该工具作者已经 停止维护 安装 composer global require --dev sebastian/phpcpd执行 phpcpd --log-pmd phpcpd_result.xml ./app参数介绍 --log-pmd 将结果保存在phpcpd_result.xml 中 ./app 是phpcpd扫…...
Android14 WMS-窗口绘制之relayoutWindow流程(二)-Server端
本文接着如下文章往下讲 Android14 WMS-窗口绘制之relayoutWindow流程(一)-Client端-CSDN博客 然后就到了Server端WMS的核心实现方法relayoutWindow里 WindowManagerService.java - OpenGrok cross reference for /frameworks/base/services/core/java/com/android/server…...
安全测试 之 安全漏洞:SQL注入
1. 背景 持续学习安全测试ing,安全测试是在IT软件产品的生命周期中,特别是产品开发基本完成到发布阶段,对产品进行检验以验证产品是否符合安全需求定义和产品质量标准的过程。也就是说安全测试是建立在功能测试的基础上进行的测试。 2. SQL…...
CUDA和驱动版本之间的对应关系
这个之前总结过,可是不太好找,专门写一篇博客再总结一下: 1. CUDA 12.5 Release Notes — Release Notes 12.5 documentation 相信很多朋友有一样的需求。...
MDK(μVsion3)问题总结及解决方法
问题 1:MDK 工具的 CARM 编译器? 我原来对 CARM 编译器比较熟悉,想用 CARM 编译器编译工程,但是却弹出一个不能执 行“cc”的错误,到 KEIL 网站查下才知道原因:由于 CARM 编译器是比较老的编译器࿰…...
手眼标定学习笔记
目录 标定代码: 手眼标定原理学习 什么是手眼标定 手眼标定的目的 eye in hand eye to hand AXXB问题的求解 标定代码: GitHub - pumpkin-ws/HandEyeCalib 推荐博文: https://zhuanlan.zhihu.com/p/486592374 手眼标定原理学习 参…...
日语AI面试高效通关秘籍:专业解读与青柚面试智能助攻
在如今就业市场竞争日益激烈的背景下,越来越多的求职者将目光投向了日本及中日双语岗位。但是,一场日语面试往往让许多人感到步履维艰。你是否也曾因为面试官抛出的“刁钻问题”而心生畏惧?面对生疏的日语交流环境,即便提前恶补了…...
日语学习-日语知识点小记-构建基础-JLPT-N4阶段(33):にする
日语学习-日语知识点小记-构建基础-JLPT-N4阶段(33):にする 1、前言(1)情况说明(2)工程师的信仰2、知识点(1) にする1,接续:名词+にする2,接续:疑问词+にする3,(A)は(B)にする。(2)復習:(1)复习句子(2)ために & ように(3)そう(4)にする3、…...
【配置 YOLOX 用于按目录分类的图片数据集】
现在的图标点选越来越多,如何一步解决,采用 YOLOX 目标检测模式则可以轻松解决 要在 YOLOX 中使用按目录分类的图片数据集(每个目录代表一个类别,目录下是该类别的所有图片),你需要进行以下配置步骤&#x…...
leetcodeSQL解题:3564. 季节性销售分析
leetcodeSQL解题:3564. 季节性销售分析 题目: 表:sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...
大模型多显卡多服务器并行计算方法与实践指南
一、分布式训练概述 大规模语言模型的训练通常需要分布式计算技术,以解决单机资源不足的问题。分布式训练主要分为两种模式: 数据并行:将数据分片到不同设备,每个设备拥有完整的模型副本 模型并行:将模型分割到不同设备,每个设备处理部分模型计算 现代大模型训练通常结合…...
用docker来安装部署freeswitch记录
今天刚才测试一个callcenter的项目,所以尝试安装freeswitch 1、使用轩辕镜像 - 中国开发者首选的专业 Docker 镜像加速服务平台 编辑下面/etc/docker/daemon.json文件为 {"registry-mirrors": ["https://docker.xuanyuan.me"] }同时可以进入轩…...
微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据
微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。 您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。 您还将了解如何分析列,以便知晓哪些列包含有价值的数据,…...
算法笔记2
1.字符串拼接最好用StringBuilder,不用String 2.创建List<>类型的数组并创建内存 List arr[] new ArrayList[26]; Arrays.setAll(arr, i -> new ArrayList<>()); 3.去掉首尾空格...
#Uniapp篇:chrome调试unapp适配
chrome调试设备----使用Android模拟机开发调试移动端页面 Chrome://inspect/#devices MuMu模拟器Edge浏览器:Android原生APP嵌入的H5页面元素定位 chrome://inspect/#devices uniapp单位适配 根路径下 postcss.config.js 需要装这些插件 “postcss”: “^8.5.…...
LangChain知识库管理后端接口:数据库操作详解—— 构建本地知识库系统的基础《二》
这段 Python 代码是一个完整的 知识库数据库操作模块,用于对本地知识库系统中的知识库进行增删改查(CRUD)操作。它基于 SQLAlchemy ORM 框架 和一个自定义的装饰器 with_session 实现数据库会话管理。 📘 一、整体功能概述 该模块…...
