数据质量怎么监控
目录
一、任务基线级别
二、任务级别 & 表级别
三、字段级别
1. 对指标字段的监控
2. 对维度字段的监控
四、报表级别监控
五、总结
跑了几场面试,数据质量怎么监控是经常被问到的问题,仅次于自我介绍。
因为数据行业发展了几年,数仓大体都建设成型了,数仓建设的方法论大家总结的也都差不多了,现在大家都开始关心数据质量。
在大家心目中,一个合格的数仓要能产出及时、准确的数据,且对数据的质量有自检的过程,做到没问题,或先于别人发现问题。
所以数据质量监控是数仓建设的一个重要部分。
之前的工作中,我总结了一套数据质量监控方法论,在这记一下。
监控分为多个层次,从大到小说。
一、任务基线级别
凡是数仓ETL任务,都有上游和下游,就像B表必须依赖于A表产出,C表又依赖于B表产出。
所有的任务,按上下游的关系组织起来,会形成一个有向无环图,举个例子如下图:
假如E表非常重要(例如是线上服务表),需要对它进行基线级别的监控,把E表配置进基线监控任务后,E表的所有上游就都会进入基线的监控范围。
在上图中,
如果是E表配置基线,基线会同时监控根节点及ABCD表。
如果是D表配置基线,基线同时会监控根节点及AB表。
基线要监控什么呢?主要分为两个方面,所有任务运行时长及结果任务产出时间。
所有任务运行时长:假如A表每天的运行时长是1h,今天突然变成3h了,那么监控系统则会标志此 任务运行异常,会报警给基线负责人和任务负责人。
结果任务产出时间:如果和下游签订了SLA协议,规定E表每天7点前产出,那么如果E表今天6点30还没产出,基线直接预警给基线负责人和任务负责人,预警时间一般会比产出时间要提前一点,给检修任务留出时间。
二、任务级别 & 表级别
对于一个成熟的数仓来说,绝大多数情况下,表和ETL任务都是一一对应的。
上一点中,基线监控了一条任务流,监控强度是最大的,那么仅次于基线的就是单个任务的监控。
单个任务监控什么呢?主要三方面:任务运行时长、任务产出时间、表产出大小。
任务运行时长:某任务平时1h能运行完,今天突然变成3h,那么认为异常,告警给任务负责人。
任务产出时间:某任务平时7点产出,今天7点没产出,那么认为异常,告警给任务负责人。
表产出大小:某表平时每天产出大小1T,今天突然变成500G了,那么认为异常,告警给表负责人。
三、字段级别
任务定时产出,表大小也符合预期,那接下来,我们就要做更细致的监控了。
即字段级别的监控。
字段级别的监控一般通过DQC任务实现( DQC = Data Quality Center,数据质量中心),可监控的内容细致也琐碎,我把字段监控分为两种类型,对指标字段的监控和对维度字段的监控。
1. 对指标字段的监控
对于指标字段,我们一般关心它的均值、最大、最小、中位数等。
指标字段,我们关心它的波动程度,一般来说,会把今天的指标与昨天(日)、近7天的平均值(周)、近30天的平均值(月)做比较,看波动率,波动率超过某个阈值,则告警给DQC任务配置的人(因为配置任务的人最关心这个指标数据的质量)。
2. 对维度字段的监控
维度字段,我们监控三个方面:维度覆盖率、维度占比、维度下指标的波动。
维度覆盖率:例如性别字段,男女,预期覆盖率90%,如果某天数据低于90%,则预警给DQC任务配置的人。
维度占比:例如男女对应的记录条数占比,如果今天男性40%、女性50%、未知10%,以往男性占60%、女性占30%、未知占10%(以往可能是昨天、7天平均、30天平均等)我们有理由怀疑数据质量有问题,预警给DQC任务配置的人。
维度下指标的波动:例如某应用(如微信)男女的平均使用时长,同样可与昨天、7天平均、30天平均作对比,有问题预警给DQC任务配置的人。
四、报表级别监控
报表级别监控一般是把上述的某些监控内容可视化,并广播给项目组所有的人,让大家更直观地看到数据的变化。
报表监控一般用趋势图,陡升陡降在趋势图中会非常明显地看到。
五、总结
总结一下,列个表:
————————————————
版权声明:本文为CSDN博主「疯狂的土豆1652」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_33310807/article/details/129016896
相关文章:
![](https://img-blog.csdnimg.cn/7928123a83434c04b2981e280555fdda.png)
数据质量怎么监控
目录 一、任务基线级别 二、任务级别 & 表级别 三、字段级别 1. 对指标字段的监控 2. 对维度字段的监控 四、报表级别监控 五、总结 跑了几场面试,数据质量怎么监控是经常被问到的问题,仅次于自我介绍。 因为数据行业发展了几年,数…...
![](https://img-blog.csdnimg.cn/eecfd4b0658049da8aa1b5e71beb9a16.png#pic_center)
.NET Core 实现Excel的导入导出
.NET Core 使用NPOI实现Excel的导入导出前言NPOI简介一、安装相对应的程序包1.1、在 “管理NuGet程序包” 中的浏览搜索:“NPOI”二、新建Excel帮助类三、调用3.1、增加一个“keywords”模型类,用作导出3.2、添加一个控制器3.3、编写导入导出的控制器代码…...
![](https://img-blog.csdnimg.cn/img_convert/e997dc65416134e9e0fec5e85a17f9b3.jpeg)
排好队,一个一个来:宫本武藏教你学队列(附各种队列源码)
文章目录前言:理解“队列”的正确姿势一个关于队列的小思考——请求处理队列的两大“护法”————顺序队列和链式队列数组实现的队列链表实现的队列循环队列关于开篇,你明白了吗?最后说一句前言: 哈喽!欢迎来到黑洞晓…...
![](https://img-blog.csdnimg.cn/9031241c9cfb4a7689222ab9acd18e81.png)
C语言--动态内存管理1
目录前言动态内存函数介绍mallocfreecallocrealloc常见的动态内存错误对NULL指针的解引用操作对动态开辟空间的越界访问对非动态开辟内存使用free释放使用free释放一块动态开辟内存的一部分对同一块动态内存多次释放动态开辟内存忘记释放(内存泄漏)对通讯…...
![](https://www.ngui.cc/images/no-images.jpg)
HTTPS 的工作原理
1、客户端发起 HTTPS 请求 这个没什么好说的,就是用户在浏览器里输入一个 https 网址,然后连接到 server 的 443 端口。 2、服务端的配置 采用 HTTPS 协议的服务器必须要有一套数字证书,可以自己制作,也可以向组织申请…...
![](https://img-blog.csdnimg.cn/a729057223d04fd3bc1650985876416f.png)
游戏开发中建议使用半兰伯特光照
游戏开发中建议使用半兰伯特光照模型 在基本光照模型中求出漫反射部分的计算公式: 漫反射 = 入射光线的颜色和强度(c light) * 材质漫反射系数 (m diffuse)* 表面法线(n) * 其光源防线 (I) 在shader中为了不让 n和i的点乘结果为负数,即使用了saturate函数让值截取在[0,1]区…...
![](https://img-blog.csdnimg.cn/img_convert/76b0c6f338e578ff841ad735036b1fd9.png)
JavaScript到底如何存储数据?
1.var的迷幻操作 普遍的观点:JavaScript中的基本数据类型是保存在栈空间,而引用数据类型则是保存在堆空间里, 是否正确? 浏览器环境下JavaScript变量类型的运行实践结果: var a 10;console.log(a);console.log(window.a); console.log(wind…...
![](https://img-blog.csdnimg.cn/img_convert/8f7d3fa3a2991fa77ab9551b869c2891.png)
python实战应用讲解-【numpy专题篇】numpy应用案例(一)(附python示例代码)
目录 用Python分析二手车的销售价格 用Python构建GUI应用的铅笔草图 需要的包 实现步骤 完整代码 用Python分析二手车的销售价格 如今,随着技术的进步,像机器学习等技术正在许多组织中得到大规模的应用。这些模型通常与一组预定义的数据点一起工作…...
![](https://img-blog.csdnimg.cn/23c5299f56e64fda98ee66c4881a8793.png)
网络割接项目
某企业准备采购2台华为设备取代思科旧款设备,针对下列问题作出解答。 (1)做设备替换的时候,如何尽可能保证业务稳定性,请给出解决方案。 a)对现网拓扑进行分析,分析现网拓扑的规划(链路类型、cost、互联IP、互联接口等信息)、分析现网流量模型(路由协议、数据流向特…...
![](https://img-blog.csdnimg.cn/img_convert/77b51acddf1340f699ea241643724fac.png)
SpringBoot整合数据可视化大屏使用
1 前言 DataV数据可视化是使用可视化应用的方式来分析并展示庞杂数据的产品。DataV旨让更多的人看到数据可视化的魅力,帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求, 访问地址:h…...
![](https://img-blog.csdnimg.cn/b3088f3dabaf44a0babd0c360e21c13d.png)
蓝桥杯Web前端练习题-----水果拼盘
一、水果拼盘 介绍 目前 CSS3 中新增的 Flex 弹性布局已经成为前端页面布局的首选方案,本题可以使用 Flex 属性快速完成布局。 准备 开始答题前,需要先打开本题的项目代码文件夹,目录结构如下: ├── css │ └── style.…...
![](https://img-blog.csdnimg.cn/36ac257989cb483ba2c986e8e6ac8a53.png#pic_center)
[攻城狮计划]如何优雅的在RA2E1上运行RT_Thread
文章目录[攻城狮计划]|如何优雅的在RA2E1上运行RT_Thread准备阶段🚗开发板🚗开发环境🚗下载BSP🚗编译烧录连接串口总结[攻城狮计划]|如何优雅的在RA2E1上运行RT_Thread 🚀🚀开启攻城狮的成长之旅࿰…...
![](https://www.ngui.cc/images/no-images.jpg)
1.linux操作命令
1. pwd -> 打印当前绝对工作路径。 2. ls -> 查看目录的文件名 ls -> 默认列出当前目录的全部文件名 ls . -> 列出当前目录的全部文件名(.代表当前目录) ls / -> 列出根目录下的全部文件命名 ls -a -> 列出当前目录下全部文件名(包括隐藏…...
![](https://www.ngui.cc/images/no-images.jpg)
STL--vector
vector 头文件 #include<vector>向量的定义: vector<int> vec;//定义一个vec型的向量a vector<int> vec(5); //定义一个初始大小为5的向量 vector<int> vec(5,1); //初始大小为5,值都为1的向量二维数组࿱…...
![](https://img-blog.csdnimg.cn/485e23fe171340ac8aa6484295c452bf.png)
Java每日一练(20230324)
目录 1. 链表插入排序 🌟🌟 2. 最接近的三数之和 🌟🌟 3. 寻找旋转排序数组中的最小值 🌟🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一…...
![](https://img-blog.csdnimg.cn/img_convert/8d8d59e1dd7c395c7fdd72192c2ef6f0.png)
你掌握了吗?在PCB设计中,又快又准地放置元件
在印刷电路板设计中,设置电路板轮廓后,将零件(占地面积)调用到工作区。然后将零件重新放置到正确的位置,并在完成后进行接线。 组件放置是这项工作的第一步,对于之后的平滑布线工作是非常重要的工作。如果在接线工作期间模块不足…...
![](https://img-blog.csdnimg.cn/2a17b3da5c3044d4a02088ecfc8d3602.png)
springboot学生综合测评系统
031-springboot学生综合测评系统演示录像2022开发语言:Java 框架:springboot JDK版本:JDK1.8 服务器:tomcat7 数据库:mysql 5.7(一定要5.7版本) 数据库工具:Navicat11 开发软件&…...
![](https://img-blog.csdnimg.cn/6750a6203bfa4852a3e76e8204673245.gif)
【Unity3D】法线贴图和凹凸映射
1 法线贴图原理 表面着色器中介绍了使用表面着色器进行法线贴图,实现简单快捷。本文将介绍使用顶点和片元着色器实现法线贴图和凹凸映射,实现更灵活。 本文完整代码资源见→法线贴图和凹凸映射。 1)光照原理 Phong 光照模型和 Blinn Phong 光…...
![](https://www.ngui.cc/images/no-images.jpg)
代码误写到master分支(或其他分支),此时代码还未提交,如何转移到新建分支?
问题背景 有时候,我们拿到需求,没仔细看当前分支是什么,就开始撸代码了。完成了需求或者写到一半发现开发错分支了。 比如此时新需求代码都在master分支上,提交必然是不可能的,所有修改还是要在新建分支上进行&#x…...
![](https://img-blog.csdnimg.cn/40c68dff009b4f87b4856a5022b4a7a0.png)
java多线程之线程安全(重点,难点)
线程安全1. 线程不安全的原因:1.1 抢占式执行1.2 多个线程修改同一个变量1.3 修改操作不是原子的锁(synchronized)1.一个锁对应一个锁对象.2.多个锁对应一个锁对象.2.多个锁对应多个锁对象.4. 找出代码错误5. 锁的另一种用法1.4 内存可见性解决内存可见性引发的线程安全问题(vo…...
![](https://img-blog.csdnimg.cn/img_convert/eb14909c9a90096c2e006a2a7150addc.png)
如何免费使用chatGPT4?无需注册!
Poe体验真滴爽首先提大家问一个大家最关心的问题如何在一年内赚到一百万?用个插件给他翻译一下体验地址效果是非常炸裂的,那么我就将网址分分享给大家https://poe.com/前提:要有魔法,能够科学shangwangChatGPT-3 随便问GPT-4 模型…...
![](https://img-blog.csdnimg.cn/img_convert/bfa78e832a9df687d20406847c682941.png)
Android Flutter在点击事件上添加动画效果
在Android App的开发项目中,我们需要在点击事件上实现一个动画效果来提高用户的体验度。比如闲鱼底部中间按钮的那种。该怎么实现呢? 一起来看看吧 实现效果如图: 实现思路 根据UI的设计图,对每个模块设计好动画效果࿰…...
![](https://img-blog.csdnimg.cn/678509f380804c3ea34160edbebf2fdd.png)
VSCode嵌入式开发环境搭建
Vscode开发环境搭建 看这个链接就可以了,后面下载调试有点问题看下3.3。 在VSCode上部署STM32F1的开发环境 1. MXCube配置工程生成Makefile文件 借助正确的编译工具链进行编译, 2. 编译工具链搭建 编译工具链使用GCC的ARM版本 arm-none-eabi-gcc &am…...
![](https://www.ngui.cc/images/no-images.jpg)
数据结构之栈的使用
栈是计算机科学中一个重要的数据结构。它是一种特殊的线性表,只允许在一端进行进出操作。这一端被称为栈顶,另外一端被称为栈底。栈的特点是后进先出,即最后进入栈的元素会先被弹出栈。栈的应用广泛,例如在编译器中,栈…...
![](https://img-blog.csdnimg.cn/9e5615f5b3d845e49981aecd2725a917.png)
QMessageBox手动添加按钮并绑定按钮的信号
视频展示效果(结合代码看效果更佳哦,代码在最下面): QMessageBox手动添加有重试效果的按钮效果图: 点击详细文本之后展开如下图: 图标可选: QMessageBox::Critical错误图标QMessageBox::NoIco…...
![](https://img-blog.csdnimg.cn/cbc62677e1964888bf18489f0a8af369.png)
【C++进阶】位图和布隆过滤器
文章目录位图位图概念位图使用场景位图的结构构造setresettest完整代码布隆过滤器布隆过滤器概念布隆过滤器结构构造setresettest完整版代码位图 位图概念 所谓位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用…...
![](https://img-blog.csdnimg.cn/img_convert/6a8173fec23674fdb4907097bec46cf0.png)
Android开发-Android UI与布局
01 Android UI 1.1 UI 用户界面(User Interface,简称 UI,亦称使用者界面)是系统和用户之间进行交互和信息交换的媒介,它实现信息的内部形式与人类可以接受形式之间的转换。软件设计可分为两个部分:编码设计与UI设计。 1.2 Andr…...
![](https://img-blog.csdnimg.cn/a96e2c0963af429db614bfa77ca84609.png)
在不丢失数据的情况下解锁锁定的 Android 手机的 4 种方法
尽管您可以使用指纹解锁手机,但大多数智能手机都需要 PIN 码、图案或字母数字代码作为主密码。如果您有一段时间没有输入手机密码,很容易忘记。正是由于这个原因,即使您打开了指纹解锁,大多数智能手机也会让您每天至少输入一次 PI…...
![](https://img-blog.csdnimg.cn/246902c993704c13a4a211cb529d0b41.jpeg)
【11】核心易中期刊推荐——人工智能 | 图形图像处理
🚀🚀🚀NEW!!!核心易中期刊推荐栏目来啦 ~ 📚🍀 核心期刊在国内的应用范围非常广,核心期刊发表论文是国内很多作者晋升的硬性要求,并且在国内属于顶尖论文发表,具有很高的学术价值。在中文核心目录体系中,权威代表有CSSCI、CSCD和北大核心。其中,中文期刊的数…...
![](https://www.ngui.cc/images/no-images.jpg)
Spring 中的事件发布与监听
主要代码在org.springframework.context,org.springframework.context.event包中 事件发布与监听主要包含以下角色: 事件:ApplicationEvent事件监听器:ApplicationListener SmartApplicationListener GenericApplicationListene…...
![](https://img-bss.csdn.net/201805071540536828.png)
上海建站模板网站/教育培训报名
【2018版】SpringMVC入门视频课程(适合初学者的教程)—272人已学习 课程介绍 本课程以通俗易懂的方式讲解SpringMVC核心技术,适合初学者的教程,让你少走弯路! 1.SpringMVC简介和实现原理、Controller详解、方法的参…...
![](/images/no-images.jpg)
龙岗网站制作公司/获客渠道有哪些
插件名说明open in browser浏览器中打开live server实时预览prettier代码格式化 Auto Close Tag Chinese (Simplified) Auto Rename Tag Beautify BEM Helper Code Runner CSS Tree Easy LESS EditorConfig for VS Code Git Graph GitHub Copilot HTML CSS Support Live Server…...
![](/images/no-images.jpg)
哈尔滨网站建设制作哪家便宜/搜索引擎营销与seo优化
【零样本知识蒸馏】(八)CVPR 2020:Dreaming to Distill: Data-free Knowledge Transfer via DeepInversion 论文地址:代码地址:主要思路:基本符号:知识蒸馏:DeepDream:具体实现:DI:ADI:实验结果:论文地址: https://arxiv.org/abs/1912.08795 代码地址: https…...
![](/images/no-images.jpg)
买网站账号做推广/百度识图网页入口
路由器:2600/2610/2620、3620/3640、7200、7600 交换机:2950/2960、3550/3560转载于:https://blog.51cto.com/jackcyc/748923...
![](https://yqfile.alicdn.com/f20c8a7ae7e38c9cb81574fd9279a569505f14a2.png)
网站建设烟台/北京疫情太严重了
出品丨Docker公司(ID:docker-cn)编译丨小东每周一、三、五 与您不见不散! 早前,我们分享了一篇名为“镜像扫描基于策略的镜像提升”,打造安全的 Kubernetes 供应链!的文章,它主要介绍…...
![](https://images0.cnblogs.com/blog/251562/201411/191015257345906.png)
广州云脑网站建设/媒体吧软文平台
效果: 代码: 第一步:页面底部放两个浮动层,让指向图标不透明: <div class"share" style"display:none;filter:alpha(Opacity30);-moz-opacity:0.9;opacity: 0.5;width:100%;height:90%; background:…...