当前位置: 首页 > news >正文

数据质量管理的四个阶段


然而,我们需要按照什么流程来对数据质量进行有效的管控,从而提升数据质量,释放数据价值?一般来讲,数据质量控制流程分为4个阶段:启动、执行、检查、处理。在管控过程中这4个阶段需不断循环,螺旋上升。

第一阶段:启动

在这个阶段我们需要根据所在机构的现行组织架构和工作规范基础上,建立一套质量管控流程和规范,如建立质量管控委员会、制定质量管控办法等。质量管控委员会不必是全职,可由现有组织中如信息中心相关人员兼任。
而关于数据质量管控办法则应明确质量管控的角色、职责,建立可执行的工作流程、可量化的工作评估方法,同时也应具备绩效考核、冲突解决与管控方式等。
有了流程和规范后,相应的责任人就应明确本轮质量管控的目标。如:数据质量提升范围,或是满足一些业务的预期。目标制定完成后我们就可以进入下一个执行阶段。

第二阶段:执行

进入执行阶段,我们就要开始具体的质量管控工作,整个工作应该围绕启动阶段制定的目标进行。适当引入一些质量管控工具可帮助我们更高效的完成工作。

第一步、数据剖析

首先应该进行已知数据问题的评估,这里评估的范围也应控制本轮管控的目标范围内。其次,通过对数据进行剖析,发现数据问题,具体规则又可通过标准或业务调研进行提取。
1)根据标准,提出标准规则比如,我们可以根据标准,提炼出如下图所示的编码规则,并进行检验。
      
2)调研业务,提取业务规则接着,我们可以从业务调研中提取规则,如金融业的大中小微企业贷款当年累放额计算口径:大中小微企业贷款当年累计发放额=大型企业贷款当年累计发放额+中型企业贷款当年累计发放额+小型企业贷款当年累计发放额+微型企业贷款当年累计发放额+个人经营性贷款当年累计发放额,这样的指标计算规则,并进行检查管控。
当然业务规则也可以是围绕我们既定的业务预期展开。目标不同,业务剖析的方向也应随之调整。

第二步、设计数据质量控制操作程序

获得已知数据问题后,就应设计数据质量控制操作程序。主要包括以下3个方面:
1)制定检查和监控的频率及方式2)制定质量问题评估方式和整改方式3)制定质量报告内容及对象

第三步、定义数据质量需求


根据剖析的质检规则和控制操作程序,对数据质量需求进行定义,这里又可拆分成以下三步。
1)梳理数据模型梳理数据模型的主要工作是确定检查对象实体之间的关系,如关键字、主外键关系梳理、字段类型、长度等。
   2)建立质量规则这一步是将我们剖析的数据检验业务规则,转化成可执行、有结果的技术规则。
 
    
3)建立质检方案将可以同时评价且主责部门划分一致的规则集合起来,建立质检方案。也可根据业务或者评价规范再对规则进行细分并建立方案。
    

第四步、确定数据质量水平

数据质量需求定义完毕之后,我们就需要确定在此需求下,目前数据质量的水平处于什么位置。明确反应质量水平的并最直观的就是错误数据的详情情况,如下图所示。           
根据汇报的对象不同,一般也需要出具质检情况的统计报告。
 

第五步、管理数据质量问题

问题找到,下一步我们就应该进行问题的管理了。根据不同的质量问题,进行不同的质量整改方案。一般方式有以下4种:
1)源头修改,即问题数据生产系统中进行修改。2)补录,即在数据中心,建立一个新的仓库,针对数据问题进行补充录入,一般情况为源系统升级或其他原因导致无法从源系统进行修改,而采取的变通方案。3)技术修复,即通过如ETL工具等技术手段,对问题数据进行清洗、转换。
    4)遗留问题管控,即对一些无法修复处理的数据进行特殊处理,一般情况下进行标记或者例外处理。            

第三阶段:检查

检查阶段,主要是对执行阶段的成果进行检查并分析原因,包括以下3个方面。


1)确定改质量对处理后的数据进行再次质检,出具数据质量的报告。


2)对比整改效果对比处理前后效果,总结改进措施。
    3)检查数据质量是否合格,分析不合格原因在这轮管控中检查数据质量是否合格,并找到不合格的原因,在下一轮管控中进行技术上或者操作程序上的改进。

第四阶段:处理

1)监控数据质量,控制管理程序和绩效根据既定的操作程序,对质量管控过程中各个环节参与者进行绩效评估。还可以根据不同时期的重点制定不同的评分标准,有针对性的进行评价和管控,如整改初期数据缺失严重,则可对完整性规则权重调大,以期更快看到成效或者达到更好的效果。

2)建立质量控制意识与文化在这一步中沟通与推广是重点,要让所有参与者了解数据质量问题和其实质影响,宣贯系统化的数据质量管控方法,同时挖掘各个环节参与者的价值,尤其是业务方,传达一种“数据质量问题不能只靠技术手段解决”的意识。最终形成一种数据质量管理的文化。

相关文章:

数据质量管理的四个阶段

然而,我们需要按照什么流程来对数据质量进行有效的管控,从而提升数据质量,释放数据价值?一般来讲,数据质量控制流程分为4个阶段:启动、执行、检查、处理。在管控过程中这4个阶段需不断循环,螺旋…...

Spring源码面试最难问题——循环依赖

前言 问:Spring 如何解决循环依赖? 答:Spring 通过提前曝光机制,利用三级缓存解决循环依赖(这原理还是挺简单的,参考:三级缓存、图解循环依赖原理) 再问:Spring 通过提前…...

【计组】RAM的深入理解

一、存储机理 RAM的实现逻辑有种,分别是触发器和电容。 SRAM(Static)DRAM(Dynamic)存储方式触发器电容破坏性读出否(触发器具有稳态,能够锁住0或1两种状态)是(电容需要…...

JavaScript 之数据交互

在前后端交互中,前端通常需要对接口返回的数据进行格式转换、遍历、循环等;通常会用到以下函数和方法: forEach()、map()遍历数组(map返回新的数组);forEach()只能使用try catah终止循环;for in…...

Python 十大开源Python库,看看你熟悉几个?

嗨害大家好鸭!我是芝士❤ 对于码农来说, 关注的永远是新近有什么流行的、 既能解决问题又好用的利器。 本文就为你盘点十大开源Python库。 1、Pipenv 第一名非它莫属, 这个工具2017年初才发布, 但它已经能够影响每个Python开发…...

不愧是阿里开发的SpringBoot实战文档:入门+基础+进阶+项目,应有尽有

SpringBoot SpringBoot毋庸置疑,在Java开发中会因为项目流量太大需要切换到SpringCloud(SpringBoot)也会极为顺利。而且现在越来越多的公司都在采用SpringBoot,对SpringBoot关注和使用的开发者也越来越多了! SpringB…...

Vue(3)-vue中的Ajax、Vuex、路由及UI组件库

课程链接 目录4.Vue中的Ajax4.1.vue脚手架配置代理4.1.1.方法一4.1.2.方法二4.2.插槽5.Vuex5.1.理解Vuex5.1.1.概念5.1.2.何时使用?5.1.3.vuex原理5.2.vuex使用5.2.1.搭建vuex环境5.2.2.基本使用5.2.3.getters的使用5.2.4.四个map方法的使用5.2.5.模块化命名空间6.路…...

jwt 学习笔记

概述 JWT,Java Web Token,通过 JSON 形式作为 Web 应用中的令牌,用于在各方之间安全地将信息作为 JSON 对象传输,在数据传输过程中还可以完成数据加密、签名等相关处理 JWT 的作用如下: 授权:一旦用户登…...

网络安全实战从 0 到 1 彻底掌握 XXE

0x01 什么是 XXE个人认为,XXE 可以归结为一句话:构造恶意 DTD介绍 XXE 之前,我先来说一下普通的 XML 注入,这个的利用面比较狭窄,如果有的话应该也是逻辑漏洞。既然能插入 XML 代码,那我们肯定不能善罢甘休…...

如何安装 Composer

下载 Composer 安装前请务必确保已经正确安装了 PHP。打开命令行窗口并执行 php -v 查看是否正确输出版本号。 打开命令行并依次执行下列命令安装最新版本的 Composer: php -r "copy(https://install.phpcomposer.com/installer, composer-setup.php);"p…...

WPF 常用控件

WPF六种常用控件:布局控件、内容控件、带标题内容控件、条目控件、带标题条目控件和特殊内容控件(如:TextBox,TextBlock,Image等)。实例链接:WPF常用控件实例Window(窗体)Winodw窗体派生自ContentControl,有一个Content属性,里面可…...

河南工程学院蓝桥培训(2.21)

1&#xff0c;金币 461. 金币 - AcWing题库 #include <iostream> using namespace std; int n,a,ans,s; int main(){cin>>n;while(n--){if(a0)as;anss,a--;}cout<<ans;return 0; }...

新人使用Git获取远程仓库项目

前言 这篇git技术篇非常的简单基础&#xff0c;写它的原因很简单&#xff0c;因为现在很多的年轻人都很浮躁&#xff0c;刚入门就想学最牛x的&#xff0c;看不起基础的一些技术&#xff0c;比如说git操作、Linux基础命令&#xff0c;编程基础啥的。我身边有很多这样的年轻人&a…...

理解信号的

在日常生活中我们也经常面临许多的信号&#xff0c;手机通知、过红绿灯。。。这些信号在没有发生之前我们就知道这种信号产生我们需要干什么&#xff0c;那Linux里信号产生后&#xff0c;又怎么知道要做什么呢&#xff1f; -- 那当然是由程序员自己去设置啊 由于我们的用户空间…...

SpringSecurity学习(七)授权

授权 什么是权限管理 权限管理核心概念 SpringSecurity权限管理策略 基于URL地址的权限管理 基于方法的权限管理 一、权限管理 二、授权核心概念 在认证的过程成功之后会将当前用户登录信息保存到Authentication对象中&#xff0c;Authentication对象中有一个getAuthorities…...

【Vue3】模板语法

&#x1f3c6;今日学习目标&#xff1a;模板语法 &#x1f603;创作者&#xff1a;颜颜yan_ ✨个人格言&#xff1a;生如芥子&#xff0c;心藏须弥 ⏰本期期数&#xff1a;第三期 &#x1f389;专栏系列&#xff1a;Vue3 文章目录前言声明响应式状态插值文本Attribute&#xff…...

Linux基础

环境搭建&#xff1a;linux安装、远程连接常用命令&#xff1a;文件、目录、拷贝、移动、打包、压缩、文本编辑安装软件&#xff1a;文件上传、jdk、tomcat、mysql项目部署&#xff1a;Java应用、Python应用、日志查看、系统管理、用户权限Linux是一套免费使用、自由传播的操作…...

Spark-序列化、依赖关系、持久化

序列化 闭包检查 序列化方法和属性 依赖关系 RDD 血缘关系 RDD 窄依赖 RDD 宽依赖 RDD 任务划分 RDD 持久化 RDD Cache 缓存 RDD CheckPoint 检查点 缓存和检查点区别 序列化 闭包检查 从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 E…...

蓝桥杯刷题冲刺 | 倒计时16天

作者&#xff1a;指针不指南吗 专栏&#xff1a;蓝桥杯倒计时冲刺 &#x1f43e;马上就要蓝桥杯了&#xff0c;最后的这几天尤为重要&#xff0c;不可懈怠哦&#x1f43e; 文章目录1.青蛙跳杯子1.青蛙跳杯子 题目 链接&#xff1a; 青蛙跳杯子 - 蓝桥云课 (lanqiao.cn) X 星球的…...

Java设计模式-12 、建造者模式

建造者模式 &#xff08;将一个 复杂对象的构建与它的表示分离&#xff0c;使得同样的构建过程可以创建不同的表示。&#xff09; 建造者模式是一种创建型的模式&#xff0c;有一些对象的创建过程new 是很繁杂的。 什么时候去使用建造者模式 由上文可以得出在一些对象创建…...

一款全新的基于GPT4的Python神器,关键还免费

chartgpt大火之后&#xff0c;随之而来的就是一大类衍生物了。 然后&#xff0c;今天要给大家介绍的是一款基于GPT4的新一代辅助编程神器——Cursor。 它最值得介绍的地方在于它免费&#xff0c;我们可以直接利用它来辅助我们编程&#xff0c;真正做到事半功倍。 注意&#…...

上岸整理:2023前端面试题-vue,小程序,js,css

前端&#xff1a; 今年疫情结束后&#xff0c;前端行情不好&#xff0c;竞争压力很大&#xff0c;现在整理下个人认为面试很频繁的前端问题。 正题&#xff1a;无分类&#xff0c;因为面试官的问题也是随机的 一、基础 1、浏览器常见的报错信息与含义 2、304与204的区别&am…...

Linux下LED设备驱动开发(LED灯实现闪烁)

文章目录一、配置连接说明二、更新设备树&#xff08;1&#xff09;将led灯引脚添加到pinctrl子系统&#xff08;2&#xff09;设备树中添加LDE灯的设备树节点&#xff08;3&#xff09;编译更新设备树三、驱动开发与测试&#xff08;1&#xff09;编写设备驱动代码&#xff08…...

JavaEE-多线程中wait和notify都有哪些区别?

更多内容请点击了解 本篇文章将详细讲述wait和notify的区别&#xff0c;请往下看 目录 更多内容请点击了解 文章目录 一、wait和notify概念 二、wait()方法详解 三、notify()方法详解 代码如下&#xff1a; 3.1notifyAll()详解 四、wait和sleep的对比 一、wait和notif…...

JavaScript实现列表分页(小白版)

组件用惯了&#xff0c;突然叫你用纯cssJavaScript写一个分页&#xff0c;顿时就慌了。久久没有接触js了&#xff0c;不知道咋写了。本文章也是借与参考做的一个demo案例&#xff0c;小白看了都会的那种。咱们就以ul列表为例进行分页&#xff1a; 首先模拟的数据列表是这样的&a…...

Python调用GPT3.5接口的最新方法

GPT3.5接口调用方法主要包括openai安装、api_requestor.py替换、接口调用、示例程序说明四个部分。 1 openai安装 Python openai库可直接通过pip install openai安装。如果已经安装openai&#xff0c;但是后续提示找不到ChatCompletion&#xff0c;那么请使用命令“pip instal…...

Java开发 - 拦截器初体验

目录 前言 拦截器 什么是拦截器 拦截器和过滤器 Spring MVC的拦截器 Mybatis的拦截器...

【数据仓库-7】-- 使用维度建模的一些缘由

维度建模是一种用于设计数据仓库和商业智能系统的方法。以下是选择维度建模的两类理由。 1.传统方法,有背书且可靠 易于理解和使用:维度建模使用直观的图形和术语,使得非技术人员也能够理解和使用数据仓库和商业智能系统。 快速开发和部署:维度建模是一种迭代开发方法,能…...

【开发实践】在线考试系统(一) 生成错题知识点的思维导图

一、需求分析设计 笔者开发了一个在线考试系统&#xff0c;导师提出一个需求&#xff1a;添加对考试错题相关知识点的总结。 在question表中关联知识点的编号&#xff0c;题目可能关联多个知识点。这里笔者的设计是&#xff0c;只关联一个知识点&#xff0c;便于维护。 下面是知…...

Java Web 实战 17 - 计算机网络之传输层协议(2)

大家好 , 这篇文章继续给大家讲解 TCP 协议当中的一些操作 , 比如 : 滑动窗口、流量控制、拥塞控制、延时应答、捎带应答、面向字节流这几个提升 TCP 效率的操作 . 我们还会给大家分析 TCP 连接出现异常的时候 , 该如何处理 . 最后会将 TCP 和 UDP 进行比较 上一篇文章的链接也…...

怎么制作个人求职网站/国产十大erp软件

文章目录TCP服务器与客户端TCP基础net模块创建TCP服务器和客户端UDP服务器与客户端UDP基础dgram模块创建UDP服务器和客户端WebSocket服务器与客户端WebSocket实现机制WebSocket构建实时聊天室学习文章&#xff1a;Node.js 网络编程 &#xff08;上&#xff09;Web基础知识、实现…...

html 网站源码 卖手机/互联网营销的方法

2019独角兽企业重金招聘Python工程师标准>>> (index):11 Uncaught ReferenceError: testAlert is not definedat HTMLInputElement.onclick ((index):11)解决&#xff1a; if后面漏了{。 要从chrome控制台看。否则很难定位。 Uncaught SyntaxError: Unexpected toke…...

jira confluence做网站/自动收录网

导读&#xff1a;电脑是一种高科技产品&#xff0c;它能够给工作、生活带来极大的方便&#xff0c;同时还具有娱乐功能。它操作一点都不费力&#xff0c;特别适合中老年人的生理特点。经常使用电脑可以健脑增智。电脑的操作需要手眼的配合&#xff0c;人的手指内有丰富的神经&a…...

遵义做网站建设哪家公司好/软件工程培训机构哪家好

转载 https://jingyan.baidu.com/article/b0b63dbf570c094a49307072.html...

网站的导航栏/企业网站建设的步骤

1.2. 统一环境 开发环境 nvmnrmnodejs 0.10.38node-inspector部署环境 nvmnrmiojs 2.xpm2nginx 异步流程控制&#xff1a;Promise是唯一选择&#xff0c;而且从一开始就要强制使用&#xff0c;绝不可忽略&#xff0c;这关系到设计思维的巨大差异&#xff0c;甚至关系到我们是否…...

国企网站建设合同/深圳网站设计公司

文章目录一.原型链机制1. 原型链的本质2. 引用类型的构造函数3. 基本类型的包装类二. 对象与属性1. 对象直接打点验证某个属性是否存在4. instanceof 运算符三. 继承1. 原型链继承2. 构造函数继承3. 组合继承一.原型链机制 1. 原型链的本质 只要是对象&#xff0c;一定有原型…...