数据治理-数据质量
实现数据质量的前提就是数据本身是可靠和可信的。
导致数据质量低下的因素
组织缺乏对低质量数据影响的理解,缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。
所有组织都会遇到与数据质量有关的问题。数据质量需要跨职能的承诺和协调,数据质量管理不是一个项目,而是一项持续性的工作,长期成功取决于组织文化的改变和质量观念的建立。高质量数据本身不是目的,它只是组织获取成功的一种手段。
业务驱动因素
- 提高组织数据价值和数据利用的机会;
- 降低低质量数据导致的风险和成本;
- 提高组织效率和生产力;
- 保护和提高组织的声誉。【创机会、降成本、提效率、强声誉】
低质量数据造成的后果
- 无法正确开具发票;
- 增加客服电话量,降低解决问题的能力;
- 因错失商业机会造成收入损失;
- 影响并购后的整合进展;
- 增加受欺诈的风险;
- 由错误数据驱动的错误业务决策造成损失;
- 因缺乏良好信誉而导致业务损失。
数据质量管理的目标
- 根据数据消费者的需求,开发一种受管理的方法,使数据适合要求;
- 定义数据质量控制的标准和规范,并作为整个数据生命周期的一部分;
- 定义和实施测量,监控和报告数据质量水平的过程。
数据质量管理的原则
- 重要性,根据数据的重要性以及数据不正确时的风险水平来制定改进的优先顺序;
- 全生命周期管理;
- 预防。重点应放在预防数据错误和降低数据可用性等;
- 根因修正,需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决;
- 治理,数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境;
- 标准驱动;
- 客观测量和透明度,数据质量水平需要得到客观、一致的测量;
- 嵌入业务流程,业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准;
- 系统强制执行,系统所有者必须让系统强制执行数据质量要求;
- 与服务水平关联,数据质量报告和问题管理应纳入服务水平协议(SLA)。
数据质量管理的活动
定义高质量数据
定义数据质量战略
- 识别关键数据;
- 识别已有规则和模式。
识别关键数据和业务规则
执行初始数据质量评估
- 确定问题并排定优先顺序;
- 执行问题根本原因分析。
确定改进方向并排定优先顺序
- 根据业务影响确定行动的优先级;
- 制定预防和纠正措施;
- 确认计划的行动。
定义数据质量改进目标
开发和部署数据质量操作
- 开发数据质量操作规程;
- 修正数据质量缺陷;
- 度量和监控数据质量;
- 报告数据质量水平和调查结果。
重要人物
Strong-Wang框架(1996)侧重于数据消费者对数据的看法
描述数据质量的4大类15个指标
内在数据质量
- 准确性
- 客观性
- 可信度
- 信誉度
场景数据质量
- 增值性
- 关联性
- 及时性
- 完整性
- 适量性
表达数据质量
- 可解释性
- 易理解性
- 表达一致性
- 简洁性
访问数据质量
- 可访问性
- 访问安全性
Thomas Redman
在《信息时代的数据质量》将一个数据项定义为“可表示的三元组”:一个实体属性域与值的集合。维度可以和数据的任何组成部分相关联:模型(实体和属性)及其值。定义了一类用于记录数据项规则的表达维度,在三个类别中,描述了20个维度:
- 数据模型
- 内容
- 详细程度
- 属性的精确度
- 构成
- 一致性
- 应变性
- 数据值
- 数据表达
Larry English
在《改善数据仓库和业务信息质量》提出两个类别:固有属性和实用特征
固有属性
- 定义的一致性
- 值域的完备性
- 有效性或业务规则的一致性
- 数据源的准确性
- 反映事实的准确性
- 精确性
- 非冗余性
- 冗余或分布数据的等效性
- 冗余或分布数据的并发性
实用质量特征
- 可访问性
- 及时性
- 语境清晰性
- 可用性
- 多源数据的可整合性
- 适当性或事实完整性
DAMA UK描述数据质量6个核心维度
- 完备性
- 唯一性
- 及时性
- 有效性
- 准确性
- 一致性
DAMA UK白皮书还描述了对质量有影响的其他特征
- 可用性
- 时间问题
- 灵活性
- 置信度
- 价值
ISO 8000
目的是帮助组织定义什么是符合质量的数据,什么是不符合质量的数据,使他们能够使用标准约束要求符合数据,并检核他们已经收到了符合同一质量标准的数据。
数据质量改进生命周期
- 计划
- 执行
- 检查
- 处理
数据质量常见问题
- 缺乏领导力导致的问题
- 数据输入过程引起的问题
- 数据处理功能引起的问题
- 系统设计引起的问题
- 解决问题引起的问题
数据剖析
统计信息识别,跨列分析,表间分析,解决问题还需要其他形式的分析
数据质量和数据处理,可能通过某种形式的数据处理来提升数据质量
- 数据清理或数据清洗;
- 数据增强;
- 数据解析和格式化;
- 数据转换和标准化。
定义数据质量战略
必须与业务战略保持一致,一个框架包括以下方法:
- 了解并优先考虑业务需求;
- 确定满足业务需求的关键数据;
- 根据业务需求定义业务规则和数据质量标准;
- 根据预期评估数据;
- 分享调查结果,并从利益相关方那里获得反馈;
- 优先处理和管理问题;
- 确定并优先考虑改进机会;
- 测量、监控和报告数据质量;
- 管理通过数据质量流程生成的元数据;
- 将数据质量控制集成到业务和技术流程中,还要考虑如何管理数据质量和如何利用数据质量工具。
相关文章:

数据治理-数据质量
实现数据质量的前提就是数据本身是可靠和可信的。 导致数据质量低下的因素 组织缺乏对低质量数据影响的理解,缺乏规划、孤岛式系统设计、不一致的开发过程、不完整的文档、缺乏标准或缺乏治理等。 所有组织都会遇到与数据质量有关的问题。数据质量需要跨职能的承诺…...

[sqoop]hive3.1.2 hadoop3.1.1安装sqoop1.4.7
参考: Hadoop3.2.4Hive3.1.2sqoop1.4.7安装部署_hadoop sqoop安装_alicely07的博客-CSDN博客 一、安装 1、解压 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /home/data_warehouse/module mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop-1.4.72、配置文件 sqoop-env.s…...

js事件的详细介绍
11.事件 1.什么是事件 js属于事件驱动编程,把驱动,执行,调用通过一些交互,触发一些函数事件:发起-->执行绑定事件-->触发事件on 绑定 emit触发 off解绑2.事件分类 鼠标事件 点击事件 onclick 双击事件 ondblclick 按下事件 onmousedown 抬起事件 onmouseup 鼠标进…...

虚幻4学习笔记(12)操控导入的角色、动画蓝图、播放蒙太奇和打包、角色重定向
虚幻4学习笔记 操控导入的角色设置鼠标旋转关掉动态模糊 动画蓝图、播放蒙太奇和打包角色走路奔跑动画shift 奔跑F 跳舞移动打断 跳舞 打包角色重定向姿势调整解决跑步 腿分太开隐藏剑 B站UP谌嘉诚课程:https://www.bilibili.com/video/BV164411Y732 操控导入的角色…...

hive with tez:无法从链中的任何提供者加载aws凭据
环境信息 hadoop 3.1.0 hive-3.1.3 tez 0.9.1 问题描述 可以从hadoop命令行正确地访问s3a uri。我可以创建外部表和如下命令: create external table mytable(a string, b string) location s3a://mybucket/myfolder/; select * from mytable limit 20; 执行正…...

Ubuntu修改静态IP、网关和DNS的方法总结
Ubuntu修改静态IP、网关和DNS的方法总结 ubuntu系统(其他debian的衍生版本好像也可以)修改静态IP有以下几种方法。(搜索总结,可能也不太对) /etc/netplan (use) Ubuntu 18.04开始可以使用netplan配置网络࿰…...

Eureka服务器注册
一。Eureka服务器注册 1.pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://mav…...

Windows安装GPU版本的pytorch详细教程
文章目录 chatGLM2-6B安装教程正式安装 chatGLM2-6B ChatGLM2-6B版本要装pytorch2.0,而且要2.0.1 ,因此CUDA不能用12.0 ,也不能用10.0,只能用11.x 版本。 安装教程 pip install直接下载安装 官网: https://pytorch.…...

理解Kruskal算法的前提----深入理解并查集【超简单~】
并查集的实现思路 并查集主要分为两个部分:第一部分就是需要找到点对应的祖宗节点,第二部分,是要将属于同一个集合节点的祖宗节点进行统一,也就是结合操作。 Find函数实现 // parent数组用来存储下标值所对应的父节点值 // 比如…...

Jenkins+Gitee+Docker+Ruoyi项目前后端分离部署
前言 描述:本文主要是用来记录 如何用标题上的技术,部署到云服务器上通过ip正常访问。 一、总览 1.1、Docker做的事 拉取 mysql 镜像拉取 redis 镜像拉取 jdk 镜像拉取 nginx 镜像 解释说明:前端项目的打包文件放在 nginx容器运行。后端…...

笙默考试管理系统-MyExamTest----codemirror(23)
笙默考试管理系统-MyExamTest----codemirror(23) 目录 笙默考试管理系统-MyExamTest----codemirror(23) 一、 笙默考试管理系统-MyExamTest 二、 笙默考试管理系统-MyExamTest 三、 笙默考试管理系统-MyExamTest 四、 笙…...

重学Java (一) 泛型
1. 前言 泛型编程自从 Java 5.0 中引入后已经超过15个年头了。对于现在的 Java 码农来说熟练使用泛型编程已经是家常便饭的事情了。所以本文就在不对泛型的基础使用在做说明了。 如果你还不会使用泛型的话,可以参考下面两个链接 Java 泛型详解The Java™ Tutorial…...

Docker 部署 Redis 服务
拉取最新版本的 Redis 镜像: $ sudo docker pull redis:latest在本地预先创建好 data 目录和 conf/redis.conf 文件。 使用以下命令来运行 Redis 容器: $ sudo docker run -itd --name redis --privilegedtrue -p 6379:6379 -v /home/ubuntu/docker/redis/data:/data -v /ho…...

阿里云产品试用系列-负载均衡 SLB
阿里云负载均衡(Server Load Balancer,简称SLB)是云原生时代应用高可用的基本要素。通过将流量分发到不同的后端服务来扩展应用系统的服务吞吐能力,消除单点故障并提升应用系统的可用性。阿里云SLB包含面向4层的网络型负载均衡NLB…...

drf 对象级权限
drf 对象级权限 Django REST Framework(DRF)提供了对象级别权限(Object-level permissions)来控制特定对象的访问权限。 简单来说:通过视图类中的self.get_object(pk)得到一个obj对象(视图对象),在与requ…...

八大排序(二)--------冒泡排序
本专栏内容为:八大排序汇总 通过本专栏的深入学习,你可以了解并掌握八大排序以及相关的排序算法。 💓博主csdn个人主页:小小unicorn ⏩专栏分类:八大排序汇总 🚚代码仓库:小小unicorn的代码仓库…...

SmartSQL 一款开源的数据库文档管理工具
建议直接蓝奏云下载安装 蓝奏云下载:https://wwoc.lanzoum.com/b04dpvcxe 蓝奏云密码:123 项目介绍 SmartSQL 是一款方便、快捷的数据库文档查询、导出工具!从最初仅支持 数据库、CHM文档格式开始,通过不断地探索开发、集思广…...

代码随想录算法训练营第56天 | ● 583. 两个字符串的删除操作 ● 72. 编辑距离 ● 动态规划之编辑距离总结篇
文章目录 前言一、583. 两个字符串的删除操作二、72. 编辑距离三、动态规划之编辑距离总结篇总结 前言 一、583. 两个字符串的删除操作 两种思路:1.直接动态规划,求两个字符串需要删除的最小次数 2.采用子序列的和-最长公共子序列。思路一分析如下&#…...

矩阵 m * M = c
文章目录 题1题2 题1 (2023江苏领航杯-prng) 题目来源:https://dexterjie.github.io/2023/09/12/%E8%B5%9B%E9%A2%98%E5%A4%8D%E7%8E%B0/2023%E9%A2%86%E8%88%AA%E6%9D%AF/ 题目描述: (没有原数据,自己生成的数据) from Crypto.Util.number…...

Linux——IO
✅<1>主页::我的代码爱吃辣 📃<2>知识讲解:Linux——文件系统 ☂️<3>开发环境:Centos7 💬<4>前言:是不是只有C/C有文件操作呢?python,java&…...

svn(乌龟svn)和SVN-VS2022插件(visualsvn) 下载
下载地址: https://www.visualsvn.com/visualsvn/download/...

开源日报 0824 | 构建UI组件和页面的前端工作坊
Storybook 是一个用于构建 UI 组件和页面的前端工作坊,支持多种主流框架,提供丰富的插件,具有可配置性强和扩展性好的特点。 storybookjs/storybook Stars: 79.9k License: MIT Storybook 是一个用于构建 UI 组件和页面的前端工作坊&#x…...

福建三明大型工程机械3D扫描工程零件三维建模逆向抄数-CASAIM中科广电
高精度3D扫描技术已经在大型工件制造领域发挥着重要作用,可以高精度高效率实现全尺寸三维测量,本期,我们要分享的应用是大型工程机械3D扫描案例。 铣轮是深基础施工领域内工法先进、技术复杂程度高、高附加值的地连墙设备,具有成…...

使用香橙派学习 Linux的守护进程
Q:什么是守护进程 A:Linux Daemon(守护进程)是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行 某种任务或等待处理某些发生的事件。它不需要用户输入就能运行而且提供某种服务,不是对整个系统就是对某个…...

数据治理-数据仓库和商务智能
数据仓库的作用 减少数据冗余,提高信息一致性,让企业能够利用数据做出更优决策的方法,数据仓库是企业数据管理的核心。 业务驱动因素 运营支持职能、合规需求(历史数据响应)和商务智能活动(主因࿱…...

CH2--x86系统架构概览
2.1 OVERVIEW OF THE SYSTEM-LEVEL ARCHITECTURE 图中的实线箭头表示线性地址,虚线表示段选择器,虚线箭头表示物理地址 2.1.1 Global and Local Descriptor Tables 全局描述符表 (GDT) GDT是一个全局的段描述符表,它存储在系统内存中的一个固…...

Immutable.js API 简介
Immutable-js 这个库的实现是深拷贝还是浅拷贝?immutable 来源immutable.js三大特性: 持久化数据结构结构共享惰性操作 Immutable.js 的几种数据类型 immutable 使用 使用 npm 安装 immutable: 常用API介绍 MapListList.isList() 和 Map.isMa…...

HLSL 入门(一)
HLSL High Level Shader Language 高级着色语言,是Direct3D中用来编写Shader的语言。其语法类似于C语言。 虽然其主要作用是用来编写例如顶点着色器,像素着色器。但本质是对图形并行管线进行编程,因此也能用来编写用于计算的着色器ÿ…...

【Docker】挂载数据卷
一、Docker数据卷说明及操作 在Docker中挂载数据卷是一种将数据持久化保存的方法,以便容器之间或容器与主机之间共享数据。以下是如何在Docker中挂载数据卷的步骤: 1、创建数据卷 首先,您需要创建一个数据卷。可以使用以下命令创建一个数据卷…...

[技术干货]spring 和spring boot区别
Spring 和 Spring Boot 都是 Java 框架,用于构建企业级应用程序。Spring 是一个完整的框架,提供各种功能,包括依赖注入、事务管理、数据访问、Web 开发等。Spring Boot 是一个基于 Spring 的框架,旨在简化 Spring 应用程序的开发和…...