数据治理、数据素养和数据质量管理:文献综述
注意:这并不是正式发表的论文,只是一篇用来交作业的文章
摘要
随着数据时代的到来,数据治理、数据素养和数据质量管理成为组织数据管理中的三大核心概念。本文基于相关研究与实践,对这三个领域进行全面综述,探讨它们的定义、相互关系及其在数据中台与AI数据服务中的体现。通过结合中国互联网企业的实践,提出数据中台作为现代数据治理的重要工具,其在数据治理、数据挖掘及智能化应用方面的优势。
关键词: 数据治理,数据素养,数据质量管理,数据中台,AI数据服务
1.引言
在大数据与人工智能的推动下,数据已成为组织的核心资产。数据治理、数据素养和数据质量管理相互依存,构成现代组织实现数据驱动决策与价值创造的关键基础。本文旨在探讨三者之间的关系,并结合数据中台及AI数据服务在现代数据治理体系中的实践案例,进一步阐释其应用价值。
2.核心概念
这些概念的定义和发展并非源于某一特定的个人或机构,而是在数据管理领域的发展过程中逐步形成,并由学术界、行业标准组织以及企业实践共同推动。以下是每个概念的主要来源和发展背景:
l数据治理:数据治理是指确保组织数据的质量、完整性、安全性和可用性的框架和实践。它涉及实现高效和负责任的数据管理的政策、角色和流程。
l数据素养:数据素养是阅读、理解、创建和传达数据作为信息的能力,使个人能够在数据驱动的环境中做出明智的决策。
l数据质量管理:数据质量管理是指旨在维持高数据质量标准的一系列实践,重点关注整个数据生命周期的准确性、完整性、可靠性和相关性。
3.三大概念的相关性
3.1 三者的关系
数据治理提供了顶层设计,规范了数据的管理规则与流程;数据质量管理则通过技术手段保障数据的准确性和一致性;而数据素养提升了个人和组织执行数据治理与质量管理的能力,三者共同促进数据驱动的决策与创新。
3.2 相关案例
(1)Airbnb 的数据素养与数据治理实践
Airbnb 实施了名为“Data University”的内部教育计划,旨在提升员工的数据素养,以便他们能够更深入地理解和运用数据。数据素养的提升直接推动了数据治理策略的落实,确保员工能够以负责任的态度处理和分析数据。该教育计划不仅增强了基于数据的决策能力,还促进了公司内部数据民主化的进程。
(2)Milliman MedInsight 在医疗数据治理方面的实践
在医疗数据治理的案例中,Milliman MedInsight 的服务团队通过提供专业支持,帮助相关组织提升了数据质量和治理效能。通过优化文档管理和自动化查询流程,显著增强了数据的一致性和可用性。此外,通过提供定制化的培训课程,提升了员工的数据素养,从而在组织内部建立了统一的数据语言和治理标准。
(3)科学研究领域中的数据管理与素养提升
在科学研究领域,eagle-i 项目展示了如何通过提高数据和信息素养,推动生物资源管理的标准化进程。该项目强调了早期教育和社区参与在数据治理及质量管理中的核心作用,并依托图书馆等学术机构的支持,协助研究人员提升数据素养,以优化数据共享和利用的效率。
4.现代数据治理体系
随着时代演进,传统数据治理体系中的数据湖与数据仓库架构已面临新的替代方案,即数据中台与AI数据化服务。数据中台作为数据湖的迭代产品,有效解决了数据湖所面临的一系列问题,并且与AI数据服务保持了良好的兼容性,从而有效推进了企业数据治理的转型进程。
4.1数据湖的作用与挑战
数据湖作为集中式数据存储架构,为多样化数据处理与分析提供了基础,为企业的数据治理提供了一个有效的解决方案,但也面临数据质量、安全性和管理复杂性问题。
4.1.2 数据湖的定义与核心特性
数据湖是一种集中式存储架构,旨在存储大规模的原始数据集。该架构兼容结构化、半结构化以及非结构化数据,并能够支持多样化的数据处理与分析技术。其设计宗旨在于提供一个灵活、可扩展且成本效益高的数据存储方案,以应对组织不断增长的数据管理需求。
数据湖具备以下核心特性:首先,它拥有巨大的存储容量,能够存储各种类型和格式的数据。其次,它采用成本较低的存储介质,如HDFS或云存储服务,以降低数据存储成本。数据湖还具有开放性架构,支持多种数据处理和分析工具,如Hadoop、Spark、Flink等。此外,它支持多种数据格式,并允许用户自定义格式,以满足不同需求。数据湖还提供数据安全机制,包括访问控制、数据加密、数据审计等,确保数据安全和完整性。综上所述,数据湖为数据密集型组织提供了一个全面的数据管理平台,有助于最大化数据资产的利用。
4.1.3 数据湖在现代数据治理体系中的作用
数据湖在现代数据治理体系中发挥着重要作用,它为数据治理提供了以下支持:
数据集成:数据湖能够整合来自不同来源的数据,包括内部系统和外部系统,为数据治理提供了统一的数据源。
数据清洗:数据湖支持数据清洗技术,例如数据质量规则、数据转换、数据校验等,以确保数据的准确性、一致性和完整性。
数据质量评估:数据湖可以存储历史数据,方便进行数据质量评估,并识别数据质量问题。
数据安全:数据湖提供数据安全机制,例如访问控制、数据加密、数据审计等,以保护数据安全。
数据生命周期管理:数据湖支持数据生命周期管理,例如数据归档、数据备份、数据删除等,以优化数据存储成本和提高数据可用性。
4.1.4数据湖面临的挑战
数据湖技术在长期的工业实践中也发现了一系列问题,如数据质量和一致性问题,由于存储多种来源的数据,可能导致重复和不一致。元数据管理不足影响数据的可用性和可追溯性。数据安全和访问控制是关键,特别是对于敏感数据,缺乏安全措施可能导致合规性问题。治理和多部门协调问题可能导致数据定义冲突。最后,若缺乏适当治理,数据湖可能变成难以利用的“数据沼泽”。
4.2 数据中台的价值
数据中台融合了数据湖与数据仓库的诸多优势,构成了现代数据治理体系的关键组成部分。该架构通过标准化接口的实施,有效降低了数据治理的复杂度,提升了数据挖掘的效率,并为智能化应用提供了支持,特别是在广泛采用的AI数据服务领域,对数据治理体系的全面提升具有显著影响。此外,数据中台技术在中国众多企业中经过长期实践的检验,已证明其有效性和实用性。
- 阿里巴巴数据中台: 阿里巴巴的数据中台是其核心竞争优势之一,它为阿里巴巴的业务运营提供了强大的数据支撑,例如电商业务、云计算业务、数字媒体和娱乐业务等。
- 腾讯数据中台: 腾讯数据中台为其社交、游戏、金融等业务提供了数据支撑,例如用户画像、内容推荐、智能客服等。
- 百度数据中台: 百度数据中台为其搜索、广告、自动驾驶等业务提供了数据支撑,例如用户行为分析、广告投放优化、自动驾驶路径规划等。
4.3 AI数据服务的推动力
AI数据服务是指利用人工智能技术对数据进行处理、分析和挖掘,并为企业提供智能化决策支持的服务。AI数据服务在现代数据治理体系中发挥着重要作用,主要体现在以下几个方面:
4.3.1 数据分析智能化
自动建模: AI数据服务可以自动构建数据模型,例如预测模型、分类模型、聚类模型等,提高数据分析的效率和准确性。
智能推荐: AI数据服务可以根据用户的行为和偏好,推荐相关的商品、内容或服务,提高用户体验和转化率。
智能预测: AI数据服务可以根据历史数据和实时数据,预测未来的趋势和变化,帮助企业制定更有效的策略。
智能决策: AI数据服务可以根据数据分析结果,提供智能化的决策建议,帮助企业做出更科学的决策。
4.3.2数据治理自动化
数据清洗: AI数据服务可以自动识别和清洗数据中的错误、缺失和不一致等问题,提高数据质量。
数据分类: AI数据服务可以自动对数据进行分类和标签,方便数据管理和分析。
数据安全: AI数据服务可以自动识别和防范数据安全风险,例如数据泄露、数据篡改等。
4.3.3 数据应用创新
个性化服务: AI数据服务可以根据用户的需求和偏好,提供个性化的服务,例如个性化推荐、个性化营销等。
智能客服: AI数据服务可以提供智能客服服务,例如语音识别、自然语言处理等,提高客户服务效率和质量。
智能风控: AI数据服务可以提供智能风控服务,例如欺诈检测、信用评估等,降低风险损失。
4.3.4 数据治理体系完善
数据质量提升: AI数据服务可以提高数据质量,为数据治理提供可靠的数据基础。
数据安全增强: AI数据服务可以增强数据安全性,保护数据安全。
数据价值提升: AI数据服务可以提升数据价值,推动数据驱动决策和价值创造。
5.结论
数据治理、数据素养和数据质量管理是现代数据管理体系的三大支柱,三者相辅相成,推动了组织的数据驱动决策与创新发展。数据中台与AI数据服务为其提供了技术支持和应用场景,成为现代数据治理的核心工具。
6.参考文献
1. Koltay, Tibor. "Data Governance, Data Literacy and the Management of Data Quality." *IFLA Journal*, vol. 42, no. 4, 2016, pp. 303–312. https://doi.org/10.1177/0340035216672238.
2. Tableau. "Top Data Literacy Skills for Becoming Data Literate." Tableau Software, LLC, 2023.
3. Data Management Association International. *Data Management Body of Knowledge (DMBOK) Guide*. DAMA International, 2017.
4. Data Literacy Project. “What Is Data Literacy?” *The Data Literacy Project*, Qlik, 2016, www.thedataliteracyproject.org.
5. Wang, Richard Y., and Diane M. Strong. “Beyond Accuracy: What Data Quality Means to Data Consumers.” *Journal of Management Information Systems*, vol. 12, no. 4, 1996, pp. 5–33.
6. Forrester Research. *Data Literacy Trends*. Cambridge, MA: Forrester Research, 2022.
7. Zha, Di, et al. "Data-centric Artificial Intelligence: A Survey." arXiv, 2023. arXiv:2303.10158.
8. Benaich, Nathan, and Ian Hogarth. State of AI Report 2023. Air Street Capital, 2023. Available at State of AI Report 2023.
9. Wright, T. "Data Quality and Decision Making: The Role of Confidence in Business Data." Journal of Information Management, vol. 14, no. 2, 2006, pp. 72–85.
10. Newman, H. "EIM Governance and Logical Data Models: A Comparative Study." International Journal of Information Systems, vol. 10, no. 4, 2006, pp. 245–260.
11. Atlan. "5 Data Governance Examples: Case Studies, Takeaways & More." Atlan Blog, https://www.atlan.com/data-governance-case-studies. Accessed 18 Nov. 2024.
12. MedInsight. "Analytic Maturity in Data Governance, Quality & Literacy." MedInsight Blog, https://www.medinsight.com/analytic-maturity-data-governance. Accessed 18 Nov. 2024.
13. Palmer, Carole. "Dealing with Data: A Case Study on Information and Data Management Literacy." PLOS Biology, https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1001171. Accessed 18 Nov. 2024.
相关文章:
数据治理、数据素养和数据质量管理:文献综述
注意:这并不是正式发表的论文,只是一篇用来交作业的文章 摘要 随着数据时代的到来,数据治理、数据素养和数据质量管理成为组织数据管理中的三大核心概念。本文基于相关研究与实践,对这三个领域进行全面综述,探讨它…...
【Linux】用户和用户组管理
管理用户 1.添加用户账号——useradd命令 【实例2-1-1】 按系统默认配置添加指定用户账号st和stu。 # 添加用户账号st [rootlocalhost ~]# useradd st # 添加用户账号stu [rootlocalhost ~]# useradd stu【实例2-1-2】添加用户账号stu01,UID为1004&am…...
游戏引擎学习第16天
视频参考:https://www.bilibili.com/video/BV1mEUCY8EiC/ 这些字幕讨论了编译器警告的概念以及如何在编译过程中启用和处理警告。以下是字幕的内容摘要: 警告的定义:警告是编译器用来告诉你某些地方可能存在问题,尽管编译器不强制要求你修复…...
如何通过对敏捷实践的调整,帮助远程团队提升研发效能?
首先明确一点,最敏捷的做法就是不要远程团队或分布式团队,远程一定比不上面对面同一地点的模式,毕竟环境不同,就不要期望远程团队和本地团队具备相同的效能,甚至期望更高。 那么,无论何种原因,…...
Ubuntu Linux使用前准备动作 配置SSH
在 Ubuntu 系统中配置 SSH 服务可以通过以下步骤进行: 1、安装ssh服务 1)打开终端(可以使用快捷键 Ctrl Alt T)。 2)运行以下命令安装 OpenSSH 服务器: sudo apt-get update:这一步是更新…...
疫情下的图书馆管理系统:Spring Boot技术
摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了疫情下图书馆管理系统的开发全过程。通过分析疫情下图书馆管理系统管理的不足,创建了一个计算机管理疫情下图书馆管理系统的方案。文章介绍了疫情下图…...
vue3完整安装并创建项目
1、下载:https://npmmirror.com/mirrors/node/v18.19.0/node-v18.19.0-x64.msi 2、验证Nodejs是否安装成功(管理员身份运行cmd) node -v #查看nodejs的版本 v18.19.0npm -v #查看npm的版本 10.2.3 3、在D:\Program Files\nodejs路径下创建两…...
【Linux】Linux入门实操——进程管理(重点)
1. 概述 在 LINUX 中,每个执行的程序都称为一个进程。每一个进程都分配一个ID号(pid,进程号)。>windows > linux每个进程都可能以两种方式存在的。前台与后台,所谓前台进程就是用户目前的屏幕上可以进行操作的。后台进程则是实际在操作࿰…...
Linux-Apache
文章目录 Apache基础配置 🏡作者主页:点击! 🤖Linux专栏:点击! ⏰️创作时间:2024年11月19日12点20分 Apache Web服务器用来实现HTTP和相关TCP连接的处理,同时负责所提供资源的管理…...
高危,Laravel参数注入漏洞安全风险通告
今日,亚信安全CERT监控到安全社区研究人员发布安全通告,披露了Laravel 参数注入漏洞(CVE-2024-52301)。在受影响的版本中,Application.php 文件的 detectEnvironment 函数直接使用了 $_SERVER[argv],但没有检查运行环境是否为 CLI…...
【Qt】使用QString的toLocal8Bit()导致的问题
问题 使用Qt发送一个Http post请求的时候,服务一直返回错误和失败信息。同样的url以及post参数,复制黏贴到postman里就可以发送成功。就感觉很神奇。 原因 最后排查出原因是因为参数中含有汉字而导致的编码问题。 在拼接post参数时,使用了…...
Android上运行Opencv(TODO)
在高通安卓平台上,确实可以通过 NDK 使用 OpenCV 并访问摄像头。NDK 提供了更高性能的计算能力,特别是在图像处理和计算密集型任务中,与 OpenCV 结合可以充分利用高通平台的硬件资源(如 NEON SIMD 指令集和 GPU 加速)。…...
动态IP黑白名单过滤的设计与实现(上篇设计思想)
文章目录 需求分析方案设计1、设计过程2、最终方案3、扩展知识 - 布隆过滤器 需求分析 一些恶意用户(可能是黑客、爬虫、DDoS 攻击者)可能频繁请求服务器资源,导致资源占用过高。因此我们需要一定的手段实时阻止可疑或恶意的用户,…...
LeetCode 力扣 热题 100道(五)最长回文子串(C++)
最长回文子串 给你一个字符串 s,找到 s 中最长的 回文子串。 回文性 如果字符串向前和向后读都相同,则它满足 回文性 子字符串子字符串 是字符串中连续的 非空 字符序列。 动态规划法 class Solution { public:string longestPalindrome(string s) {i…...
Docker--Docker Registry(镜像仓库)
什么是Docker Registry? 镜像仓库(Docker Registry)是Docker生态系统中用于存储、管理和分发Docker镜像的关键组件。 镜像仓库主要负责存储Docker镜像,这些镜像包含了应用程序及其相关的依赖项和配置,是构建和运行Doc…...
maven手动上传jar到私服仓库:mvn deploy:deploy-file命令
一、场景 现需要将公司内部的jar包上传到私服仓库,供其他同事使用,此时就需要用到mvn deploy:deploy-file命令。 二、 mvn deploy:deploy-file命令 举个栗子: mvn deploy:deploy-file -DgroupIdorg.pttsql -DartifactIdpttsql -Dversi…...
【机器学习】机器学习中用到的高等数学知识-1.线性代数 (Linear Algebra)
向量(Vector)和矩阵(Matrix):用于表示数据集(Dataset)和特征(Feature)。矩阵运算:加法、乘法和逆矩阵(Inverse Matrix)等,用于计算模型参数。特征值(Eigenvalues)和特征向量(Eigenvectors)&…...
无插件H5播放器EasyPlayer.js网页web无插件播放器选择全屏时,视频区域并没有全屏问题的解决方案
EasyPlayer.js H5播放器,是一款能够同时支持HTTP、HTTP-FLV、HLS(m3u8)、WS、WEBRTC、FMP4视频直播与视频点播等多种协议,支持H.264、H.265、AAC、G711A、MP3等多种音视频编码格式,支持MSE、WASM、WebCodec等多种解码方…...
Idea中创建和联系MySQL等数据库
备注:电脑中要已下好自己需要的MySQL数据库软件 MySQL社区版下载链接: https://dev.mysql.com/downloads/installer/ 优点: 1.相比与在命令行中管理数据库,idea提供了图形化管理,简单明了; 2.便于与后端…...
【pytest】pytest注解使用指南
前言:在 pytest 测试框架中,注解(通常称为装饰器)用于为测试函数、类或方法提供额外的信息或元数据。这些装饰器可以影响测试的执行方式、报告方式以及测试的组织结构。pytest 提供了多种内置的装饰器,以及通过插件扩展…...
在Unity中使用Epplus写Excel
Overview 本文旨在帮助你快速入门,该库发展多年内容庞大(官方文档写的极好:https://github.com/EPPlusSoftware/EPPlus/wiki),有些功能在Unity环境可能你永远都不会使用. 官方的一个Demo: https://github.com/EPPlusSoftware/EPPlus.Samples.CSharp 如果你只有读的需求,可以…...
初识算法 · 模拟(2)
目录 前言: Z字形变换 题目解析 算法原理 算法编写 数青蛙 题目解析 算法原理 算法编写 前言: 本文的主题是模拟,通过两道题目讲解,一道是Z字形变化,一道是数青蛙。 链接分别为: 1419. 数青蛙…...
【Java面试】—— 创建线程池的两种方式(执行流程、拒绝策略)(详细)
目录 一、ThreadPoolExecutor(推荐)(重点) 1、参数 2、执行流程 3、常用方法 4、任务拒绝策略 二、Executors(不推荐) 1、常用方法 2、存在的问题 一、ThreadPoolExecutor(推荐)(重点) 1、参数 使用指定的初始化参数创建一个新的线程池对象 public Thread…...
Docker在微服务架构中的应用
💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 Docker在微服务架构中的应用 Docker在微服务架构中的应用 Docker在微服务架构中的应用 引言 Docker 基本概念 1. 容器 2. 镜像 3…...
苹果ASA归因对接以及API接入
一、归因概要 广告归因,目的是用于衡量广告带来的激活用户的成本以及后续进一步的用户质量表现。 Apple Ads 广告平台是基于 App Store(站内广告),同时属于自归因平台(通常称为 SAN)。这两个因素ÿ…...
Git常用操作学习
目录 Git基础概述 1.1 什么是Git? 1.2 Git的优点Git工作流程 2.1 集中式工作流程 2.2 功能分支工作流程 2.3 Git Flow工作流程克隆仓库 3.1 使用git clone 3.2 克隆特定分支分支管理 4.1 创建分支 4.2 切换分支 4.3 合并分支 4.4 删除分支提交和推送更改 5.1 查看状…...
2.5D视觉——Aruco码定位检测
目录 1.什么是Aruco标记2.Aruco码解码说明2.1 Original ArUco2.2 预设的二维码字典2.3 大小Aruco二维码叠加 3.函数说明3.1 cv::aruco::detectMarkers3.2 cv::solvePnP 4.代码注解4.1 Landmark图说明4.2 算法源码注解 1.什么是Aruco标记 ArUco标记最初由S.Garrido-Jurado等人在…...
【PSQLException: An I/O error occurred while sending to the backend.】
PSQLException: An I/O error occurred while sending to the backend. java项目定时任务执行耗时很长的sql语句(很多条sql,从很多表中,很多数据中查询,处理)总之,耗时很长(PG数据库)。报错I/O error,Caused by : java.net.SocketTimeoutException: Read time out场景…...
图像基础算法学习笔记
目录 概要 一、图像采集 二、图像标注 四、图像几何变换 五、图像边缘检测 Sobel算子 Scharrt算子 Laplacian算子 Canny边缘检测 六、形态学转换 概要 参考书籍:《机器视觉与人工智能应用开发技术》 廖建尚,钟君柳 出版时间:2024-…...
【Elasticsearch】01-ES安装
1. 安装 安装elasticsearch。 docker run -d \--name es \-e "ES_JAVA_OPTS-Xms512m -Xmx512m" \-e "discovery.typesingle-node" \-v es-data:/usr/share/elasticsearch/data \-v es-plugins:/usr/share/elasticsearch/plugins \--privileged \--networ…...
南京移动网站建设/关键词优化难度查询
有时候我们需要对字符串进行修改,但是.net里面的字符串是只读的,修改动作会产生一个新的字符串,多数时候这都不是我想要的结果。不过fixed还是可以帮我们解决一部分问题的,比如.ToLower、.ToUpper、.Replace(char, char)等等&…...
做的网站没流量/深圳网络推广代理
ZERO-SHOT RESTORATION OF UNDEREXPOSED IMAGES VIA ROBUST RETINEX DECOMPOSITION1.摘要2.介绍3. RRDNet网络4. 损失函数的设计5.实验6.评价代码: 论文代码论文 论文下载1.摘要 低照度图像通常会出现严重的质量退化,如在黑暗中能见度差和潜在噪声。以往…...
做企业网站 长春/seo五大经验分享
目录索引对比锁对比事务对比并发全文索引对比外键其他一.索引对比1.b树概念我们这里关注b树的两个特性:叶子节点包含数据data(data并不特指数据库中的某一行数据,也可以是某个数值,指针等)叶子节点均在同一层,且每个节点均可以直接…...
自建网站主题及策划/国内做网站比较好的公司
note: within this loop 注意:在这个循环中 段错误 您的程序发生段错误,可能是数组越界,堆栈溢出(比如,递归调用层数太多)等情况引起 改正 把arr[20] 改成arr[21] #include<iostream> using namesp…...
响应式网站 图片处理/百度广告一天多少钱
一、HBase介绍1、基本概念HBase是一种Hadoop数据库,经常被描述为一种稀疏的,分布式的,持久化的,多维有序映射,它基于行键、列键和时间戳建立索引,是一个可以随机访问的存储和检索数据的平台。HBase不限制存…...
手机怎么做网站教程/企业员工培训总结
转自:https://www.jianshu.com/p/4b3bcbabad77开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎:MOLAP一般对数据存储有…...