AI大模型在数据治理中的应用
目前,企业的数据治理工作以人工实施为主,其中一些重复性较强的工作,如:数据标准制定和映射、元数据信息完善、数据目录挂载等,需要消耗大量的人力和时间成本,这给本来就难以量化业务价值的治理工作的顺利推进带来了更多的困难。AI大模型的引入,可以有效地解决这一难题。相比传统的人工为主的数据治理,基于AI大模型的数据治理具有以下优势:
自动化:AI大模型可以通过学习和分析数据治理各项工作的特征和规则,自动化批量进行大规模数据的数据标准、元数据、数据质量管理、数据安全管理等数据治理任务,减少了人工处理的工作量,提升治理工作效率。
实时性:AI大模型可以实时监控和分析数据的变化,并及时进行预警或直接处理,提升数据治理的响应速度。
扩展性:AI大模型可以通过学习和迭代,持续提升自己的能力,以适应高度变化的业务和技术环境对数据治理的需求。
基于上述考量,在数据治理领域,基于AI大模型的能力,可以从如下主要场景实现从人工治理到智能治理的进化。
(一) 数据标准管理
无论是以人工为主的数据标准管理,还是基于AI大模型的智能化数据标准管理,首先都需要我们对企业的数据标准现状进行详尽的调研工作。调研的内容包括:企业当前的数据业务含义、数据标准分类、数据标准内容,业务和技术团队对当前数据标准的改进需求(以下简称“改进需求”),相关的国际标准、国家标准、地方标准和行业标准(以下统一简称为“外部标准”)等。
在此基础之上,利用AI大模型,可以从以下几个方面提升数据标准管理的智能化程度:
1.标准智能制定
基于企业现有标准、改进需求和外部标准,自动制定适合企业的数据标准。和人工制定的标准一样,自动制定的标准,也需要经过企业的业务和技术专家的审定后,才能正式发布使用。
2.标准智能落标
前向落标:按企业的数据标准实施策略,逐步赋能周边系统,在建表时,自动为字段推荐/匹配合适的数据标准。
后向落标:按企业的数据标准实施策略,逐步治理存量数据,批量自动化为其推荐/匹配合适的数据标准。
3.标准智能维护
随着业务需求和环境的变化,数据标准需要不断更新和维护。我们可以通过AI大模型,自动监测和分析业务数据的变化,提供标准的新增、变更、下线建议,帮助企业及时进行数据标准维护。
(二) 元数据管理
Gartner在其“数据编织”的架构中提出了Metadata Activation(国内一般翻译为“主动元数据”或“元数据激活”)的概念,随后又在其“元数据管理成熟度”中(见图3-2)对主动元数据进行了解释,概括来说就是:主动元数据指的是一种数据管理方式,即,发现、获取尽可能多的元数据,并以丰富的元数据为基础,利用各种AI技术手段(ML、NGL、知识图谱等),主动改进数据管理的工具和活动,提升数据管理的效率,降低管理成本。

图3:Gartner数据编织架构

图4:Gartner元数据管理技术成熟度
Gartner在提出数据编织概念时,AI大模型还没出圈,但我们可以想象,如果Gartner更新其对数据编织的阐述,肯定会毫不犹豫地把AI大模型加入其架构中。
在元数据管理中,利用AI大模型,可以从以下几个方面提升智能化程度:
1.元数据智能挖掘
企业在做元数据采集时,由于源系统设计和管理的不规范,大多数情况下只能采集到最基础的技术元数据信息(如:数据库、Schema、表名、字段名等),需要花费大量人力和时间完善其他的核心元数据信息(如:表的中文名、业务口径、描述、标签,字段的中文名、描述、取值说明、敏感等级等)。通过AI大模型的推理能力,可以基于最基础的技术元数据信息和业务样例数据,自动填充其他的核心元数据信息。
2.数据血缘智能挖掘
业务和技术的发展,以及随之而来的日益复杂的加工逻辑、多源异构的数据库和多种类型的加工脚本,这些都给数据血缘解析(尤其是字段级血缘解析)带来了极大的挑战。通过AI大模型的代码解读能力,可以提升复杂代码、异构数据库和多类型的加工脚本场景下,血缘解析的成功率和准确率。再进一步,如果能利用AI大治理模型总结并生成表级和字段级的业务口径或者数据处理逻辑,将极大地提升人们理解数据、数据溯源和数据影响分析的效率。
3.数据智能分类
基于数据对象的元数据、业务样例数据,自动推荐数据对象所属的数据分类或挂载的数据目录。
4.数据推荐
基于企业中数据使用者的个人信息(部门、岗位、参与的业务等)、在大数据体系平台(数据开发平台、数据治理平台、BI报表平台等)中的操作行为(搜索、查看、收藏、订阅等)和数据对象的元数据、业务样例数据,向数据使用者推荐他们需要的数据对象。
(三) 数据质量管理
在数据质量管理中,利用AI大模型,可以从以下几个方面提升管理的智能化程度:
1.质量规则推荐
基于数据对象的元数据和业务样例数据,自动为数据对象推荐/匹配表级和字段级的数据质量规则。
2.质量阈值推荐
通过持续分析历史的质量校验结果数据,向用户提供建议的质量异常阈值,并能持续调整建议的结果。
3.质量异常自动定位
基于数据血缘链路和数据质量校验结果,自动定位数据质量异常的源头。
4.质量异常智能修复
针对部分数据质量异常(如重复数据、缺失数据、不一致数据等),基于数据对象的元数据和质量正常的业务样例数据,自动修复数据中的异常。
(四) 数据安全管理
在数据安全管理中,利用AI大模型,可以从以下几个方面提升管理的智能化程度:
1.敏感数据智能识别
基于数据对象的元数据、业务样例数据和企业的数据分级策略,自动识别数据对象的敏感等级。
2.脱敏/加密规则推荐
基于数据对象的元数据、业务样例数据、敏感等级和企业的数据安全策略,自动为数据对象推荐/匹配脱敏或加密规则。
3.数据风险智能识别
基于数据对象的元数据、血缘、敏感等级,企业的数据安全策略和已有的数据权限策略,自动识别数据风险并提供异常处理策略,应用场景主要包括:

相关文章:
AI大模型在数据治理中的应用
目前,企业的数据治理工作以人工实施为主,其中一些重复性较强的工作,如:数据标准制定和映射、元数据信息完善、数据目录挂载等,需要消耗大量的人力和时间成本,这给本来就难以量化业务价值的治理工作的顺利推…...
【初学人工智能原理】【12】循环:序列依赖问题
前言 本文教程均来自b站【小白也能听懂的人工智能原理】,感兴趣的可自行到b站观看。 代码及工具箱 本专栏的代码和工具函数已经上传到GitHub:1571859588/xiaobai_AI: 零基础入门人工智能 (github.com),可以找到对应课程的代码 正文 对于…...
【QT】无法打开QT的ui文件,出现闪退情况
打开qt的ui文件出现闪退的情况: 解决办法:点击扩展-Qt VS Tools-Options 找到Qt General中的Qt Designer 的Run in detached window改为True。...
三、Spring-WebFlux实战案例-流式
目录 一、springboot之间通讯方式 1. 服务端 (Spring Boot) 1.1 添加依赖 1.2 控制器 2. 客户端 (WebClient) 2.1 添加依赖 2.2 客户端代码 3. 运行 二、web与服务之间通讯方式 1、服务端代码 2、客户端代码 3、注意事项 三、移动端与服务端之间通讯方式…...
html+css 实现hover双层按钮
前言:哈喽,大家好,今天给大家分享htmlcss 绚丽效果!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 文…...
SPIFFS与LittleFS的对gz文件格式的区别
SPIFFS 只能安装在Arduino上。LittleFS支持Arduino IDE和VScode的 PlatformIO。 SPIFFS serveStatic: server.serveStatic("/", SPIFFS, "/") 负责提供 SPIFFS 文件系统中的文件。您可以在 SPIFFS 上放置 .gz 文件,并该方法将自动处理它们。 …...
STM32L051K8U6-开发资料
STM32L051测试 (四、Flash和EEPROM的读写)-云社区-华为云 (huaweicloud.com) STM32L051测试 (四、Flash和EEPROM的读写) - 掘金 (juejin.cn) STM32L0 系列 EEPROM 读写,程序卡死?_stm32l0片内eeprom_stm3…...
Markdown语法学习
Markdown学习 一、基础语法讲解 1. 换行 本行末尾双空格然后回车(在Typora的中直接回车也可以) 2. 换段 本段末尾两次回车 3. 加粗 **加粗** __加粗__效果:加粗 4. 斜体 *加粗* _加粗_效果:斜体 5. 斜体加粗 ***加粗**…...
[最短路Floyd],启动!!!
B3647 【模板】Floyd #include<bits/stdc.h> #define ll long long #define fi first #define se second #define pb push_back #define PII pair<int,int > #define IOS ios::sync_with_stdio(false),cin.tie(0),cout.tie(0) using namespace std; const int N …...
7月29(信息差)
🌍最强模型 Llama 3.1 如期而至!扎克伯格最新访谈:Llama 会成为 AI 界的 Linux 🎄谷歌AlphaProof攻克国际奥赛数学题 https://www.51cto.com/article/793632.html ✨SearchGPT第一波评测来了!响应速度超快还没广告&…...
ubuntu中禁止使用鼠标拖动来移动文件
windows和ubuntu中都可以拖动文件到其他路径,然后达到移动文件的目的。 这种方式有好处也有坏处,好处是移动文件方便了,坏处是误操作后会造成故障,尤其是ubuntu中,本身鼠标就特别灵敏并且操作不便,拖动一个…...
【密码学】椭圆曲线密码体制(ECC)
椭圆曲线密码体制(Elliptic Curve Cryptography, ECC)是一种基于椭圆曲线数学特性的公钥密码系统。在介绍椭圆曲线之前,我们先来了解一下椭圆曲线的基本概念。 一、椭圆曲线是什么? (1)椭圆曲线的数学定义…...
第25集《大佛顶首楞严经》
丑二、腾疑细释 分二:寅一、阿难腾疑;寅二、如来细释 请大家打开讲义第五十六页,“丑二、腾疑细释”。 本经的修学重点,就是修学首楞严王三昧。它的整个重点,其实就是一个心地法门。我们在行菩萨道的时候慢慢会发觉…...
python 读写文件之 open 和 with open() 详细解析
python 读写文件之 open 和 with open() 详细解析 文章目录 python 读写文件之 open 和 with open() 详细解析1. open() 和 with open() 能打开不同的文件类型吗?2. 文本文件和二进制文件的区别2.1 文本文件 (Text Files)2.2 二进制文件 (Binary Files)区别 3. 读文…...
操作系统:内存----知识点
什么是虚拟内存? 虚拟内存简称虚存,是计算机系统内存管理的一种技术。它是相对于物理内存而言的,可以理解为“假的”内存。它使得应用程序认为它拥有连续可用的内存(一个连续完整的地址空间),允许程序员编…...
pfx如何配置到nginx中
有pfx文件的时候如何在nginx上使用 好的,如果您已经确认没有中间证书(或中间证书内容为空),那么可以直接使用服务器证书和私钥。以下是简化后的步骤: 从PFX文件中导出私钥: openssl pkcs12 -in xxx.com.pfx…...
详细测评下搬瓦工香港CN2 GIA VPS
搬瓦工香港VPS分移动CMI和电信CN2 GIA两个大类,一个属于骨干网,一个属于轻负载。搬瓦工的香港CN2 GIA根据测试来看实际上是CN2 GIABGP,并非三网纯CN2 GIA。详细测评数据如下: 用FIO再给测试一下硬盘I/O,可以仔细看看数…...
Java中的五种线程池类型
Java中的五种线程池类型 1. CachedThreadPool (有缓冲的线程池)2. FixedThreadPool (固定大小的线程池)3. ScheduledThreadPool(计划线程池)4. SingleThreadExecutor (单线程线程池)…...
FFmpeg Windows安装教程
一. 下载ffmpeg 进入Download FFmpeg网址,点击下载windows版ffmpeg。 下载第一个essentials版本就行。 二. 环境配置 上面源码解压后如下 将bin添加到系统环境变量 验证安装是否成功,输入ffmpeg –version,显示版本即为安装成功。...
‘#‘ is not followed by a macro parameter 关于宏定义的错误
今天在项目代码上想定义一个这样的宏,结果编译错误,这个宏定义类似这样的: #define DELETE_FILE_DPP(key) \ #ifdef PLATFORM_DPP \delete_file(&key); \ #endif 因为有平台之分需要用到编译宏,但不想每个调用的地方都写 #i…...
IDEA运行Tomcat出现乱码问题解决汇总
最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…...
Spark 之 入门讲解详细版(1)
1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处&…...
python/java环境配置
环境变量放一起 python: 1.首先下载Python Python下载地址:Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个,然后自定义,全选 可以把前4个选上 3.环境配置 1)搜高级系统设置 2…...
基于uniapp+WebSocket实现聊天对话、消息监听、消息推送、聊天室等功能,多端兼容
基于 UniApp + WebSocket实现多端兼容的实时通讯系统,涵盖WebSocket连接建立、消息收发机制、多端兼容性配置、消息实时监听等功能,适配微信小程序、H5、Android、iOS等终端 目录 技术选型分析WebSocket协议优势UniApp跨平台特性WebSocket 基础实现连接管理消息收发连接…...
《Playwright:微软的自动化测试工具详解》
Playwright 简介:声明内容来自网络,将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具,支持 Chrome、Firefox、Safari 等主流浏览器,提供多语言 API(Python、JavaScript、Java、.NET)。它的特点包括&a…...
渗透实战PortSwigger靶场-XSS Lab 14:大多数标签和属性被阻止
<script>标签被拦截 我们需要把全部可用的 tag 和 event 进行暴力破解 XSS cheat sheet: https://portswigger.net/web-security/cross-site-scripting/cheat-sheet 通过爆破发现body可以用 再把全部 events 放进去爆破 这些 event 全部可用 <body onres…...
【磁盘】每天掌握一个Linux命令 - iostat
目录 【磁盘】每天掌握一个Linux命令 - iostat工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景 注意事项 【磁盘】每天掌握一个Linux命令 - iostat 工具概述 iostat(I/O Statistics)是Linux系统下用于监视系统输入输出设备和CPU使…...
《用户共鸣指数(E)驱动品牌大模型种草:如何抢占大模型搜索结果情感高地》
在注意力分散、内容高度同质化的时代,情感连接已成为品牌破圈的关键通道。我们在服务大量品牌客户的过程中发现,消费者对内容的“有感”程度,正日益成为影响品牌传播效率与转化率的核心变量。在生成式AI驱动的内容生成与推荐环境中࿰…...
【项目实战】通过多模态+LangGraph实现PPT生成助手
PPT自动生成系统 基于LangGraph的PPT自动生成系统,可以将Markdown文档自动转换为PPT演示文稿。 功能特点 Markdown解析:自动解析Markdown文档结构PPT模板分析:分析PPT模板的布局和风格智能布局决策:匹配内容与合适的PPT布局自动…...
WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成
厌倦手动写WordPress文章?AI自动生成,效率提升10倍! 支持多语言、自动配图、定时发布,让内容创作更轻松! AI内容生成 → 不想每天写文章?AI一键生成高质量内容!多语言支持 → 跨境电商必备&am…...
