AI大模型在数据治理中的应用
目前,企业的数据治理工作以人工实施为主,其中一些重复性较强的工作,如:数据标准制定和映射、元数据信息完善、数据目录挂载等,需要消耗大量的人力和时间成本,这给本来就难以量化业务价值的治理工作的顺利推进带来了更多的困难。AI大模型的引入,可以有效地解决这一难题。相比传统的人工为主的数据治理,基于AI大模型的数据治理具有以下优势:
自动化:AI大模型可以通过学习和分析数据治理各项工作的特征和规则,自动化批量进行大规模数据的数据标准、元数据、数据质量管理、数据安全管理等数据治理任务,减少了人工处理的工作量,提升治理工作效率。
实时性:AI大模型可以实时监控和分析数据的变化,并及时进行预警或直接处理,提升数据治理的响应速度。
扩展性:AI大模型可以通过学习和迭代,持续提升自己的能力,以适应高度变化的业务和技术环境对数据治理的需求。
基于上述考量,在数据治理领域,基于AI大模型的能力,可以从如下主要场景实现从人工治理到智能治理的进化。
(一) 数据标准管理
无论是以人工为主的数据标准管理,还是基于AI大模型的智能化数据标准管理,首先都需要我们对企业的数据标准现状进行详尽的调研工作。调研的内容包括:企业当前的数据业务含义、数据标准分类、数据标准内容,业务和技术团队对当前数据标准的改进需求(以下简称“改进需求”),相关的国际标准、国家标准、地方标准和行业标准(以下统一简称为“外部标准”)等。
在此基础之上,利用AI大模型,可以从以下几个方面提升数据标准管理的智能化程度:
1.标准智能制定
基于企业现有标准、改进需求和外部标准,自动制定适合企业的数据标准。和人工制定的标准一样,自动制定的标准,也需要经过企业的业务和技术专家的审定后,才能正式发布使用。
2.标准智能落标
前向落标:按企业的数据标准实施策略,逐步赋能周边系统,在建表时,自动为字段推荐/匹配合适的数据标准。
后向落标:按企业的数据标准实施策略,逐步治理存量数据,批量自动化为其推荐/匹配合适的数据标准。
3.标准智能维护
随着业务需求和环境的变化,数据标准需要不断更新和维护。我们可以通过AI大模型,自动监测和分析业务数据的变化,提供标准的新增、变更、下线建议,帮助企业及时进行数据标准维护。
(二) 元数据管理
Gartner在其“数据编织”的架构中提出了Metadata Activation(国内一般翻译为“主动元数据”或“元数据激活”)的概念,随后又在其“元数据管理成熟度”中(见图3-2)对主动元数据进行了解释,概括来说就是:主动元数据指的是一种数据管理方式,即,发现、获取尽可能多的元数据,并以丰富的元数据为基础,利用各种AI技术手段(ML、NGL、知识图谱等),主动改进数据管理的工具和活动,提升数据管理的效率,降低管理成本。
图3:Gartner数据编织架构
图4:Gartner元数据管理技术成熟度
Gartner在提出数据编织概念时,AI大模型还没出圈,但我们可以想象,如果Gartner更新其对数据编织的阐述,肯定会毫不犹豫地把AI大模型加入其架构中。
在元数据管理中,利用AI大模型,可以从以下几个方面提升智能化程度:
1.元数据智能挖掘
企业在做元数据采集时,由于源系统设计和管理的不规范,大多数情况下只能采集到最基础的技术元数据信息(如:数据库、Schema、表名、字段名等),需要花费大量人力和时间完善其他的核心元数据信息(如:表的中文名、业务口径、描述、标签,字段的中文名、描述、取值说明、敏感等级等)。通过AI大模型的推理能力,可以基于最基础的技术元数据信息和业务样例数据,自动填充其他的核心元数据信息。
2.数据血缘智能挖掘
业务和技术的发展,以及随之而来的日益复杂的加工逻辑、多源异构的数据库和多种类型的加工脚本,这些都给数据血缘解析(尤其是字段级血缘解析)带来了极大的挑战。通过AI大模型的代码解读能力,可以提升复杂代码、异构数据库和多类型的加工脚本场景下,血缘解析的成功率和准确率。再进一步,如果能利用AI大治理模型总结并生成表级和字段级的业务口径或者数据处理逻辑,将极大地提升人们理解数据、数据溯源和数据影响分析的效率。
3.数据智能分类
基于数据对象的元数据、业务样例数据,自动推荐数据对象所属的数据分类或挂载的数据目录。
4.数据推荐
基于企业中数据使用者的个人信息(部门、岗位、参与的业务等)、在大数据体系平台(数据开发平台、数据治理平台、BI报表平台等)中的操作行为(搜索、查看、收藏、订阅等)和数据对象的元数据、业务样例数据,向数据使用者推荐他们需要的数据对象。
(三) 数据质量管理
在数据质量管理中,利用AI大模型,可以从以下几个方面提升管理的智能化程度:
1.质量规则推荐
基于数据对象的元数据和业务样例数据,自动为数据对象推荐/匹配表级和字段级的数据质量规则。
2.质量阈值推荐
通过持续分析历史的质量校验结果数据,向用户提供建议的质量异常阈值,并能持续调整建议的结果。
3.质量异常自动定位
基于数据血缘链路和数据质量校验结果,自动定位数据质量异常的源头。
4.质量异常智能修复
针对部分数据质量异常(如重复数据、缺失数据、不一致数据等),基于数据对象的元数据和质量正常的业务样例数据,自动修复数据中的异常。
(四) 数据安全管理
在数据安全管理中,利用AI大模型,可以从以下几个方面提升管理的智能化程度:
1.敏感数据智能识别
基于数据对象的元数据、业务样例数据和企业的数据分级策略,自动识别数据对象的敏感等级。
2.脱敏/加密规则推荐
基于数据对象的元数据、业务样例数据、敏感等级和企业的数据安全策略,自动为数据对象推荐/匹配脱敏或加密规则。
3.数据风险智能识别
基于数据对象的元数据、血缘、敏感等级,企业的数据安全策略和已有的数据权限策略,自动识别数据风险并提供异常处理策略,应用场景主要包括:
相关文章:
AI大模型在数据治理中的应用
目前,企业的数据治理工作以人工实施为主,其中一些重复性较强的工作,如:数据标准制定和映射、元数据信息完善、数据目录挂载等,需要消耗大量的人力和时间成本,这给本来就难以量化业务价值的治理工作的顺利推…...
【初学人工智能原理】【12】循环:序列依赖问题
前言 本文教程均来自b站【小白也能听懂的人工智能原理】,感兴趣的可自行到b站观看。 代码及工具箱 本专栏的代码和工具函数已经上传到GitHub:1571859588/xiaobai_AI: 零基础入门人工智能 (github.com),可以找到对应课程的代码 正文 对于…...
【QT】无法打开QT的ui文件,出现闪退情况
打开qt的ui文件出现闪退的情况: 解决办法:点击扩展-Qt VS Tools-Options 找到Qt General中的Qt Designer 的Run in detached window改为True。...
三、Spring-WebFlux实战案例-流式
目录 一、springboot之间通讯方式 1. 服务端 (Spring Boot) 1.1 添加依赖 1.2 控制器 2. 客户端 (WebClient) 2.1 添加依赖 2.2 客户端代码 3. 运行 二、web与服务之间通讯方式 1、服务端代码 2、客户端代码 3、注意事项 三、移动端与服务端之间通讯方式…...
html+css 实现hover双层按钮
前言:哈喽,大家好,今天给大家分享htmlcss 绚丽效果!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 文…...
SPIFFS与LittleFS的对gz文件格式的区别
SPIFFS 只能安装在Arduino上。LittleFS支持Arduino IDE和VScode的 PlatformIO。 SPIFFS serveStatic: server.serveStatic("/", SPIFFS, "/") 负责提供 SPIFFS 文件系统中的文件。您可以在 SPIFFS 上放置 .gz 文件,并该方法将自动处理它们。 …...
STM32L051K8U6-开发资料
STM32L051测试 (四、Flash和EEPROM的读写)-云社区-华为云 (huaweicloud.com) STM32L051测试 (四、Flash和EEPROM的读写) - 掘金 (juejin.cn) STM32L0 系列 EEPROM 读写,程序卡死?_stm32l0片内eeprom_stm3…...
Markdown语法学习
Markdown学习 一、基础语法讲解 1. 换行 本行末尾双空格然后回车(在Typora的中直接回车也可以) 2. 换段 本段末尾两次回车 3. 加粗 **加粗** __加粗__效果:加粗 4. 斜体 *加粗* _加粗_效果:斜体 5. 斜体加粗 ***加粗**…...
[最短路Floyd],启动!!!
B3647 【模板】Floyd #include<bits/stdc.h> #define ll long long #define fi first #define se second #define pb push_back #define PII pair<int,int > #define IOS ios::sync_with_stdio(false),cin.tie(0),cout.tie(0) using namespace std; const int N …...
7月29(信息差)
🌍最强模型 Llama 3.1 如期而至!扎克伯格最新访谈:Llama 会成为 AI 界的 Linux 🎄谷歌AlphaProof攻克国际奥赛数学题 https://www.51cto.com/article/793632.html ✨SearchGPT第一波评测来了!响应速度超快还没广告&…...
ubuntu中禁止使用鼠标拖动来移动文件
windows和ubuntu中都可以拖动文件到其他路径,然后达到移动文件的目的。 这种方式有好处也有坏处,好处是移动文件方便了,坏处是误操作后会造成故障,尤其是ubuntu中,本身鼠标就特别灵敏并且操作不便,拖动一个…...
【密码学】椭圆曲线密码体制(ECC)
椭圆曲线密码体制(Elliptic Curve Cryptography, ECC)是一种基于椭圆曲线数学特性的公钥密码系统。在介绍椭圆曲线之前,我们先来了解一下椭圆曲线的基本概念。 一、椭圆曲线是什么? (1)椭圆曲线的数学定义…...
第25集《大佛顶首楞严经》
丑二、腾疑细释 分二:寅一、阿难腾疑;寅二、如来细释 请大家打开讲义第五十六页,“丑二、腾疑细释”。 本经的修学重点,就是修学首楞严王三昧。它的整个重点,其实就是一个心地法门。我们在行菩萨道的时候慢慢会发觉…...
python 读写文件之 open 和 with open() 详细解析
python 读写文件之 open 和 with open() 详细解析 文章目录 python 读写文件之 open 和 with open() 详细解析1. open() 和 with open() 能打开不同的文件类型吗?2. 文本文件和二进制文件的区别2.1 文本文件 (Text Files)2.2 二进制文件 (Binary Files)区别 3. 读文…...
操作系统:内存----知识点
什么是虚拟内存? 虚拟内存简称虚存,是计算机系统内存管理的一种技术。它是相对于物理内存而言的,可以理解为“假的”内存。它使得应用程序认为它拥有连续可用的内存(一个连续完整的地址空间),允许程序员编…...
pfx如何配置到nginx中
有pfx文件的时候如何在nginx上使用 好的,如果您已经确认没有中间证书(或中间证书内容为空),那么可以直接使用服务器证书和私钥。以下是简化后的步骤: 从PFX文件中导出私钥: openssl pkcs12 -in xxx.com.pfx…...
详细测评下搬瓦工香港CN2 GIA VPS
搬瓦工香港VPS分移动CMI和电信CN2 GIA两个大类,一个属于骨干网,一个属于轻负载。搬瓦工的香港CN2 GIA根据测试来看实际上是CN2 GIABGP,并非三网纯CN2 GIA。详细测评数据如下: 用FIO再给测试一下硬盘I/O,可以仔细看看数…...
Java中的五种线程池类型
Java中的五种线程池类型 1. CachedThreadPool (有缓冲的线程池)2. FixedThreadPool (固定大小的线程池)3. ScheduledThreadPool(计划线程池)4. SingleThreadExecutor (单线程线程池)…...
FFmpeg Windows安装教程
一. 下载ffmpeg 进入Download FFmpeg网址,点击下载windows版ffmpeg。 下载第一个essentials版本就行。 二. 环境配置 上面源码解压后如下 将bin添加到系统环境变量 验证安装是否成功,输入ffmpeg –version,显示版本即为安装成功。...
‘#‘ is not followed by a macro parameter 关于宏定义的错误
今天在项目代码上想定义一个这样的宏,结果编译错误,这个宏定义类似这样的: #define DELETE_FILE_DPP(key) \ #ifdef PLATFORM_DPP \delete_file(&key); \ #endif 因为有平台之分需要用到编译宏,但不想每个调用的地方都写 #i…...
内网穿透--meterpreter端口转发实验
实验背景 通过公司带有防火墙功能的路由器接入互联网,然后由于私网IP的缘故,公网无法直接访问内部主机,则需要通过已连接会话,代理穿透访问内网主机服务。 实验设备 1.路由器一台 2.内网 Win 7一台 3.公网 Kali 一台 4.网络 …...
Python 数据类:减少样板并提高可读性
一.介绍 在本文中,我们将了解数据类。Python 3.7 引入了数据类,这是一个强大的功能,它简化了创建主要用于存储数据的类的过程。数据类减少了样板代码并提供有用的默认行为,使您的代码更简洁、更高效。 二.为什么要使用数据类&am…...
家庭教育系列—北京海淀区”鸡娃“攻略
文章目录 1. 背景介绍2. 道3. 法3.1 **目标设定(Goal Setting)**3.2 **学习计划(Study Planning)**3.3 **资源利用(Resource Utilization)**3.4 **能力培养(Skill Development)**4. 术4.1 英语4.1.1 启蒙4.1.2 启蒙之后4.3 数学4.3.1 奥数4.3.2 普通数学知识4.4 语文4.…...
DLMS/COSEM中的信息安全:DLMS/COSEM安全概念(下)
3.安全语境 安全语境定义了与加密转换有关的安全属性,并包括以下元素: ——安全组件,确定可用的安全算法。 ——安全策略,在AA内对所有xDLMS APDU确定将应用的那种保护; ——与给定的安全算法相关的安全资料,包含安全密钥、初始化向量、公共密钥证书等。由于安全资料是针…...
基于 systemc-2.3.1的virtual device 接入 qemu-arm
1,下载systemc-2.3.1 下载网址: SystemC Files $ wget https://www.accellera.org/images/downloads/standards/systemc/systemc-2.3.1.tgz 2,编译安装 systemc-2.3.1 tar zxf systemc-2.3.1.tgz cd systemc-2.3.1/ export CXXg mkdir bu…...
(七)自动化测试
1. 简述什么是UI自动化测试? 正确回答通过率:78.0%[ 详情 ] 推荐指数: ★★★★ 试题难度: 中级 UI自动化测试(User Interface Automation Testing)是一种通过编写脚本或使用自动化测试工具,对用户界面(UI)进行自动化测试的方法。它可以模拟用户与应用程序或网站的交…...
【信创】virtualbox内虚拟机连接U盘 _ 统信 _ 麒麟 _ 中科方德
原文链接:【信创】virtualbox内虚拟机连接U盘 | 统信 | 麒麟 | 中科方德 Hello,大家好啊!今天给大家带来一篇关于在信创操作系统上使用VirtualBox虚拟机连接物理主机U盘的文章。在使用VirtualBox虚拟机时,有时候需要将物理主机上的…...
【2024】Datawhale AI夏令营 Task4笔记——vllm加速方式修改及llm推理参数调整上分
【2024】Datawhale AI夏令营 Task4笔记——vllm加速方式修改及llm推理参数调整上分 本文承接文章【2024】Datawhale AI夏令营 Task3笔记——Baseline2部分代码解读及初步上分思路,对其中vllm加速方式进行修改,推理速度获得了极大提升。另外,…...
腾讯OCR签名算法
云服务器 签名方法 v3-调用方式-API 中心-腾讯云 一,签名算法-官网 copy官网 package com.smcv.customer.service.util;import org.springframework.http.HttpHeaders;import javax.crypto.Mac; import javax.crypto.spec.SecretKeySpec; import javax.xml.bind.D…...
CTFHUB-SSRF-DNS重绑定 Bypass
开启题目,页面空白,访问附件 附件是一个知乎的文章,翻到下面点击文中这个链接 跳转之后,进行设置 把得到的链接拼接到题目的后面进行访问,然后得到了本题的 flag...
怎么做网站客服/百度一下电脑版
首先需要准备2个工具:HttpWatch(或HttpAnalyzer),以及JSONViewer(http://www.codeplex.com/JsonViewer)HttpWatch(或HttpAnalyzer)是收费软件,JSONViewer是free的。另外你也可以安装Firefox的JS…...
陕西网站建设哪家专业/seo 服务
Toast用于向用户显示一些帮助或者提示,对于我们来说已经不陌生了,经常用到。 下面我们一起再深入了解一下Toast,你会惊奇发现Toast原来还能这样做! 一、设计界面 1、打开“res/layout/activity_main.xml”文件。 从工具栏向activi…...
建筑企业登录哪个网站/公众号软文推广
2019独角兽企业重金招聘Python工程师标准>>> 使用场景:适配器模式把一个类的接口变换成客户端所期待的另一种接口,从而使原本因接口不匹配而无法在一起工作的两个类能够在一起工作。 引用网上的一个例子:笔记本电脑电源一般用的都…...
免费下载建设银行官方网站下载/今日新闻最新消息
Quartz 是 OpenSymphony 开源组织在任务调度领域的一个开源项目,完全基于 Java 实现。作为一个优秀的开源调度框架,Quartz 具有功能强大,应用灵活,易于集成的特点 目前项目处于运维阶段中期,事情不多,所以有…...
群晖wordpress 证书/seoul是啥意思
问题描述:巨坑!!!! 正常新建完成一个项目demo2 代码和外部库都没有任何问题,跑起来测试的时候却失败了 原因分析: java.lang.NoClassDefFoundError: com/google/common/collect/Immutable…...
dw网站制作/seo流量排名工具
RSA算法实现概述 按照算法实现所使用整数长度的分类,我们可以将算法实现分为小整数版本RSA和大整数版本RSA。一般小整数版本RSA的整数长度小于64位,大整数版本RSA的整数长度大于64位。网上很多博客和项目编写的RSA加密算法实现,其实都是小整数…...