车企数据治理实践案例,实现数据生产、消费的闭环链路 | 数字化标杆
随着业务飞速发展,某汽车制造企业业务系统数量、复杂度和数据量都在呈几何级数的上涨,这就对于企业IT能力和IT架构模式的要求越来越高。加之企业大力发展数字化营销、新能源车等业务,希望通过持续优化客户体验,创造可持续发展的数字化转型之路。
为更好应对数字化变革所带来的挑战,现有的竖井架构的数据体系难以满足越来越多、越来越快的系统和数据交互、敏捷创新应用、数据共享、新业务拓展的需求。以数据驱动的数字化,将帮助车企全面了解用户的需求变化,也能为企业在营销、生产、服务等各个环节提供支撑,进一步提升企业的经营效率。
在开展某车企数据化转型时,需要解决三个核心问题:如何收集汇总和运营自己的数据?如何建立数据治理运营团队?如何在短期内快速展现成果,在企业内部建立信心?
本次某车企数据中心二期的建设重点是数据治理平台建设。数据治理平台的核心理念在于“数据取之于业务,用之于业务”,即完整构建某车企从数据生产到消费,消费后产生的数据再回流到生产流程的闭环过程。
01 数据“生产-消费-生产”闭环的数据治理方案
1、咨询服务
在某车企组织架构、制度体系和数据资产盘点的基础上,结合国际、国内和行业标准,围绕数据资产全生命周期管理,制定相关的数据规范体系。通过数据治理咨询建设所涉项目的数据治理体系,包括标准、组织、规范、流程、制度等,实现营销业务线、制造业务线、研发业务线数据分级分类标准制定,形成包含主数据、数据标准、数据模型、元数据、数据质量、数据安全、数据生命周期、数据架构等标准、流程与管理制度,并具备推广至全公司业务线的能力。
一是数据治理体系规划。数据治理整体规划方面包括数据管理愿景、组织模式、管理边界和推动策略,数据管理体系设计方面包括数据治理基础、数据管理核心领域、数据应用,任务及规划方面包括数据管理任务识别、实施原则分析、实施计划制定。
二是数据治理组织规划。根据数据管理工作的实际需要,在业务部门、技术管理部门和业务应用部门间要确定各个工作人员的职责。例如不同的业务部门应该明确各自业务开展对数据的具体要求和相关规则,而技术部门则会根据业务部门的需求负责具体的实施工作,包括将业务部门提出的要求转化成技术语言,用于事前的控制(如字段的约束)、事中的逻辑控制(例如控制不能为空)、事后的核查,以及具体的技术操作和编制定期的报告等。
2、平台搭建
提供袋鼠云数据资产管理套件与可视化开发套件,满足数据离线开发、实时开发、数据建模、数据标准、数据质量、数据血缘、数据安全、元数据管理、数据资产、数据标签等能力,集成自有大数据平台、开放平台、调度平台与可视化平台,管理数据资产、提升数据质量,打造数据资产中心、支撑业务创新的数据服务中心和应用中心。
3、项目实施
梳理营销业务线、制造业务线、研发业务线数据资产,划分数据域,构建数据应用,实现数据生命周期全流程打通。具体实施内容包括数据资产地图、数据模型、数据标准、元数据管理、数据血缘、数据分级分类、数据质量规则及报告等。
一是数据资产门户
全局统计企业数据资产情况,让企业管理者对数据的分布、增长、使用、质量情况有直观的了解。包括不限于:
1)数据指标的统计:数据源数量、表数量、存储量、使用量、质量评分。 2)数据趋势的统计:数据分布情况、数据增长趋势、数据使用热度。 3)数据使用排行:数据存储排行;元数据质量:规范趋势、规范排行。
二是数据地图
数据地图的定位是可视化的数据资产中心,用户可以在数据地图模块中查看平台内的所有数据表情况,同时可以进行全方位管理数据资产。
1)数据查找:汇聚平台内的所有数据表信息,方便开发人员快速定位所需数据表,支持用户根据类目、表名、所在项目、授权状态进行过滤,或直接根据表名搜索。
2)数据表元数据展现:用户指定某张表后,可以查看此表的基本信息,包括表名、物理存储量、生命周期、是否分区表、字段名称、字段类型、分区信息等,同时可以进行预览,直观地查看表内数据情况。
3)数据类目管理:当平台内的数据表越来越多时,数据类目的重要性就会日益突出。提供3层类目的管理,用户可自定义层级、名称,并将数据表指定至某个节点上,数据开发者在寻找数据时可根据数据类目快速定位。
4)数据审批授权:提供表级数据权限的管理,当用户需要跨项目访问表时(读/写)需先经项目管理员审批授权,审批通过后才可以对表进行跨项目访问。同时,授权审批具备有效期的概念,超出有效期后自动取消授权,提升数据访问的安全程度。
4)生命周期管理:提供表的生命周期管理,用户可在建表时指定生命周期,系统定时检测每张表/分区的数据更新时间,超出时间后自动删除数据,降低临时数据造成的存储压力。
5)数据血缘解析:提供自动解析同步任务和SQL代码,自动建立各个数据表的表级、字段级血缘关系,用户可直接在页面上看到每个指标的“前世今生”,便于快速排查指标问题,检查指标统计逻辑,依赖链路是否正常等。
三是数据质量
作为数据治理的内容,数据质量的保障与提升是大数据平台的必备功能。数据质量的管理工作大致可以按照事前、事中、事后的流程化体系来进行,即事前的监控规则定义、事中的数据生成监控、事后的数据质量分析。
1)事前管理:接入需要管理的数据源,并结合对业务需求和数据的理解,对需要监控的数据配置监控规则。
2)事中管理:通过对定义好的监控规则配置调度周期,系统自动执行,校验数据质量。
3)事后管理:对校验不满足规则的数据,及时发出错误提醒。同时系统自动生成监控报告,帮助用户复盘总结数据问题。
四是数据安全
1)数据权限控制:支持表级数据权限的管理,当用户需要跨项目访问表时(读/写)需先经项目管理员审批授权,审批通过后才可以对表进行跨项目访问。同时,授权审批具备有效期的概念,超出有效期后自动取消授权,提升数据访问的安全程度。支持数据资源服务的权限申请、审批,保障数据服务的安全性。
2)生命周期管理:支持表的生命周期管理,用户可在建表时指定生命周期,系统定时检测每张表/分区的数据更新时间,超出时间后自动删除数据,降低临时数据造成的存储压力。
3)数据影响解析:当用户配置了同步任务,并通过SQL任务进行多个步骤的清洗、转化处理之后最终会将结果数据输出,在整个处理链路中,数据的血缘关系就隐含在同步任务和SQL代码中,数据影响表示每个统计指标是如何从原始数据得到的过程。
4)数据脱敏:支持自定义脱敏规则,可应用于不同的敏感数据防止数据预览时造成数据泄露。包括支持根据国标自定义安全等级,对人、表进行分级分类定级;支持自定义脚本函数、正则表达式,按需关联识别规则、识别函数及脱敏规则,自动动态识 别敏感数据;支持内置多种敏感数据识别定期模板,即身份证、银行卡号、邮箱、手机号、IP、固定电话、 车牌号、姓名、公司、地址的识别,同时提供用户自定义规则。
02 搭建数据治理平台,数据质量大幅提升
某车企通过数据治理平台项目,完成了数据规范、标准、质量、服务体系、治理组织架构等内容建设,基本能满足企业2—3年数据发展的使用诉求。结合数据中台+数据治理方案,在该阶段取得了阶段性的成果:
一是构建强大数据开发与治理平台体系,通过数据平台的建设,为某车企实现数据基础处理平台、数据资产管理平台、数据服务平台。从而实现从标准化数据采集、数据质量管理、数据资产管理和数据应用的整套数据标准化处理流程,同时对接BI和报表工具,同时对元数据进行标准化的API管理能力。
二是快速定位数据问题根本原因,有许多数据问题不一定是真正的数据问题,如果所有使用者一碰到难以理解的问题就找技术人员协助定位,技术人员则会花费过多时间在问题定位上的,最终导致数据问题会越堆积越多的。因此,本次项目为使用者提供自助排查的功能,协助用户找到问题原因,实在解决不了的再找到技术人员协助解决。另外将数据流中间结果的数据可视化呈现,便于在最终结果报表缺失或有误的情况下,能够快速定位出是数据出错环节。
三是数据质量得到保障,数据价值高。数据质量可靠不仅提升了决策人员的决策效率以及成果,也可以降低发生风险的概率。当企业用可靠的数据时,可以更快、更一致地回答问题,做出决策。如果数据是高质量的,也能花更少的时间发现问题,而将更多的时间用于使用数据来获得洞察力、做决策、服务用户。
《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm
想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szcsdn
相关文章:

车企数据治理实践案例,实现数据生产、消费的闭环链路 | 数字化标杆
随着业务飞速发展,某汽车制造企业业务系统数量、复杂度和数据量都在呈几何级数的上涨,这就对于企业IT能力和IT架构模式的要求越来越高。加之企业大力发展数字化营销、新能源车等业务,希望通过持续优化客户体验,创造可持续发展的数…...

深入学习锁--Lock各种使用方法
一、什么是Lock Lock是一个接口,通常所说的可重入锁是指Lock的一个实现子类ReentrantLock 二、Lock实现步骤: ①创建锁对象Lock lock new ReentrantLock(); ②加锁lock.lock(); ③释放锁lock.unlock(); import java.util.concurrent.locks.Lock; import java.util…...

计算机毕设:基于机器学习的生物医学语音检测识别 附完整代码数据可直接运行
项目视频讲解: 基于机器学习的生物医学语音检测识别 完整代码数据可直接运行_哔哩哔哩_bilibili 运行效果图: 数据展示: 完整代码: #导入python的 numpy matplotlib pandas库 import pandas as pd import numpy as np import matplotlib.pyplot as plt #绘图 import se…...

VMware安装Ubuntu系统(Server端,Desktop端步骤一样)
天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…...

Navicat 与 华为云 GaussDB 合作再升级,赋能 GaussDB 分布式数据库
2023 年第三季度,Navicat 首次支持了华为云 GaussDB 主备版数据库。经过双方团队进一步的深化合作,Navicat 完成了 GaussDB 分布式的研发适配工作,赋能 GaussDB 全域数据库产品。 GaussDB 数据库分为主备版和分布式版两种模式。主备版适用于…...

【Docker】从零开始:13.Docker安装tomcat
Docker】从零开始:13.Docker安装Tomcat 下载Tomcat镜像启动Tomcat镜像新版本Tomcat修改访问Tomact首页 下载Tomcat镜像 [rootdocker ~]# docker pull tomcat Using default tag: latest latest: Pulling from library/tomcat 0e29546d541c: Pull complete 9b829c7…...

风控规则引擎(一):Java 动态脚本
风控规则引擎(一):Java 动态脚本 日常场景 共享单车会根据微信分或者芝麻分来判断是否交押金汽车租赁公司也会根据微信分或者芝麻分来判断是否交押金在一些外卖 APP 都会提供根据你的信用等级来发放贷款产品金融 APP 中会根据很复杂规则来判…...

第五十六天|583. 两个字符串的删除操作 72. 编辑距离
583. 两个字符串的删除操作 可以求出最大子序列然后用字符串长度去减,也可以用删除的思路,如下: class Solution { public:int minDistance(string word1, string word2) {vector<vector<int>> dp(word1.size()1,vector<int…...

java中Lists.newArrayList和new ArrayList的详细区别?
下面是对Lists.newArrayList()和new ArrayList<>()的详细区别进行举例说明: 创建具有初始数据的列表: java Copy code import com.google.common.collect.Lists; List<String> list1 Lists.newArrayList("apple", "banana…...

从图片或PDF文件识别表格提取内容的简单库img2table
img2table是一个基于OpenCV 图像处理的用于 PDF 和图像的表识别和提取 Python库。由于其设计基于神经网络的解决方案,提供了一种实用且更轻便的替代方案,尤其是在 CPU 上使用时。 该库的特点: 识别图像和PDF文件中的表格,包括在表…...

CSV文件中使用insert 函数在指定列循环插入不同数据
文章目录 一、系统、工具要求二、需求三、代码实现:四、核心代码解读五、逐行更改某一列数据六:实现在文件的末尾增加指定内容列 一、系统、工具要求 pandaspythoncsv Windows 系统 二、需求 我有两个文件: 文件一:subject_ma…...

【华为OD题库-064】最小传输时延I-java
题目 某通信网络中有N个网络结点,用1到N进行标识。网络通过一个有向无环图.表示,其中图的边的值表示结点之间的消息传递时延。 现给定相连节点之间的时延列表times[]{u,v, w),其中u表示源结点,v表示目的结点࿰…...

全文检索[ES系列] - 第495篇
历史文章(文章累计490) 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 M…...

【预计IEEE出版|EI征稿通知】第六届下一代数据驱动网络国际学术会议 (NGDN 2024)
第六届下一代数据驱动网络国际学术会议 (NGDN 2024) The Sixth International Conference on Next Generation Data-driven Networks 2024年4月26-28日 | 中国沈阳 基于前几届在英国埃克塞特 (ISPA 2020) 、中国沈阳 (TrustCom 2021) 和中国武汉 (IEEETrustCom-2022) 成功举…...

C++软件在Win平台运行总结
Windows平台: 1.需要安装运行库:无论是exe还是动态库用的哪种平台工具集(visual2010-visual2019)进行编译,需要安装对应的运行时库vc_redist.x64.exe/vc_redist.x86.exe。比如Exe用的是VisualStdio2010工具集编译,其中链接的一个…...

【数电笔记】16-卡诺图绘制(逻辑函数的卡诺图化简)
目录 说明: 最小项卡诺图的组成 1. 相邻最小项 2. 卡诺图的组成 2.1 二变量卡诺图 2.2 三表变量卡诺图 2.3 四变量卡诺图 3. 卡诺图中的相邻项(几何相邻) 说明: 笔记配套视频来源:B站;本系列笔记并…...

前端面试灵魂提问(1)
1.自我介绍 2.在实习中,你负责那一模块 3.any与unknow的异同 相同点:any和unkonwn 可以接受任何值 不同点:any会丢掉类型限制,可以用any 类型的变量随意做任何事情。unknown 变量会强制执行类型检查,所以在使用一个…...

Linux中项目部署步骤
安装jdk,tomcat 安装步骤 1,将压缩包,拷贝到虚拟机中。 通过工具,将文件直接拖到虚拟机的/home下 2,回到虚拟机中,查看/home下,有两个压缩文件 3,给压缩文件做解压缩操作 tar -z…...

cmd下查看python命令的用法
在cmd下,可以运行python --help或者py --help来查看python命令的用法。例如:...

大型语言模型在实体关系提取中的应用探索(二)
上一篇文章我们探讨了如何使用大语言模型进行实体关系的抽取。本篇文章我们将进一步探索这个话题。比较一下国内外几款知名大模型在相同的实体关系提取任务下的表现。由于精力有限,我们无法全面测试各模型的实体关系抽取能力,因此,看到的效果…...

Easy Excel设置表格样式
1. 设置通用样式 import com.alibaba.excel.annotation.ExcelProperty; import com.alibaba.excel.annotation.write.style.*; import com.fasterxml.jackson.annotation.JsonFormat; import com.xxx.npi.config.easypoi.EasyExcelDateConverter; import lombok.Data; import …...

HarmonyOS/OpenHarmony应用开发
OpenHarmony是由开放原子开源基金会(OpenAtom Foundation)孵化及运营的开源项目, 目标是面向全场景、全连接、全智能时代, 搭建一个智能终端设备操作系统的框架和平台, 促进万物互联产业的繁荣发展。 了解OpenHarmony HarmonyOS是华为通过OpenHarmony项目,结合商业…...

孩子都能学会的FPGA:第二十一课——用线性反馈移位寄存器实现伪随机序列
(原创声明:该文是作者的原创,面向对象是FPGA入门者,后续会有进阶的高级教程。宗旨是让每个想做FPGA的人轻松入门,作者不光让大家知其然,还要让大家知其所以然!每个工程作者都搭建了全自动化的仿…...

国内 AI 成图第一案!你来你会怎么判?
我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用…...

快速登录界面关于如何登录以及多账号列表解析以及config配置文件是如何读取(1)
快速登录界面关于如何登录以及多账号列表解析以及config配置文件是如何读取 1、快速登录界面关于如何登录以及快速登录界面账号如何显示 如图所示:根据按下按钮一键登录中途会发生什么。 关于一键登录按钮皮肤skin的设置: <Button name"QuickLoginOkBtn" text&q…...

finebi 新手入门案例
finebi 新手入门案例 连锁超市销售数据分析 步骤: 准备公共数据新建分析主题处理数据在数据中分析在图形中分析数据大屏 准备公共数据 点击公共数据 点击新建文件夹 修改文件夹名称 上传数据 鼠标悬停在文件夹上,右侧出现 鼠标悬停在文件夹上&#x…...

1. 小游戏(贪心)
题干: 谷同学很喜欢玩计算机游戏,特别是战略游戏,但是有时他不能尽快找到解所以常常感到很沮丧。现在面临如下问题:他必须在一个中世纪的城堡里设防,城堡里的道路形成一棵无向树。要在结点上安排最少的士兵使得他们可以…...

记录 | c++打印变量类型
c打印变量类型: 使用 typeid(变量名).name() int main(){std::cout << "type of ss : " << typeid(ss).name() << std::endl; }...

nodejs_vue+vscode美容理发店会员管理系统un1dm
按照设计开发一个系统的常用流程来描述系统,可以把系统分成分析阶段,设计阶段,实现阶段,测试阶段。所以在编写系统的说明文档时,根据系统所处的阶段来描述系统的内容。 绪论:这是对选题的背景,意…...
C语言 操作符详解
C语言学习 目录 文章目录 前言 一、算术操作符 二、移位操作符 2.1 左移操作符 2.2 右移操作符 三、位操作符 3.1 按位与操作符 & 3.2 按位或操作符 | 3.3 按位异或操作符 ^ 四、赋值操作符 五、单目操作符 5.1 逻辑反操作符! 5.2 正值、负值-操作符 5.3 取地址…...