当前位置: 首页 > news >正文

建设数据中台到底有啥用?

最近专注在数据和人工智能领域,从数据仓库、商业智能、主数据管理到大数据平台的建设,经过很多项目的沉淀和总结,最后我和团队一起总结了精益数据创新的体系。一直战斗在企业信息化一线。

企业为什么要建设数据中台,数据中台对于企业的价值到底是什么。从概念和框架的角度,给你提供一个更全面的视角。做好任何一件事情的前提就是弄清楚为什么。

1 数据中台的诉求

百度搜索指数

img

数据中台的百度搜索指数最终超越了数字化转型和数据仓库。很多企业已经在落地,没启动的企业也在考虑中。显然,数据中台能满足企业的一些诉求。

数据中台行业调研得出的词云图。

大家对数据中台最多的期待:

  • 距业务更近
  • 为企业提供直接业务价值
  • 提供数据服务而不止报表

1.1 传统企业的数据系统距离用户和业务较远

  • 数据系统只是技术支撑,不能直接产生业务价值。做一个业务系统,如电商平台可直接带来收入。但传统的数据应用,如数据仓库不能带来直接价值
  • 当业务人员要在报表里修改一些内容时,得到的响应慢,因为业务人员无法自己直接使用数据来产生洞察,需要去找数据团队
  • 过去在数据方面的投资,大量花费在数据采集、处理和建模部分,而真正利用到业务领域的也不多

换个角度看,业务开发团队对数据利用有很大需求,体现在希望数据中台能解决企业数据开发的效率问题,协作问题和能力问题。

数据中台给应用开发人员这样的希望:他们无需关注具体取数逻辑,只需关注客户需求,像搭乐高一样组合各种数据中台的数据服务到自己的应用,数据准确且一致。

所以,数据中台的价值就是改变原来企业利用数据的形式。

过去,数据的利用形式主要是BI,说直接点就是做报表,做报表就是让管理者知道现在的业务在发生什么,为啥会发生这些事,接下来可能发生啥,这一切都是提供给我们的管理者去看的,帮管理者去做出一个业务决策。

随业务复杂度提升,一个决策背后的因素很多,一个现象需要多维解读才能体现业务全貌。于是,管理者需要的报表越来越多,很多企业会有多个不同业务线的数据仓库,每个数据仓库里都有千张以上的报表,最后就陷入了报表的迷宫。

回头来看这过程,发现报表并不是我们需要的,而数据本身也不是我们需要的,我们需要的是一个业务决策,一个业务行为。如用户打开电商产品目录时,将他最可能购买的产品展示在第一页,而原来OLTP、OLAP分离的数据处理流程做不到,在业务交易过程中,也无法从历史数据和全域数据的分析结果中获得行动的指引。

市场对数据中台的期待,是提供直接驱动业务流程的数据服务,而不仅是需经过人去转化和解读的数据可视化报表,原来商业智能时代已去,市场和用户期待数据智能时代。

2 建设数据中台的根本目的

建设数据中台似乎能提供这种诉求的解决方案。但建设中台不容易,需在技术、组织架构都做对应调整,落地过程也面临种种挑战。企业为啥还兴师动众落地数据中台?数据中台的愿景是打造数据驱动的智能企业。

企业建设数据中台,成为数据驱动的智能企业

3 对企业的收益

  • 优化现有业务
  • 实现新业务的转型

3.1 优化现有业务

通过数据分析和人工智能技术的应用,优化原业务流程。

1 增加现有业务的收入

如通过分析产品的价格、销量、用户数据来优化产品定价、优化产品组合、进行精准营销,从而能够促进产品的销售,增加现有产品的收入。

案例

给一个能源类企业做的数据中台。建成后能够根据历史销量、市场份额、市场容量等数据进行建模,从而帮助企业的销售部门去优化销售任务的分配,提升销售额。这小项目能给企业啥价值?

过去,企业每年年初给全国几十个销售定业绩并持续跟踪,很痛苦,目标不好锚定,每个销售管理一堆经销商,经销商销量、退货都不拉通,无法客观地量化和追踪销售的业绩。

过去这一切靠的都是销售总监经验去拍数,更多靠谈判力,不确定性很高。有了数据中台后,把行业数据、市场竞争数据、往年销售数据以及经销商的数据都拉通来看,一下给到销售总监全貌,还可模拟,让销售业绩分配这个工作变成一个可量化、可预测的确定性工作。

2 促进生产效率

通过数据中台建设,能促进生产效率的提升。

如某大型电信服务商,通过对勘测、规划、设计工作的建模,实现数据自动化处理,减少人工干预和问题的出现,大幅提升工程师设计效率和准确性,将工程设计周期缩短一半。

分析原因。电信服务商的投标是一个很复杂的工作,从客户发出需求到根据需求去勘测、做出规划、具体实施设计再到把实施设计转化成物料设计、工程设计、财务设计,最后再形成投标方案,这个过程过去至少需要一个月,需要众多不同业务部门和专业技能的协作,其中大部分工作都花在了不同数据的合并、拉通、对齐和映射上。

企业建设数据中台后,所有数据能自动处理,大家在同一数据服务里获取、修改、加工同样一套数据,且每次做方案的过程都沉淀成新的服务,后面项目可复用,大大缩短工期,有些标准化较高的项目类型,可从原来一月缩到三天。

降低运营成本,提升运营的利润

目前利用场景最多的,主要通过数据分析优化业务流程、缩短运营周期,从而提升运营利润。

如给一家大型钢铁厂进行配方规划优化,通过对配方数据、市场价格、销量数据的综合分析建模,给到成本最优、产值最高的生产组合,降低运营成本,提升利润。

钢铁行业里配矿决策是很复杂但很重要环节,不同配矿方案,成本和工艺都不一样,对利润影响很大。如何根据技术和商业的众多因素选择最优配方?过去都根据经验维护和计算配矿规则,效率低、周期长。

有数据中台,将原材料的性能、化学工艺、产品质量等技术因素和价格、成分、运营成本及销售收入等商业因素的数据统一进行建模,统一计算后最终做出综合规划,这大大提升利润、降低运营成本。

如下图所示,这是一个典型的钢粉配方的和制造成本的表格,这里面每一项的变化都会带来成本的变化,而影响利润的除了制造成本外,还有销售价格,运营成本等,这样一来如何设计出最优化的配矿决策就是非常重要的因素。通过数据建模,ML的智能配矿模型能全方位规划最优方案,达到特定商业目标,如缩短生产周期或提升利润,优化库存。

提升用户体验

提升用户体验的核心是企业要理解自己的用户,知道用户对自己产品、服务的认知,然后对应优化自己的产品和服务,这就需要建设用户数据平台,构建统一的用户视图,建立起用户画像。

这里我举个富国银行的例子,他们在数据转型中,利用数据中台分析用户的行为数据,来重构在线银行的网站,提升用户体验。富国银行在2016年的时候面临很大的业绩挑战,为了更好地了解用户,他们建立了企业级的数据中台,把全行的用户信息都打通,做成用户画像,打上各种标签,并根据这些用户画像和标签,重新设计了电子银行网站,让网站的服务和风格以用户为中心。

为期几年的数据转型之旅,富国银行也因此项目成为行业“零售之王”,更多细节《富国银行的数据转型之旅》。

提升资产利用率

分析、优化高价值资产,提升资产的利用率。

物流领域路径优化

物流企业做路径优化项目,提升人员和车辆使用率。过去,每天早上每区都有个经验丰富员工,统一规划前一天收到的派件和收件订单,把这些订单分给对应的小组。

这过程的目的就是最大化利用车辆、快递员两个核心资产。但这规划很复杂,因为不仅要考虑成本,还要考虑每个件积压时间不一、紧急程度不一、不同的地点路况对于车辆的要求也不一样等等,这些数据的采集、拉通、建模是很重要的基础工作而这一切都依赖与数据的打通。

建设数据中台,拉通数据后,派单收单的路径更优化了,更好分配给快递员,提升车辆使用率20%。

这场景就很典型,体现数据中台所支撑的智能规划业务的价值。

3.2 业务创新和转型

建设数据中台的第二个收益,实现业务创新和转型。四个主要的价值。

① 数字化产品创新

一个合作十多年海外房地产交易网站客户,定期和他们做黑客马拉松。

有次我们黑客马拉松的一个小组,通过数据分析发现一个小模式,有一群用户,在一段时间内高频访问网站,但不产生任何看房、卖房行为。最后数据分析发现这样的用户都有共同特点,大部分女性,基本访问链接停留时间最长的,很多都是图片,且是室内图片。

推测这群人是来看装修,于是小组孵化新产品,专门提供装修服务,这产品最后还成功了,成为公司除房地产中介服务之外的新业务线。

这也是典型的通过数据洞察发现业务新价值,从而实现数字化产品创新的场景。

② 数字化资产销售

将已积累的数据,通过组合、包装、分析、脱敏,形成对一部分用户有价值的数据资产,如行业报告或优质内容,直接销售产生收入。

典型场景搜索引擎,搜索引擎将用户的信息进行统计分析、脱敏处理后,变成一系列的知识和分析报告,然后以会员提供给需要用户。

百度指数里面,用户可定义和购买自己感兴趣的关键词,一年198元,然后百度就会把所有搜索过这个关键词的记录统计,变成这关键词的搜索指数。如数据中台的关键词就是我去年购买的,我就能实时追踪这个关键词在中文市场被搜索的热度。这就是数据化资产销售的价值模式。

img

③ 业务平台化收益

有一句话在去年很流行,“未来的企业,要么自己做平台,要么被别人平台化”。平台经济成为了这几年数字化领域炙手可热的概念。总的来说,平台化就是你搭建一个平台,让需求方和供给方上来交易,最后你来收取服务费。

如何建立平台呢?拉通一个领域数据,形成数字化平台,再通过平台运营一个特定的业务和客户群体,从而通过平台来产生收益。

典型场景 - 交易撮合平台,如比特币交易平台。这和数据中台啥关系?

这过程其实也是领域数据中台的建设过程,因为平台方主要做的就是数据的生意,对接信息、对接交易双方。数据中台在企业内部,就相当一个数据采集、加工、交易的平台,业务方既可能是数据服务的消费者,又可能是生产者,最终产品是数据服务。

④ 数字化生态业务

从更高维度来看,就是在平台化基础之上,通过打穿产业供应链,帮助企业建设自己数字化生态,从而在生态中产生新的业务价值和收入。如Google应用商店。

当有足够多的伙伴在这平台进行交易,它就能在这些海量的交易和行为数据发现特别多规律,然后产生更多产品创新,利用数据来牵引这生态朝自己设计方向发展。

这生态里,有很多角色参与,开发者、自由开发者、广告商、应用购买者等,而Google掌握所有方数据,用户浏览、下载、付费、交易,一切数据都能够被分析利用,帮助Google Play运营方发现新业务价值,创造收入。

4 总结

建设数据中台到底啥用,一个数据中台收益框架包括两大维度、九个细分项。最核心的就是给我们建设数据中台这件事找到目标,可把这9项作为指导,先明确价值和方向,再找到应用场景,以此作为牵引来建设自己的数据中台。

大部分企业要经历一个转型的,朝着数智化方向演进。企业的转型,从最早的信息化走向数字化,下一个目标是数智化。

信息化解决的是企业内部的管理问题,让企业能够以一个有组织、有流程的方式高效地运转起来。

数字化解决的是企业与外部的连接问题,让企业能够直接触达客户,并且建立线上的业务。
数智化解决的是让企业成为智能企业,业务更智慧的问题,这个过程的核心生产要素就是数据。

数智化转型能给企业带来颠覆性变革,但如何发现数据价值,构建数据智能的能力,规模化赋能业务?企业需要一个抓手,利用它对齐业务和技术,不断前进。数据中台就像这抓手,谁能围绕以上的业务优化和转型两个方面的价值来建设数据中台,谁就能在数智化转型中获得领先优势。

数据中台这股浪潮给我们提供机会,但这机会也提出很多、很高能力要求。

FAQ

成为数智化企业,都需要哪些能力呢?我做了众多个国内外领先企业的转型研究,发现了一些规律和有意思的事情。

数据中台概念出来时,有很多说法,从不同层面去分析,会发现所有问题的根源都来自“定位”这两个字。

  • 对程序员,数据中台可能是解决数据规范和数据钻取问题的一个良方
  • 对产品经理,数据中台可能是解决业务与数据融合的关键
  • 对中层管理者,数据中台是打通部门之间数据共享的重要依据
  • 对企业家来说,紧跟行业趋势,顺势而为,是讲一个好故事必不可少的部分

但有一点大势所趋,信息化->数字化->智能化,即数智化。

就像5G来临势必带动一些新独角兽。互联网中变化莫测的打法更像是古代军事战争。谁能敏锐察觉敌情,就能敏捷做出最快的反应。又像《三体》黑暗森林中所描述的那样。黑暗森林中的猎人,谁最先发现猎物,开枪。带来的是一系列的连锁效应。

我们公司是做数据采集(从各信息系统的关系数据库、大数据组件等多样存储介质抽取、转换、共享数据)服务;属于功能性产品,不了解业务,那我们能参与数据中台那部分工作?因为公司内部在讨论的时候,提到的更多观点也是,连数据模型定义都不清楚,怎么介入。

你所在公司主要做的数据集成工作,位于整个数据研发链路中,研发阶段的第一环节。

整个数据研发链路划分:

明白你从事的工作在数据中台数据研发链路中的位置后,来看你们如何参与数据中台中。

数据集成产品,参与到数据中台的链路:

  • 在数据导入时,建立数据源到数据中台表的数据链路关系,这样可将数据中台中表的血缘关系扩展到业务系统的数据源,当数据源发生变更时,我们可以第一时间获取到变更信息
  • 数据传输要与元数据中心打通,从元数据中心获取各种数据源信息
  • 数据集成,要注意既要支持批量数据的集成,也要支持实时数据的集成
  • 数据传输,要能够与数据开发任务,建立任务依赖关系,后续的数据清洗任务依赖于数据集成任务

至于数据模型定义不清楚,数据传输须接入元数据中心,在元数据中心中,对每张表,都有数据字典的定义,数据传输可以基于字段的格式,进行自适配。

相关文章:

建设数据中台到底有啥用?

最近专注在数据和人工智能领域,从数据仓库、商业智能、主数据管理到大数据平台的建设,经过很多项目的沉淀和总结,最后我和团队一起总结了精益数据创新的体系。一直战斗在企业信息化一线。 企业为什么要建设数据中台,数据中台对于…...

[运维|系统] Centos设置本地编码

以下是在CentOS上更改系统编码的一般步骤: 使用locale命令查看当前的系统编码: locale如果需要更改系统编码,可以使用类似下面的命令来生成相应的locale设置(以UTF-8为例): sudo localedef -i en_US -f …...

深入探索Python中的os.listdir函数

深入探索Python中的os.listdir函数 1. 引言 在Python中,文件和目录操作是常见的任务之一。而os.listdir()函数是Python中用于获取指定目录下所有文件和子目录的函数之一。本篇博客将深入探索os.listdir()函数的用法和注意事项。 2. os模块简介 Python的os模块是…...

ROS1ROS2之CmakeList.txt和package.xml用法详解

前言:目前还在学习ROS无人机框架中,,, 更多更新文章详见我的个人博客主页【前往】 文章目录 1. CMakeLists.txt与package.xml的作用2. 生成CMakeLists.txt2.1 ROS12.2 ROS2 3. CMakeLists.txt编写3.1 ROS13.2 ROS2 4. package.xml…...

C#设计模式之---适配器模式

适配器模式(Adapter Pattern) 适配器模式(Adapter Pattern)也称包装样式或者包装(wrapper)。将一个类的接口转接成用户所期待的。适配器模式是一种结构型模式,一个适配使得因接口不兼容而不能在一起工作的类工作在一起…...

串口设备驱动

文章目录 一、串口简介二、Linux下串口驱动框架uart_driver 结构体uart_port 的添加与移除三、Linux下串口驱动工作流程四、Linux下串口应用开发终端工作模式多线程例程一、串口简介 串口全称叫做串行接口,通常也叫做 COM 接口,串行接口指的是数据一个一个的顺序传输,通信线…...

Nginx实现反向代理和负载均衡

Nginx安装 本文章主要介绍下,如何使用Nginx来实现反向代理和负载均衡,Nginx安装和基础知识,可参考我的这篇文章 Nginx安装。 Nginx实现反向代理 实现反向代理需要准备两台Nginx服务器。一台Nginx服务器A,ip为 192.168.206.140&…...

小米手机MIUI优化的影响

1. 小/红米手机的MIUI优化选项 2. MIUI优化选项的影响 2.1 MIUI优化会影响应用信息展示 MIUI优化选项会影响到应用信息的内容展示,具体如下图所示: 如果我们需要在应用信息里展示自启动入口,那我们就需要开启MIUI优化。 2.2 MIUI优化会影…...

【图论】kruskal算法

一.介绍 Kruskal(克鲁斯卡尔)算法是一种用于解决最小生成树问题的贪心算法。最小生成树是指在一个连通无向图中,选择一棵包含所有顶点且边权重之和最小的树。 下面是Kruskal算法的基本步骤: 将图中的所有边按照权重从小到大进行…...

Django框架:使用channels实现websocket,配置和项目实际使用

一、基本配置 依赖包: Django3.2 django-cors-headers3.5.0 redis4.6.0 #操作redis数据库的 channels3.0.0 #websocket channels-redis4.1.0 #通道层需要,依赖redis包项目目录结构: study_websocket --study_websocket --__init__.py --s…...

基于RK3588+FPGA+AI算法定制的智慧交通与智能安防解决方案

随着物联网、大数据、人工智能等技术的快速发展,边缘计算已成为当前信息技术领域的一个热门话题。在物联网领域,边缘计算被广泛应用于智慧交通、智能安防、工业等多个领域。因此,基于边缘计算技术的工业主板设计方案也受到越来越多人的关注。…...

AI面试官:LINQ和Lambda表达式(一)

AI面试官:LINQ和Lambda表达式(一) 当面试官面对C#中关于LINQ和Lambda表达式的面试题时,通常会涉及这两个主题的基本概念、用法、实际应用以及与其他相关技术的对比等。以下是一些可能的面试题目,附带简要解答和相关案…...

FPGA学习——FPGA利用状态机实现电子锁模拟

文章目录 一、本次实验简介二、源码及分析三、总结 一、本次实验简介 本次是实验是为了利用状态机模拟电子锁,相关要求如下: 顺序输入4位密码,密码为1234,用按键来键入密码用led灯指示键入第几位密码,(博…...

Bert经典变体学习

ALBert ALBERT就是为了解决模型参数量大以及训练时间过长的问题。ALBERT最小的参数只有十几M, 效果要比BERT低1-2个点,最大的xxlarge也就200多M。可以看到在模型参数量上减少的还是非常明显的,但是在速度上似乎没有那么明显。最大的问题就是这种方式其实…...

uniapp checkbox radio 样式修改

文章目录 通过查看代码,发现 before部分是设置样式的主要属性 我们要设置的话,就要设置checkbox::before的属性。 其中的content表示内容,比如内部的对勾 那么我们设置的时候,比如设置disabletrue的时候或者checkedtrue的时候&…...

电脑重启后VScode快捷方式失效,找不到Code.exe

问题描述 下班回家关了部分程序就直接关机了,回家后重启电脑发现vscode的快捷方式就失效了,提示Code.exe已被移动或删除。 解决方法 查看你的vscode安装目录,Microsoft VS Code目录下大概率会存在一个名为_的文件夹,然后会发现…...

C语言实现扫雷游戏

test.c源文件 - 扫雷游戏测试 game.h头文件 - 扫雷游戏函数的声明 game.c源文件 - 扫雷游戏函数的实现 1.布置雷 -- 存放雷的雷盘 9*9 数组设计成11*11 上下左右方各多一行,保证周围8的范围 雷 - 1 不是雷 - 0 2.排查雷 主题测试源文件代码 &…...

蓝图节点编辑器

打印字符串 第02章 蓝图结构 03 -注释和重新路由_哔哩哔哩_bilibili 第02章 蓝图结构 04 - 变量_哔哩哔哩_bilibili 第03章 蓝图简易门 01 - 箱子碰撞_哔哩哔哩_bilibili 第03章 蓝图简易门 02 - 静态Mesh和箭头_哔哩哔哩_bilibili 第03章 蓝图简易门 03 - 设置相对旋转节点_哔…...

MySql 知识大汇总

数据库索引 数据库索引是一种数据结构,用于提高数据库查询的速度和效率。索引可以看作是表中一列或多列的值的快速查找方式,类似于书籍的目录。通过创建索引,可以减少数据库的扫描量,加快数据的检索速度。 常见的索引类型 常见…...

深入浅出Pytorch函数——torch.sum

分类目录:《深入浅出Pytorch函数》总目录 相关文章: 深入浅出Pytorch函数——torch.Tensor 函数torch.sum有两种形式: torch.sum(input, *, dtypeNone):返回输入张量input所有元素的和。torch.sum(input, dim, keepdimFalse, *,…...

Git克隆文件不显示绿色勾、红色感叹号等图标

1、问题 Git和TorToiseGit安装后,Git克隆的文件不会显示绿色勾、红色感叹号等图标。 2、检查注册表 2.1、打开注册表 (1)WinR打开运行窗口,输入regedit,点击确定,打开注册表编辑器。 2.2、找如下路径 (1)找到路径 计算机\HKEY_…...

SOC FPGA之HPS模型设计(一)

目录 一、建立HPS硬件系统模型 1.1 GHRD 1.2 从0开始搭建HPS 1.2.1 FPGA Interfaces 1.2.1.1 General 1.2.1.2 AXI Bridge 1.2.1.3 FPGA-to-HPS SDRAM Interface 1.2.1.4 DMA Peripheral Request 1.2.1.5 Interrupts 1.2.1.6 EMAC ptp interface 1.2.2 Peripheral P…...

解决openstack重启swift服务后报错

swift重启报错 问题描述解决办法 问题描述 swift服务正常状态如下 [rootcontroller ~]# swift statAccount: AUTH_8bde12ff804e42498661b7454994c446Containers: 0Objects: 0Bytes: 0X-Put-Timestamp: 1690507907.67931X-Timestamp: 1690507907.67931X-Trans-Id: tx56d22fa13…...

[Linux]进程控制详解!!(创建、终止、等待、替换)

hello,大家好,这里是bang___bang_,在上两篇中我们讲解了进程的概念、状态和进程地址空间,本篇讲解进程的控制!!包含内容有进程创建、进程等待、进程替换、进程终止!! 附上前2篇文章…...

全面适配 | 走近openGauss数据库+鲲鹏欧拉操作系统

引入 全面适配 | openEuler操作系统 openGauss数据库 开篇 1、openEuler欧拉操作系统 百度百科:openEuler是覆盖全场景的创新平台,在引领内核创新,夯实云化基座的基础上,面向计算架构互联总线、存储介质发展新趋势,…...

2023Robocom CAIP省赛 第四题 相对论大师

原题链接: PTA | 程序设计类实验辅助教学平台 题面: 在某个直播间里,观众常常会发送类似这样的弹幕: 鱼越大,鱼刺越大;鱼刺越大,肉越少;肉越少,鱼越小;所以鱼…...

【TypeScript】TS入门级基础学习(一)

【TypeScript】TS入门级基础学习(一) 一、前言 TypeScript 是一种用于应用程序规模的 JavaScript 语言。 TypeScript 向 JavaScript 添加了可选类型,支持用于任何浏览器、任何主机、任何操作系统的大规模 JavaScript 应用程序的工具。 Type…...

jenkins执行jmeter时,报Begin size 1 is not equal to fixed size 5

jenkins执行jmeter脚本的时候一直提示如下错误: Tidying up ... Fri Jul 28 17:03:53 CST 2023 (1690535033178) Error generating the report: org.apache.jmeter.report.dashboard.GenerationException: Error while processing samples: Consumer failed wi…...

在 “小小容器” WasmEdge 里运行小小羊驼 llama 2

昨天,特斯拉前 AI 总监、OpenAI 联合创始人 Andrej Karpathy 开源了 llama2.c 。 只用 500 行纯 C 语言就能训练和推理 llama 2 模型的框架,没有任何繁杂的 python 依赖。这个项目一推出就受到大家的追捧,24 小时内 GitHub 收获 4000 颗星&am…...

【C#】async和await 续

前言 在文章《async和await》中,我们观察到了一下客观的规律,但是没有讲到本质,而且还遗留了一个问题: 这篇文章中,我们继续看看这个问题如何解决! 我们再看看之前写的代码: static public void TestWait2() {var t…...