数据中台 | 数据资源管理平台介绍
01 产品概述
数据资源的盘查、集成、存储、组织、共享等全方位管理能力,无论对于企业的数字化转型,还是对企业数据资产的开发、运营、交易及入表,都具有极为关键的作用。今天,小兵就来为大家介绍我们自研数据智能平台中的核心产品一一数据资源管理系统。
行业痛点:
-
数据资源分散:企业各部门间存在数据壁垒,形成一个个数据孤岛,导致数据资源的分散与割裂。
-
数据多源异构:除了数据孤岛外,技术平台与存储技术的多样性(如关系数据库、NoSQL数据库、文件系统、分布式存储等),造成了数据多源异构的现状。
-
数据标准不一致:缺乏统一的数据定义和标准,同一概念在不同系统中可能有不同的表示方式。
-
数据查找和应用困难:上面的三个问题造成数据难以查找和应用,这是数据进行后续开发、应用,乃至交易、入表必须首要解决的问题。
产品定位:
数据资源管理平台,面向用户大数场景下海量、多源、异构数据,帮助盘查企业数据资源,集成接入各类企业数据资源,建立企业数据资源目录,为企业提供统一的数据管理界面,为其他用户提供数据共享访问接口,对企业数据资源进行统一的管理。
产品价值:
(1)解决企业数据接入与管理问题:为用户提供数据资源集成和管理的工具,解决用户多源异构数据/非标准化接口等复杂情况数据接入和数据管理问题。
(2)降低技术门槛:数据采集功能全部使用可视化界面通过配置即可实现,降低数据集成的技术门槛。
(3)节省企业成本:存储方式多样化,可根据用户数据和业务情况量身设计存储方案,支持对存储的数据进行分层分类管理,降低数据资源存储和运营成本。
02 产品功能介绍
2.1 整体功能架构
-
外部数据源:支持多种类型数据源适配,包括结构化、半结构化和非结构化等数据类型,包MYsql、Oracle、DB2、MogoDB、Hive等20+种数据源。
-
数据盘查:目的是盘查清楚需要集成的数据情况、对接方式及IT环境等信息,为下一阶段数据集成做好准备。提供数据盘查模版,支持数据盘查信息的查询和维护功能。
-
数据集成:同时支持数据表、API、EXCEL导入、ETL、实时数据(Kafka)等多种集成方式。可以根据需求选择全量集成模式和轻量集成模式。数据集成过程支持对数据进行按需提取、截取、清洗等数据处理。
-
数据存储:支持根据数据属性和应用需求,按需选择多种存储架构,支持数据连接和内、外部数据源的配置管理。
-
数据组织:对数据进行分层分类管理,支持数据表创建和维护,支持数据标签功能。
-
数据仓库:经过分层分类梳理后的数据,以数据目录的形式进行展现,支持数据资源的查询、查看。
-
数据服务:支持数据目录服务、API服务、中间库服务、消息分发服务等四种数据分发服务。
2.2 技术架构图
源端适配各种类型数据源,目标端支持多种存储方式,通过数据资源管理平台实现数据盘查、集成、存储、组织、数仓目录展示、分发服务的闭环管理。
2.3 数据流图
(1)不同类型、格式、存储方式的数据源,通过数据集成功能采集到数据资源管理平台;
(2)全量采集的原始数据或轻量采集的元数据通过适合的存储方式进行存储落地;
(3)数据服务以数据表、中间库、API、消息分发等形式对外共享数据。
2.4 数据盘查
数据盘查的目的:
数据盘查功能主要服务于后面的数据集成、数据组织、数据仓库等功能,需要摸清如下信息:
(1)数据情况
-
客户有哪些数据?
-
属于什么业务系统?
-
数据类型有哪些?
-
有多大的数据规模?
-
这些数据存储在哪里?
-
是否有安全方面的要求?
-
有没有相关的数据字典和设计文档?
(2)数据集成对接方式
-
采用哪种方式对接?
-
具体的对接信息
(3)IT环境信息
-
数据目前存储的服务器配置如何?
-
服务器间的网络链路关系?
-
网络带宽情况?
功能介绍:
-
支持数据盘查信息的查询、查看、录入、编辑、删除等管理功能;
-
提供数据盘查模版,可以通过模版将盘查数据直接导入系统。
数据盘查模版
2.5 数据集成
完成数据盘查工作后,便做好了数据集成前的准备工作,可以对盘查的数据进行数据集成,我们支持多种数据集成方式。
数据集成5种方式:
-
数据表集成:数据表集成用于建立与管理相关数据源的连接关系,基于需求加载相应采集数据表单,采集相关数据表到数据中台的数据仓库中。
-
自定义SQL集成:通过自定义查询的方式灵活组装数据集,支持动态参数功能按需接入数据。
-
Excel数据导入:通过上传文件的方式,支持Excel数据集导入数据到数据仓库中。
-
ETL:提供基于大数据ETL工具完成数据的抽取同步其他数据库数据的能力。包括任务维护、任务监控等。
任务维护:提供数据同步任务查询、任务创建、参数配置、任务执行、任务禁用、任务删除等基础功能
任务监控:提供任务过程监控功能,监控同步数据到数据智能平台。
-
API集成:支持对API数据源的配置管理(协议、URL、报文格式),对API管理维护包括:增删改查、测试连通性。可查看该数据源关联的作业明细。
数据集成2种模式:
-
全量数据集成:将全量原始数据集成到数据资源管理平台,并进行本地存储,后续的分析和应用均直接使用本地数据。
-
轻量数据集成:仅将元数据集成到数据资源管理平台,后续的分析、应用场景,都是通过数据引擎直接连接生产库进行分析和取数据;也支持根据需求过滤一部分符合要求的特定数据进行集成,用于满足业务。
2.6 数据存储
大数据场景下,数据的种类、来源越来越多,数据的应用需求也越发复杂,数据的存储方案选型需要根据数据情况量身选定。
功能介绍:
-
数据连接配置:主要负责适配主流的数据库连接器,提供数据连接器的配置管理功能。目前支持的主流连接器有mysql、oracle、postgreSQL、SQLserver、MariaDB、Hana、HBase、ES、Openguess、Hive、kafka、Mongodb等。
-
内部数据源管理:提供平台内部数据源的连接配置功能,用于建立与管理内部数据源的连接关系。
-
外部数据源管理:提供外部数据源的连接配置功能,用于建立与管理外部数据源的连接关系。
目前主流的存储技术包括关系型数据库 (RDBMS)、非关系型数据库 (NoSQL)、分布式文件系统 (DFS)、分布式存储、数据仓库 (Data Warehouse)、数据湖等。需要根据用户的数据情况、业务需求选择合适的存储技术或存储技术组合方案。下面举几个典型的场景进行说明:
(1)用户同时存在热数据与冷数据的场景
可以采用分级存储的解决方案,热数据采用分布式热磁存储或全闪存储,提升数据的读写性能,冷数据可以存储到归档存储(例如低端硬盘、蓝光、磁带库),确保数据长期安全存储的前提下,可以极大的降低存储成本。
(2)用户数据规模较小且以结构化数据为主的场景
以结构化数据为主的小规模数据,可以采用关系型数据库进行数据的存储。
(3)海量规模的数据存储场景
对于海量规模,且有高并发、高响应及高可用性的存储需求的数据,适合使用分布式存储架构,可以较好的支持高可用性和高效读写的应用场景,例如大数据分析、云计算平台、金融交易系统、容灾和备份等。
2.7 数据组织
数据组织是根据数据本身属性以及数据未来的使用场景需求,对数据进行分层分类管理,支持数据表的创建和维护,支持数据打标签功能。经过数据组织后的分层分类数据进入数据仓库,以数据资源目录形式展示并提供查询、查看。
功能介绍:
-
数据分层分类:支持根据不同的业务属性、数据来源、使用场景等来对数据进行分层和分类,支持以树状形式对数据进行一级、二级编目,所有编目动态生成、自动刷新,反映数据库内容的实时变化。
-
数据标签:支持对数据库表、非结构化数据打标签,方便数据检索。
-
数据表维护:支持数据表维护、数据查询、数据预览、数据表详情等数据表管理功能,可预览查看各数据集的数据样本。
2.8 数据仓库
数据经过分层分类后进入数据仓库,并提供数据资源目录进行数据的快速查询定位和查看。
数据资源目录:支撑各部门对数据资源目录的查询、查看。
原始库:数据在原始库中形成数据缓存层,以支持数据加工。同时实现了非结构化数据的关键信息的提取、数据分级分类标签等处理。原始库对外提供了查询、比对、推送、订阅等服务。同时为后续的数据血缘追踪提供溯源支持。
资源库:是对原始库数据进行清洗标准化及轻度整合,形成全量数据的持久化层。资源库对外支持数据的分类检索、轨迹碰撞,及明细数据的统计、分析、比对、推送、订阅等服务。
主题库:通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类知识图谱和事理图谱。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对等服务。
知识库:对外支撑知识类数据的查询以及模型工程、标签工程等服务。
业务库:业务库中的业务专题库实现了业务专题类分析,业务知识库汇聚了单一业务系统的知识,业务实体库中构建了业务的相关模型,业务资源库是对业务的相关数据支撑。在此基础上,实现了对外的数据统计、分析、推送及碰撞等服务。
2.9 数据服务
平台支持通过数据目录服务、API服务、中间库服务、消息分发等四种方式,对存储的数据进行分发和共享。
-
数据目录服务:提供已发布数据的目录,可以直接下载需要的结构化数据和非结构化数据。
-
API服务:将数据发布成API接口,数据使用方通过API接口调用数据。
-
中间库服务:定义一个中间库,平台将数据推送至中间库,数据使用方去中间库取数。
-
消息分发服务:以Kafka为例,平台将数据推到Kafka消息队列,数据使用方从Kafka消息队列取数。
03 产品价值
-
多源异构数据集成
支持以全可视化方式接入多源异构数据,包括结构化、半结构化和非结构化等数据类型,包括MYsql、Oracle、DB2、MogoDB、Hive等20+种数据源,同时支持数据表集成、自定义SQL集成、Excel数据集成、ETL集成、API集成等多种数据集成方式。
-
数据存储方式多样化
可根据数据属性和数据应用的不同业务场景,选择存储方式,满足需求的同时降低成本。
-
轻量级部署,快速交付
根据项目规模灵活选择项目方案,单机版或集群版;支持容器化高效部署,零基础半小时轻松完成全套产品部署,快速上线。
-
支持二次开发,灵活扩展
数据资源管理平台架构支持二次开发,可按照业务需求进行灵活扩展。
04 小结
在数字化时代,数据成为了新的生产要素,是新质生产力和数据资产的原材料,是企业实现数字化转型的前提。做好数据资源管理,可以为后续数据的分析、挖掘和开发打好基础,进而优化企业流程,支撑业务决策,推动业务创新,最终实现数据资产上市交易和入表,为企业带来真金白银的收益。
而想要做好数据资源管理,数据的盘查、集成、存储、组织、共享等基础能力缺一不可,数据资源管理平台正是因此而生,为企业提供专业的数据资源管理能力,助力企业实现“数据梦想”。
相关文章:

数据中台 | 数据资源管理平台介绍
01 产品概述 数据资源的盘查、集成、存储、组织、共享等全方位管理能力,无论对于企业的数字化转型,还是对企业数据资产的开发、运营、交易及入表,都具有极为关键的作用。今天,小兵就来为大家介绍我们自研数据智能平台中的核心产品…...

智慧环保平台建设方案
智慧环保平台建设方案摘要 政策导向与建设背景 背景:全国生态环境保护大会提出坚决打好污染防治攻坚战,推动生态文明建设,目标是在2035年实现生态环境质量根本好转。构建生态文明体系,包括生态文化、生态经济、目标责任、生态文明…...

SpringMVC映射请求;SpringMVC返回值类型;SpringMVC参数绑定;
一,SpringMVC映射请求 SpringMVC 使用 RequestMapping 注解为控制器指定可以处理哪些URL请求 1.1RequestMapping修饰类 注解RequestMapping修饰类,提供初步的请求映射信息,相对于WEB应用的跟目录。 注: 如果在类名前࿰…...

【第28章】Spring Cloud之Sentinel注解支持
文章目录 前言一、注解埋点支持二、SentinelResource 注解三、实战1. 准备2. 纯资源定义3. 添加资源配置 四、熔断(fallback)1. 业务代码1.1 Controller1.2 Service1.3 ServiceImpl 2. 熔断配置3. 熔断测试 总结 前言 上一章我们已经完成了对Sentinel的适配工作,这…...

鼎捷新一代PLM 荣膺维科杯 “2023年度行业优秀产品奖”
近日,由中国高科技行业门户OFweek维科网主办的“全数会2024(第五届)中国智能制造数字化转型大会暨维科杯工业自动化及数字化行业年度评选颁奖典礼”在深圳隆重举办。这不仅是中国工业自动化及数字化行业的一大品牌盛会,亦是高科技…...

如何升级用 Helm 安装的极狐GitLab Runner?
本分分享如何对 Helm 安装的 Runner 进行升级。整个过程分为三步:1、确定 Runner 最新版本或者想要升级的版本是否存在;2、用 Helm upgrade 命令进行升级;3、升级确认。 极狐GitLab 为 GitLab 的中国发行版,中文版本对中国用户更…...
08 vue3之认识bem架构及less sass 和scoped
bem架构 他是一种css架构 oocss 实现的一种 (面向对象css) ,BEM实际上是block、element、modifier的缩写,分别为块层、元素层、修饰符层,element UI 也使用的是这种架构 1. BEM架构 1. 介绍 1. BEM是Block Element M…...

静态库的制作
静态库是一组对象文件的集合,它们在编译时被链接到可执行文件中。这意味着,静态库中的代码会被复制到每个使用它的程序中,因此静态库不需要在程序运行时被单独加载。制作静态库可以帮助你将常用的代码模块化、重用,简化开发过程。…...

PHP在现代Web开发中的高效应用与最佳实践
PHP在现代Web开发中的高效应用与最佳实践 在快速迭代的Web开发领域,PHP作为一门历史悠久且广泛应用的服务器端脚本语言,始终保持着其独特的魅力和强大的生命力。从简单的动态网页到复杂的企业级应用,PHP凭借其易学性、丰富的库支持和广泛的社…...

大数据-134 - ClickHouse 集群三节点 安装配置启动
点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…...

2024网络安全人才实战能力白皮书安全测试评估篇
9月10日,国内首个聚焦“安全测试评估”的白皮书——《网络安全人才实战能力白皮书-安全测试评估篇》(以下简称“白皮书”)在国家网络安全宣传周正式发布。 作为《网络安全人才实战能力白皮书》的第三篇章,本次白皮书聚焦“安全测…...

[项目][WebServer][解析错误处理]详细讲解
可为每种情况都确实对应一个状态码,当发生错误时,跳转到对应的html页面即可但是为了代码的复用性,可以将所有的错误情况都归置处理 #define SEP ": " #define LINE_END "\r\n" #define WEB_ROOT "wwwroot" #…...

51单片机应用开发---数码管的控制应用
实现目标 1、掌握数码管结构、驱动原理; 2、 一、什么是数码管? 1.数码管定义 数码管,也称为LED数码管,基本单元是发光二极管(LED)。分为七段数码管和八段数码管(多一个小数点DP)。数码管在我们生活中无处不在,比如…...

Vue3+Django5+REST Framework开发电脑管理系统
前端:Vue3TypeScript 后端:Django5REST Framework 功能介绍 用户管理角色管理菜单管理配件管理仓库管理类型管理电脑管理入库管理出库管理库存管理收发明细管理 界面预览 源码地址:managesystem: 电脑管理系统...

Java8函数式接口全攻略
一、接口大白话 1.四大基础接口 Consumer<T> 核心方法:void accept(T t);消费者。接受一个输入参数,不返回任何结果的操作。望文生义:你给我啥,我就执行啥,没有结果。 Supplier<T> 核心方法: T get();供…...

英文软件汉化中文软件教程asi exe dll 等汉化教程
相信大家在使用国际软件的时候,会经常碰到英文类型的软件 或者玩一些游戏使用一些工具,也基本都是外网的,那么对于用户来讲 就会非常的不方便! 小编为大家整理了一些国内大佬出的的英文软件汉化中文软件的视频教程 教程分为EX…...

HTTP 请求方式`application/x-www-form-urlencoded` 与 `application/json` 怎么用?有什么区别?
HTTP 请求方式总结:application/x-www-form-urlencoded 与 application/json 在前后端交互中,客户端发送数据到服务器的常见方式有两种:application/x-www-form-urlencoded 和 application/json。本文将详细介绍这两种请求方式的特点、使用方…...

prometheus 集成 grafana 保姆级别安装部署
前言 本文 grafana 展示效果只需要 prometheus node_exporter grafana 其他的选择安装 环境和版本号 系统: CentOS 7.9 prometheus: 2.54.1 pushgateway: 1.9.0 node_exporter: 1.8.2 alertmanager: 0.27.0 grafana:11.2.0 官网:https://prometheus.io/ 下载地址:h…...

Apache SeaTunnel Committer 进阶指南
Apache SeaTunnel 作为一个开源的数据集成工具,旨在简化和加速海量数据的采集和传输。 社区的 Committer 是指拥有项目存储库的写权限的社区成员,即 Committer 可以自行修改代码、文档和网站,也可以合并其他成员的贡献。成为 Apache SeaTunn…...

组件上的v-model(数据传递),props验证,自定义事件,计算属性
一.props验证 在封装组件时对外界传递过来的props数据进行合法性校验,从而防止数据不合法问题。 1.基础类型检查 String,Number,Boolean,Array,Object,Date,Function,Symbol 2.多个可能的类型 3.必须项校验 4.属性默认值 5.自定义验证函数 <template>&…...

mfc140u.dll文件错误的相关修复方法,4种方法修复mfc140u.dll
当面对基于Microsoft Visual C开发的应用程序出现启动或运行失败时,mfc140u.dll文件错误往往是罪魁祸首之一。这个动态链接库(DLL)文件对于许多Windows软件来说是必不可少的,因为它包含了重要的编程代码和数据。如果发现此文件损坏…...

Redis中使用布隆过滤器解决缓存穿透问题
一、缓存穿透(失效)问题 缓存穿透是指查询一个一定不存在的数据,由于缓存中没有命中,会去数据库中查询,而数据库中也没有该数据,并且每次查询都不会命中缓存,从而每次请求都直接打到了数据库上,这会给数据…...

css百分比布局中height:100%不起作用
百分比布局时,我们有时候会遇到给高度 height 设置百分比后无效的情况,而宽度设置百分比却是正常的。 当为一个元素的高度设定为百分比高度时,是相对于父元素的高度来计算的。当没有给父元素设置高度(height)时或设置…...

java程序员入行科目一之CRUD轻松入门教程(二)
封装工具类 封装获取连接&释放资源操作 在实际使用JDBC的时候,很多操作都是固定的,没有必要每次都去注册驱动,获取链接对象等等。 同样,释放资源的close操作也可以封装一下 下面是封装好的具体工具类 package com.jimihua.u…...

(不用互三)解密AI创作:提升Prompt提示词的提问技巧
文章目录 🍊AI创作的核心:提示词 Prompt 的重要性1. 什么是提示词工程?1.1 提示词的工作原理1.2 高薪提示词工程师的现实1.3 谁能胜任提示词工程师? 2. 提示词编写技巧3. 常见的提示词框架3.1 CO-STAR 框架3.2 BORKE 框架 4. 提示…...

Python 错误 ValueError 解析,实际错误实例详解 (二)
文章目录 前言Python 中错误 ValueError: Not Enough Values to UnpackPython 中的 ValueError 是什么修复Python字典中 ValueError:ValueError: not enough values to unpack修复Python中 ValueError:not enough values to unpackPython 中错误 ValueError: Setting an Arra…...

会员计次卡渲染技术-—SAAS本地化及未来之窗行业应用跨平台架构
一、计次卡应用 1. 健身中心:会员购买一定次数的健身课程或使用健身房设施的权限。 2. 美容美发店:提供一定次数的理发、美容护理等服务。 3. 洗车店:车主购买若干次的洗车服务。 4. 儿童游乐场:家长为孩子购买固定次数的入场游…...

Redis网络模型、通信协议、内存回收
Redis网络模型 一、用户空间和内核空间(前提)问题来了:为啥要区分用户空间和内核空间呢?我们来看看两个空间以及硬件是如何操作的 二、Linux中五种IO模型1、 阻塞IO2、非阻塞IO3、IO多路复用3.1、SELECT3.2、poll3.3、epoll 4、信…...

闯关leetcode——21. Merge Two Sorted Lists
大纲 题目地址内容 解题代码地址 题目 地址 https://leetcode.com/problems/merge-two-sorted-lists/description/ 内容 You are given the heads of two sorted linked lists list1 and list2. Merge the two lists into one sorted list. The list should be made by sp…...

Notepad++中提升编码效率的关键快捷键
基本操作 Ctrl N:新建文件。Ctrl O:打开文件。Ctrl S:保存文件。Ctrl Shift S:另存为。Ctrl W:关闭当前文件。 文件和标签管理 Ctrl Tab:切换到下一个标签。Ctrl Shift Tab:切换到上…...