当前位置: 首页 > news >正文

数据中台 | 数据资源管理平台介绍

01 产品概述

数据资源的盘查、集成、存储、组织、共享等全方位管理能力,无论对于企业的数字化转型,还是对企业数据资产的开发、运营、交易及入表,都具有极为关键的作用。今天,小兵就来为大家介绍我们自研数据智能平台中的核心产品一一数据资源管理系统。

图片

行业痛点:

  • 数据资源分散:企业各部门间存在数据壁垒,形成一个个数据孤岛,导致数据资源的分散与割裂。

  • 数据多源异构:除了数据孤岛外,技术平台与存储技术的多样性(如关系数据库、NoSQL数据库、文件系统、分布式存储等),造成了数据多源异构的现状。

  • 数据标准不一致:缺乏统一的数据定义和标准,同一概念在不同系统中可能有不同的表示方式。

  • 数据查找和应用困难:上面的三个问题造成数据难以查找和应用,这是数据进行后续开发、应用,乃至交易、入表必须首要解决的问题。

产品定位:

数据资源管理平台,面向用户大数场景下海量、多源、异构数据,帮助盘查企业数据资源,集成接入各类企业数据资源,建立企业数据资源目录,为企业提供统一的数据管理界面,为其他用户提供数据共享访问接口,对企业数据资源进行统一的管理。

产品价值:

(1)解决企业数据接入与管理问题:为用户提供数据资源集成和管理的工具,解决用户多源异构数据/非标准化接口等复杂情况数据接入和数据管理问题。

(2)降低技术门槛:数据采集功能全部使用可视化界面通过配置即可实现,降低数据集成的技术门槛。

(3)节省企业成本:存储方式多样化,可根据用户数据和业务情况量身设计存储方案,支持对存储的数据进行分层分类管理,降低数据资源存储和运营成本。

02 产品功能介绍

2.1 整体功能架构

图片

  • 外部数据源:支持多种类型数据源适配,包括结构化、半结构化和非结构化等数据类型,包MYsql、Oracle、DB2、MogoDB、Hive等20+种数据源。

  • 数据盘查:目的是盘查清楚需要集成的数据情况、对接方式及IT环境等信息,为下一阶段数据集成做好准备。提供数据盘查模版,支持数据盘查信息的查询和维护功能。

  • 数据集成:同时支持数据表、API、EXCEL导入、ETL、实时数据(Kafka)等多种集成方式。可以根据需求选择全量集成模式和轻量集成模式。数据集成过程支持对数据进行按需提取、截取、清洗等数据处理。

  • 数据存储:支持根据数据属性和应用需求,按需选择多种存储架构,支持数据连接和内、外部数据源的配置管理。

  • 数据组织:对数据进行分层分类管理,支持数据表创建和维护,支持数据标签功能。

  • 数据仓库:经过分层分类梳理后的数据,以数据目录的形式进行展现,支持数据资源的查询、查看。

  • 数据服务:支持数据目录服务、API服务、中间库服务、消息分发服务等四种数据分发服务。

2.2 技术架构图

图片

源端适配各种类型数据源,目标端支持多种存储方式,通过数据资源管理平台实现数据盘查、集成、存储、组织、数仓目录展示、分发服务的闭环管理。

2.3 数据流图

图片

(1)不同类型、格式、存储方式的数据源,通过数据集成功能采集到数据资源管理平台;

(2)全量采集的原始数据或轻量采集的元数据通过适合的存储方式进行存储落地;

(3)数据服务以数据表、中间库、API、消息分发等形式对外共享数据。

2.4 数据盘查

数据盘查的目的:

数据盘查功能主要服务于后面的数据集成、数据组织、数据仓库等功能,需要摸清如下信息:

(1)数据情况

  • 客户有哪些数据?

  • 属于什么业务系统?

  • 数据类型有哪些?

  • 有多大的数据规模?

  • 这些数据存储在哪里?

  • 是否有安全方面的要求?

  • 有没有相关的数据字典和设计文档?

2)数据集成对接方式

  • 采用哪种方式对接?

  • 具体的对接信息

3)IT环境信息

  • 数据目前存储的服务器配置如何?

  • 服务器间的网络链路关系?

  • 网络带宽情况?

    功能介绍:

  • 支持数据盘查信息的查询、查看、录入、编辑、删除等管理功能;

  • 提供数据盘查模版,可以通过模版将盘查数据直接导入系统。

图片

数据盘查模版

2.5 数据集成

完成数据盘查工作后,便做好了数据集成前的准备工作,可以对盘查的数据进行数据集成,我们支持多种数据集成方式。

数据集成5种方式:

  • 数据表集成:数据表集成用于建立与管理相关数据源的连接关系,基于需求加载相应采集数据表单,采集相关数据表到数据中台的数据仓库中。

  • 自定义SQL集成:通过自定义查询的方式灵活组装数据集,支持动态参数功能按需接入数据。

  • Excel数据导入:通过上传文件的方式,支持Excel数据集导入数据到数据仓库中。

  • ETL:提供基于大数据ETL工具完成数据的抽取同步其他数据库数据的能力。包括任务维护、任务监控等。

        任务维护:提供数据同步任务查询、任务创建、参数配置、任务执行、任务禁用、任务删除等基础功能

        任务监控:提供任务过程监控功能,监控同步数据到数据智能平台。

  • API集成:支持对API数据源的配置管理(协议、URL、报文格式),对API管理维护包括:增删改查、测试连通性。可查看该数据源关联的作业明细。

数据集成2种模式:

  • 全量数据集成:将全量原始数据集成到数据资源管理平台,并进行本地存储,后续的分析和应用均直接使用本地数据。

  • 轻量数据集成:仅将元数据集成到数据资源管理平台,后续的分析、应用场景,都是通过数据引擎直接连接生产库进行分析和取数据;也支持根据需求过滤一部分符合要求的特定数据进行集成,用于满足业务。

图片

2.6 数据存储

大数据场景下,数据的种类、来源越来越多,数据的应用需求也越发复杂,数据的存储方案选型需要根据数据情况量身选定。

功能介绍:

  • 数据连接配置:主要负责适配主流的数据库连接器,提供数据连接器的配置管理功能。目前支持的主流连接器有mysql、oracle、postgreSQL、SQLserver、MariaDB、Hana、HBase、ES、Openguess、Hive、kafka、Mongodb等。

  • 内部数据源管理:提供平台内部数据源的连接配置功能,用于建立与管理内部数据源的连接关系。

  • 外部数据源管理:提供外部数据源的连接配置功能,用于建立与管理外部数据源的连接关系。

目前主流的存储技术包括关系型数据库 (RDBMS)、非关系型数据库 (NoSQL)、分布式文件系统 (DFS)、分布式存储、数据仓库 (Data Warehouse)、数据湖等。需要根据用户的数据情况、业务需求选择合适的存储技术或存储技术组合方案。下面举几个典型的场景进行说明:

(1)用户同时存在热数据与冷数据的场景

可以采用分级存储的解决方案,热数据采用分布式热磁存储或全闪存储,提升数据的读写性能,冷数据可以存储到归档存储(例如低端硬盘、蓝光、磁带库),确保数据长期安全存储的前提下,可以极大的降低存储成本。

(2)用户数据规模较小且以结构化数据为主的场景

以结构化数据为主的小规模数据,可以采用关系型数据库进行数据的存储。

(3)海量规模的数据存储场景

对于海量规模,且有高并发、高响应及高可用性的存储需求的数据,适合使用分布式存储架构,可以较好的支持高可用性和高效读写的应用场景,例如大数据分析、云计算平台、金融交易系统、容灾和备份等。

图片

2.7 数据组织

数据组织是根据数据本身属性以及数据未来的使用场景需求,对数据进行分层分类管理,支持数据表的创建和维护,支持数据打标签功能。经过数据组织后的分层分类数据进入数据仓库,以数据资源目录形式展示并提供查询、查看。

功能介绍:

  • 数据分层分类:支持根据不同的业务属性、数据来源、使用场景等来对数据进行分层和分类,支持以树状形式对数据进行一级、二级编目,所有编目动态生成、自动刷新,反映数据库内容的实时变化。

  • 数据标签:支持对数据库表、非结构化数据打标签,方便数据检索。

  • 数据表维护:支持数据表维护、数据查询、数据预览、数据表详情等数据表管理功能,可预览查看各数据集的数据样本。

2.8 数据仓库

数据经过分层分类后进入数据仓库,并提供数据资源目录进行数据的快速查询定位和查看。

数据资源目录:支撑各部门对数据资源目录的查询、查看。

原始库:数据在原始库中形成数据缓存层,以支持数据加工。同时实现了非结构化数据的关键信息的提取、数据分级分类标签等处理。原始库对外提供了查询、比对、推送、订阅等服务。同时为后续的数据血缘追踪提供溯源支持。

资源库:是对原始库数据进行清洗标准化及轻度整合,形成全量数据的持久化层。资源库对外支持数据的分类检索、轨迹碰撞,及明细数据的统计、分析、比对、推送、订阅等服务。

主题库:通过归并及建模,形成全息视图,并且通过实体间的关系构成了关系类知识图谱和事理图谱。对外在各中心共享了实体间的关系,并完成实体标签、数据分析、统计、比对等服务。

知识库:对外支撑知识类数据的查询以及模型工程、标签工程等服务。

业务库:业务库中的业务专题库实现了业务专题类分析,业务知识库汇聚了单一业务系统的知识,业务实体库中构建了业务的相关模型,业务资源库是对业务的相关数据支撑。在此基础上,实现了对外的数据统计、分析、推送及碰撞等服务。

图片

2.9 数据服务

平台支持通过数据目录服务、API服务、中间库服务、消息分发等四种方式,对存储的数据进行分发和共享。

  • 数据目录服务:提供已发布数据的目录,可以直接下载需要的结构化数据和非结构化数据。

  • API服务:将数据发布成API接口,数据使用方通过API接口调用数据。

  • 中间库服务:定义一个中间库,平台将数据推送至中间库,数据使用方去中间库取数。

  • 消息分发服务:以Kafka为例,平台将数据推到Kafka消息队列,数据使用方从Kafka消息队列取数。

03 产品价值

图片

  • 多源异构数据集成

支持以全可视化方式接入多源异构数据,包括结构化、半结构化和非结构化等数据类型,包括MYsql、Oracle、DB2、MogoDB、Hive等20+种数据源,同时支持数据表集成、自定义SQL集成、Excel数据集成、ETL集成、API集成等多种数据集成方式。

  • 数据存储方式多样化

可根据数据属性和数据应用的不同业务场景,选择存储方式,满足需求的同时降低成本。

  • 轻量级部署,快速交付

根据项目规模灵活选择项目方案,单机版或集群版;支持容器化高效部署,零基础半小时轻松完成全套产品部署,快速上线。

  • 支持二次开发,灵活扩展

数据资源管理平台架构支持二次开发,可按照业务需求进行灵活扩展。

04 小结

在数字化时代,数据成为了新的生产要素,是新质生产力和数据资产的原材料,是企业实现数字化转型的前提。做好数据资源管理,可以为后续数据的分析、挖掘和开发打好基础,进而优化企业流程,支撑业务决策,推动业务创新,最终实现数据资产上市交易和入表,为企业带来真金白银的收益。

而想要做好数据资源管理,数据的盘查、集成、存储、组织、共享等基础能力缺一不可,数据资源管理平台正是因此而生,为企业提供专业的数据资源管理能力,助力企业实现“数据梦想”。

相关文章:

数据中台 | 数据资源管理平台介绍

01 产品概述 数据资源的盘查、集成、存储、组织、共享等全方位管理能力,无论对于企业的数字化转型,还是对企业数据资产的开发、运营、交易及入表,都具有极为关键的作用。今天,小兵就来为大家介绍我们自研数据智能平台中的核心产品…...

智慧环保平台建设方案

智慧环保平台建设方案摘要 政策导向与建设背景 背景:全国生态环境保护大会提出坚决打好污染防治攻坚战,推动生态文明建设,目标是在2035年实现生态环境质量根本好转。构建生态文明体系,包括生态文化、生态经济、目标责任、生态文明…...

SpringMVC映射请求;SpringMVC返回值类型;SpringMVC参数绑定;

一,SpringMVC映射请求 SpringMVC 使用 RequestMapping 注解为控制器指定可以处理哪些URL请求 1.1RequestMapping修饰类 注解RequestMapping修饰类,提供初步的请求映射信息,相对于WEB应用的跟目录。 注: 如果在类名前&#xff0…...

【第28章】Spring Cloud之Sentinel注解支持

文章目录 前言一、注解埋点支持二、SentinelResource 注解三、实战1. 准备2. 纯资源定义3. 添加资源配置 四、熔断(fallback)1. 业务代码1.1 Controller1.2 Service1.3 ServiceImpl 2. 熔断配置3. 熔断测试 总结 前言 上一章我们已经完成了对Sentinel的适配工作,这…...

鼎捷新一代PLM 荣膺维科杯 “2023年度行业优秀产品奖”

近日,由中国高科技行业门户OFweek维科网主办的“全数会2024(第五届)中国智能制造数字化转型大会暨维科杯工业自动化及数字化行业年度评选颁奖典礼”在深圳隆重举办。这不仅是中国工业自动化及数字化行业的一大品牌盛会,亦是高科技…...

如何升级用 Helm 安装的极狐GitLab Runner?

本分分享如何对 Helm 安装的 Runner 进行升级。整个过程分为三步:1、确定 Runner 最新版本或者想要升级的版本是否存在;2、用 Helm upgrade 命令进行升级;3、升级确认。 极狐GitLab 为 GitLab 的中国发行版,中文版本对中国用户更…...

08 vue3之认识bem架构及less sass 和scoped

bem架构 他是一种css架构 oocss 实现的一种 (面向对象css) ,BEM实际上是block、element、modifier的缩写,分别为块层、元素层、修饰符层,element UI 也使用的是这种架构 1. BEM架构 1. 介绍 1. BEM是Block Element M…...

静态库的制作

静态库是一组对象文件的集合,它们在编译时被链接到可执行文件中。这意味着,静态库中的代码会被复制到每个使用它的程序中,因此静态库不需要在程序运行时被单独加载。制作静态库可以帮助你将常用的代码模块化、重用,简化开发过程。…...

PHP在现代Web开发中的高效应用与最佳实践

PHP在现代Web开发中的高效应用与最佳实践 在快速迭代的Web开发领域,PHP作为一门历史悠久且广泛应用的服务器端脚本语言,始终保持着其独特的魅力和强大的生命力。从简单的动态网页到复杂的企业级应用,PHP凭借其易学性、丰富的库支持和广泛的社…...

大数据-134 - ClickHouse 集群三节点 安装配置启动

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…...

2024网络安全人才实战能力白皮书安全测试评估篇

9月10日,国内首个聚焦“安全测试评估”的白皮书——《网络安全人才实战能力白皮书-安全测试评估篇》(以下简称“白皮书”)在国家网络安全宣传周正式发布。 作为《网络安全人才实战能力白皮书》的第三篇章,本次白皮书聚焦“安全测…...

[项目][WebServer][解析错误处理]详细讲解

可为每种情况都确实对应一个状态码,当发生错误时,跳转到对应的html页面即可但是为了代码的复用性,可以将所有的错误情况都归置处理 #define SEP ": " #define LINE_END "\r\n" #define WEB_ROOT "wwwroot" #…...

51单片机应用开发---数码管的控制应用

实现目标 1、掌握数码管结构、驱动原理; 2、 一、什么是数码管? 1.数码管定义 数码管,也称为LED数码管,基本单元是发光二极管(LED)。分为七段数码管和八段数码管(多一个小数点DP)。数码管在我们生活中无处不在,比如…...

Vue3+Django5+REST Framework开发电脑管理系统

前端:Vue3TypeScript 后端:Django5REST Framework 功能介绍 用户管理角色管理菜单管理配件管理仓库管理类型管理电脑管理入库管理出库管理库存管理收发明细管理 界面预览 源码地址:managesystem: 电脑管理系统...

Java8函数式接口全攻略

一、接口大白话 1.四大基础接口 Consumer<T> 核心方法&#xff1a;void accept(T t);消费者。接受一个输入参数&#xff0c;不返回任何结果的操作。望文生义&#xff1a;你给我啥&#xff0c;我就执行啥&#xff0c;没有结果。 Supplier<T> 核心方法: T get();供…...

英文软件汉化中文软件教程asi exe dll 等汉化教程

相信大家在使用国际软件的时候&#xff0c;会经常碰到英文类型的软件 或者玩一些游戏使用一些工具&#xff0c;也基本都是外网的&#xff0c;那么对于用户来讲 就会非常的不方便&#xff01; 小编为大家整理了一些国内大佬出的的英文软件汉化中文软件的视频教程 教程分为EX…...

HTTP 请求方式`application/x-www-form-urlencoded` 与 `application/json` 怎么用?有什么区别?

HTTP 请求方式总结&#xff1a;application/x-www-form-urlencoded 与 application/json 在前后端交互中&#xff0c;客户端发送数据到服务器的常见方式有两种&#xff1a;application/x-www-form-urlencoded 和 application/json。本文将详细介绍这两种请求方式的特点、使用方…...

prometheus 集成 grafana 保姆级别安装部署

前言 本文 grafana 展示效果只需要 prometheus node_exporter grafana 其他的选择安装 环境和版本号 系统: CentOS 7.9 prometheus: 2.54.1 pushgateway: 1.9.0 node_exporter: 1.8.2 alertmanager: 0.27.0 grafana:11.2.0 官网:https://prometheus.io/ 下载地址:h…...

Apache SeaTunnel Committer 进阶指南

Apache SeaTunnel 作为一个开源的数据集成工具&#xff0c;旨在简化和加速海量数据的采集和传输。 社区的 Committer 是指拥有项目存储库的写权限的社区成员&#xff0c;即 Committer 可以自行修改代码、文档和网站&#xff0c;也可以合并其他成员的贡献。成为 Apache SeaTunn…...

组件上的v-model(数据传递),props验证,自定义事件,计算属性

一.props验证 在封装组件时对外界传递过来的props数据进行合法性校验&#xff0c;从而防止数据不合法问题。 1.基础类型检查 String,Number,Boolean,Array,Object,Date,Function,Symbol 2.多个可能的类型 3.必须项校验 4.属性默认值 5.自定义验证函数 <template>&…...

在软件开发中正确使用MySQL日期时间类型的深度解析

在日常软件开发场景中&#xff0c;时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志&#xff0c;到供应链系统的物流节点时间戳&#xff0c;时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库&#xff0c;其日期时间类型的…...

以下是对华为 HarmonyOS NETX 5属性动画(ArkTS)文档的结构化整理,通过层级标题、表格和代码块提升可读性:

一、属性动画概述NETX 作用&#xff1a;实现组件通用属性的渐变过渡效果&#xff0c;提升用户体验。支持属性&#xff1a;width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项&#xff1a; 布局类属性&#xff08;如宽高&#xff09;变化时&#…...

最新SpringBoot+SpringCloud+Nacos微服务框架分享

文章目录 前言一、服务规划二、架构核心1.cloud的pom2.gateway的异常handler3.gateway的filter4、admin的pom5、admin的登录核心 三、code-helper分享总结 前言 最近有个活蛮赶的&#xff0c;根据Excel列的需求预估的工时直接打骨折&#xff0c;不要问我为什么&#xff0c;主要…...

linux 错误码总结

1,错误码的概念与作用 在Linux系统中,错误码是系统调用或库函数在执行失败时返回的特定数值,用于指示具体的错误类型。这些错误码通过全局变量errno来存储和传递,errno由操作系统维护,保存最近一次发生的错误信息。值得注意的是,errno的值在每次系统调用或函数调用失败时…...

第25节 Node.js 断言测试

Node.js的assert模块主要用于编写程序的单元测试时使用&#xff0c;通过断言可以提早发现和排查出错误。 稳定性: 5 - 锁定 这个模块可用于应用的单元测试&#xff0c;通过 require(assert) 可以使用这个模块。 assert.fail(actual, expected, message, operator) 使用参数…...

分布式增量爬虫实现方案

之前我们在讨论的是分布式爬虫如何实现增量爬取。增量爬虫的目标是只爬取新产生或发生变化的页面&#xff0c;避免重复抓取&#xff0c;以节省资源和时间。 在分布式环境下&#xff0c;增量爬虫的实现需要考虑多个爬虫节点之间的协调和去重。 另一种思路&#xff1a;将增量判…...

深度学习习题2

1.如果增加神经网络的宽度&#xff0c;精确度会增加到一个特定阈值后&#xff0c;便开始降低。造成这一现象的可能原因是什么&#xff1f; A、即使增加卷积核的数量&#xff0c;只有少部分的核会被用作预测 B、当卷积核数量增加时&#xff0c;神经网络的预测能力会降低 C、当卷…...

C#中的CLR属性、依赖属性与附加属性

CLR属性的主要特征 封装性&#xff1a; 隐藏字段的实现细节 提供对字段的受控访问 访问控制&#xff1a; 可单独设置get/set访问器的可见性 可创建只读或只写属性 计算属性&#xff1a; 可以在getter中执行计算逻辑 不需要直接对应一个字段 验证逻辑&#xff1a; 可以…...

Web中间件--tomcat学习

Web中间件–tomcat Java虚拟机详解 什么是JAVA虚拟机 Java虚拟机是一个抽象的计算机&#xff0c;它可以执行Java字节码。Java虚拟机是Java平台的一部分&#xff0c;Java平台由Java语言、Java API和Java虚拟机组成。Java虚拟机的主要作用是将Java字节码转换为机器代码&#x…...

Python Einops库:深度学习中的张量操作革命

Einops&#xff08;爱因斯坦操作库&#xff09;就像给张量操作戴上了一副"语义眼镜"——让你用人类能理解的方式告诉计算机如何操作多维数组。这个基于爱因斯坦求和约定的库&#xff0c;用类似自然语言的表达式替代了晦涩的API调用&#xff0c;彻底改变了深度学习工程…...