当前位置: 首页 > news >正文

数据库、数据中台、数据仓库、数据湖区别

        数据时代,各行业的企业都已经开始通过数据库来沉淀数据,但是真的论起数据库、数据仓库、数据中台,还是新出现的数据湖,它们的概念和区别,可能知道的人就比较少了,今天我们详细来比较了解一下。

一、数据仓库是什么

        事实上,很多人在看到数据仓库的第一眼,就把数据仓库当成了数据库。当然这也很正常,毕竟从名字来看这两者确实区别不大,真正区分两者的是定位、作用等更深一层的东西。不过在这里还是先解释数据仓库的概念,不同之处后边会进行详细讲解。

        数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。其本质就是完成从面向业务过程数据的组织管理到面向业务分析数据的组织和管理的转变过程,也是商业智能BI中数据仓库的主要作用

        数据仓库就像企业的总的大仓库,能够存储不同来源、不同格式的数据,并且可以通过ETL和数据模型,对数据进行高质量的筛选,分级分类进行存储。具有很强的稳定性,不会频繁的进行增删改等操作,能够反应历史变化。

        用通俗的话来说就是数据仓库就像一个终端的大仓库,其他小仓库的各种货品会通过各种方式统一存储到这里,然后通过仓库位置的划分、货品的摆放进行归纳分类,实现规范、标准的从存放,到分类,再到使用的完整过程

二、数据仓库和数据库有什么不同

        其实数据仓库和数据库跟现实中的仓储系统是有很多相似之处的,企业各部门的数据库就相当于一个个小的产业库,对应了企业的各个部门。而数据仓库相当于是一个终端仓库,其中存储的物品是由各个小的仓库运送的,是各个数据库的集合体,一个更大的综合数据库

        此外,数据库和数据仓库最不同的还是服务对象和作用。上边也提到了,数据库基本上是服务于各个部门,是业务信息系统的附属品,也就是我们常在信息化建设初期中提到的ERP、OA、CRM等业务系统。这些数据库是服务于各种业务系统以及业务软件,主要是通过业务流程发挥作用。

        而数据仓库就不一样了,它不是服务于业务信息化系统的,它是服务于分析型应用的。更多的是通过各种商业智能BI前端可视化分析工具或者报表工具来访问数据仓库,最终是面向报表查询,数据分析服务,为业务人员提供复盘、预测,为企业管理人员提供决策信息的。

三、数据中台是什么

        回看时间,数据中台虽然是一个新兴的概念,但也已经有数年的发展时间,按理说应该已经有一个主流的解释来定义数据中台的形态,但实际上数据中台的界定依旧模糊,分类也比较混乱,缺少对于定义和价值的判断,所在在这里谈到的数据中台也只能代表个人的看法。

        一般来说,数据中台是一种将企业沉淀的大量业务数据赋予价值变成数据资产,并通过持续的数据应用为企业业务服务,从而实现数据价值,让数据真正成为企业重要资产,发挥作用的系统和机制

        数据中台强调的是连接,企业通过数据中台提供的方法和运营机制,将数据连接起来,形成汇聚整合、提纯加工、建模处理、算法学习,再通过连接以共享数据服务的方式将复杂的数据处理过程提供给业务使用,从而实现数据与业务的连接。

        用通俗的话来说,数据中台就是让企业的数据动起来的实现企业全面数据化的解决方案,主要价值在于数据服务,也就是可复用性。其本质是因为数据从业务系统中产生并储存,而业务系统反过来也需要利用数据分析来优化改进业务流程,那么就可以把业务系统的数据存储和计算能力抽象,交给独立的数据处理平台提供储存和计算能力,这就是数据中台产生的真正原因。

四、什么是数据湖

         数据湖从本质上来讲,是一种企业数据架构方法,物理实现上则是一个数据存储平台,用来集中化存储企业内海量的、多来源,多种类的数据,并支持对数据进行快速加工和分析。

五、数据湖与数据仓库的区别

区别:

        1、从使用对象来看:数据仓库主要是给BI分析的数据分析师使用的,而数据湖是给AI处理的数据科学家使用,数据仓库也可以给AI使用,但是侧重点是BI。

        2、从数据处理的过程来看:数据仓库是ETL,抽取-清洗-加载,而数据湖是ELT,抽取-加载-清洗,即数据湖首先是直接讲数据存储,后续使用再进行清洗,而数据仓库在创建之初已经明确应用场景,所以先清洗再加载。

        3、从使用用途来看,数据仓库有明确的使用场景,即明确的数据分析的主题场景,而数据湖是不确定数据有什么使用场景,先存储起来,后面再进行探索使用

        4、从存储的数据类型来看,数据仓库存储的主要是结构化数据,而数据湖存储的是结构化半结构化和非结构化的数据,主要存储的是半结构化和非结构化的数据

        5、数据仓库的数据质量是通过数据治理实现数据价值,而数据湖的数据质量主要目的是具备高质量标准,确保数据可信、可靠、具有正确的含义和目的,主要是为了数据存储

相似点:

        1、数据湖和数据仓库都需要元数据管理,如果没有元数据管理,则数据湖会变成数据沼泽不知道存储的数据是什么,无法再次使用,所以数据湖也是需要通过元数据管理将数据变成数据资源。另外元数据管理需要按照因归尽归,因收尽收的原则。

        2、数据湖和数据仓库都有数据资源目录,通过数据资源目录了解存储的数据有什么?

        3、数据湖和数据仓库的提取都是需要通过SQL的方式进行提取,数据模型的创建,但是区别主要在数据仓库的模型创建是依据数据标准进行创建,而数据湖的模型创建可以按照业务系统进行一比一的创建

        综上所述,数据仓库和数据湖是有那种不同的使用场景的,不同企业可以根据应用场景选取合适的产品进行数据存储。

目前数据仓库的类型主要有两种,,一种是数据仓库的思想领袖Bill innon提出的关系型数据仓库,另外一种是另外一个思想领袖Ralph Kimball提出的多维数据仓库,目前关系型数据仓库不会存在因为数据量变大,查询变慢的问题,而多维数据仓库会存在由于数据量变大,而查询性能变慢的问题,而多维数据仓库解决由于数据量变大查询性能变慢的问题而产生的宽表,宽表的作用是适当使用部分数据几余,通过空间换时间的方法解决查询性能问题

衡量数据仓库建设的成功与否的指标主要有3个指标:

        1、使用率指标,有多少人在使用数据仓库

        2、主题覆盖率。即有多少业务部门在使用数据仓库

        3、响应时间和性能指标。由于数据仓库只要是BI分析应用场景,所以响应时间和性能指标是数据仓库建设的一个重要的指标。

数据湖建设成功与否的衡量指标可以包括以下几个方面

        1、数据完整性: 数据湖的数据应该完整地反映了业务过程中的各个环节,并且具备一致性和准确性。

        2、数据质量: 数据湖的数据应该具备高质量标准,确保数据可信、可靠、具有正确的含义和目的。

         3、数据共享与协作:数据湖中的数据应该容易被团队和组织共享和访问,同时支持协作和合作。

        4、数据安全与隐私: 数据湖中存储的信息应该保持机密性、完整性、可用性,并遵循数据安全和隐私方针。

        5、数据分析与应用: 数据湖中的数据应该能够为企业和团队的业务决策提供有价值的洞察同时支持业务应用和创新

        6、数据可持续性:数据湖与数据管理策略相结合,应该能够持续为组织和业务流程提供有益的价值。

         7、数据湖管理平台的便捷性: 数据湖中数据的管理流程应该简单便捷,从数据接入、数据管理到数据可视化、数据分析均应该较为便捷

相关文章:

数据库、数据中台、数据仓库、数据湖区别

数据时代,各行业的企业都已经开始通过数据库来沉淀数据,但是真的论起数据库、数据仓库、数据中台,还是新出现的数据湖,它们的概念和区别,可能知道的人就比较少了,今天我们详细来比较了解一下。 一、数据仓…...

缺失的数据范围,思维,hduoj

Problem Description 著名出题人小Q出过非常多的题目,在这个漫长的过程中他发现,确定题目的数据范围是非常痛苦的一件事。 每当思考完一道题目的时间效率,小Q就需要结合时限以及评测机配置来设置合理的数据范围。 因为确定数据范围是一件痛苦…...

极简的MapReduce实现

目录 1. MapReduce概述 2. 极简MapReduce内存版 3. 复杂MapReduce磁盘版 4. MapReduce思想的总结 1. MapReduce概述 以前写过一篇 MapReduce思想 ,这次再深入一点,简单实现一把单机内存的。MapReduce就是把它理解成高阶函数,需要传入map和…...

更新暑假做过的项目(医学数据多标签分类与多标签分割,医学数据二分类)

写在前面 暑假参与了两个项目,收获颇多。搭建网络有许多走过的弯路与经验,调参也是一个必要的技能,在这里想一并分享给大家我在项目中积累的经验和一些小技巧。 PS:结合个人经验与网上经验,大家斟酌自取。 下面的几个…...

谷歌浏览器访问127.0.0.1时报错 Failed to read the ‘sessionStorage‘ property from ‘Window‘

谷歌浏览器访问 127.0.0.1 时报错如下: Uncaught DOMException: Failed to read the ‘sessionStorage’ property from ‘Window’: Access is denied for this document. 原因: 谷歌浏览器设置中禁止了 127.0.0.1 存储数据到浏览器设备上 解决方法…...

云技术分享 | 快速构建 CodeWhisperer 代码生成服务,让 AI 辅助编程

前言 Amazon CodeWhisperer 是 2023 年 4 月份发布的一款通用的、机器学习驱动的代码生成器服务,CodeWhisperer 经过数十亿行 Amazon 和公开可用代码的训练,可以理解用自然语言(英语)编写的评论,可在集成式开发环境 (…...

开发万岳互联网医院APP:技术要点和关键挑战

随着移动技术和互联网的飞速发展,互联网医院APP成为医疗领域的一项重要创新。这些应用程序为患者和医生提供了更多便利和互动性,但开发互联网医院APP也伴随着一系列的技术要点和关键挑战。本文将探讨互联网医院APP的技术要点以及在开发过程中需要面对的挑…...

漫谈下一代防火墙与Web应用防火墙的区别

如今,Web应用程序变得越来越复杂,更是黑客非常感兴趣的目标。在谈到网络安全的话题时,我们总会讨论下一代防火墙与Web应用防火墙的区别。当已经拥有下一代防火墙(NGFW)时,为什么需要Web应用程序防火墙&…...

基于马尔可夫随机场的图像去噪算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1、马尔可夫随机场的基本原理 4.2、基于马尔可夫随机场的图像去噪算法 5.算法完整程序工程 1.算法运行效果图预览 原图: 加入噪声的图像: 滤波后的图像 迭代过程…...

【综合类型第 39 篇】HTTP 状态码详解

这是【综合类型第 39 篇】,如果觉得有用的话,欢迎关注专栏。 注: 本篇博客只是在「阿里云开发者社区版 HTTP 状态码详解」中按自己的写作风格做了断句,归纳整理,方便查看和阅读。 尊重原创,原文链接&…...

win10 hosts文件修改不生效

解决办法可以参考:修改hosts 不生效? 三种方法解决...

网络库OKHttp(1)流程+拦截器

序、慢慢来才是最快的方法。 背景 OkHttp 是一套处理 HTTP 网络请求的依赖库,由 Square 公司设计研发并开源,目前可以在 Java 和 Kotlin 中使用。对于 Android App 来说,OkHttp 现在几乎已经占据了所有的网络请求操作。 OKHttp源码官网 版…...

关于 Invalid bound statement (not found): 错误的解决

关于 Invalid bound statement not found: 错误的解决 前言错误原因解决方法1. 检查SQL映射文件2. 检查MyBatis配置3. 检查SQL语句4. 检查命名约定5. 清除缓存6. 启用日志记录 重点注意 结语 我是将军我一直都在,。! 前言 当开发Java Spring Boot应用程…...

深入理解强化学习——智能体的类型:有模型强化学习智能体与免模型强化学习智能体

分类目录:《深入理解强化学习》总目录 根据智能体学习的事物不同,我们可以把智能体进行归类。基于价值的智能体(Value-based agent)显式地学习价值函数,隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。…...

vue项目获得开源代码之后跳过登录界面

readme运行 进入到账号和密码 找到main.js 比如说,以上这段代码 剩下next()就成功进入了...

WPS、Excel表格增加一列,序列1到任意大小 / 填充某个范围的数字到列

Excel添加一列递增的数字方法有如下: 一、最常用的,使用鼠标放到右下角下拉增加 1、选中起始框的右下角,直到显示黑色实心十字 2、一直向下拖动 3、成功 这种填充方式是最常用的,100以内都可以轻松瞬间完成 1~100填充 但是如果…...

在 rider 里用配置 Perforce(P4)的注意事项

整个配置界面里,关键就配2处位置,但是都有些误导性。 1是连接形参的4个参数都得填,字符集看你项目的要求,这里工作区其实指的是你的工作空间,还不如显示英文的 Workspace 呢,搞得我一开始没填,…...

在Spring中,标签管理的Bean中,为什么使用@Autowired自动装配修饰引用类(前提条件该引用类也是标签管理的Bean)

Autowired是Spring框架的一个注解,它可以用来完成自动装配。 自动装配是Spring框架的一个特性,它可以避免手动去注入依赖,而是由框架自动注入。这样可以减少代码的重复性和提高开发效率。 在使用Autowired注解时,Spring会自动搜…...

俄罗斯YandexGPT 2在国家考试中获得高分;OpenAI API开发者快速入门指南

🦉 AI新闻 🚀 俄罗斯YandexGPT 2聊天机器人成功在国家考试中获得高分 摘要:俄罗斯YandexGPT 2聊天机器人通过国家统一考试文学科目,以55分的加权分数成功进入大学。Yandex团队强调他们在开发过程中确保数据库不包含任何关于统考…...

Nginx 同一端口下部署多个 Vue3 项目

前言 前端多项目部署到 Nginx 的同一监听端口下的解决方案,项目由一个主项目和多个子项目组成,主项目和子项目都是单独打包。 主子项目之间是使用的腾讯开源的无界(WebComponent 容器 iframe 沙箱)前端框架,能够完善…...

计算机毕业设计 无人智慧超市管理系统的设计与实现 Javaweb项目 Java实战项目 前后端分离 文档报告 代码讲解 安装调试

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…...

js构造函数和原型链

以下是一个简单的JS原型链代码示例: function Person(name, age) {this.name name;this.age age; }Person.prototype.sayHello function() {console.log(Hello, Im ${this.name} and Im ${this.age} years old.); }let person1 new Person(Alice, 20);person1.…...

python中matrix()矩阵和array()数组(待完善)

参考:python矩阵中matrix()和array()函数区别-CSDN博客 区别: 维度:ndarray可以是多维的,包括1D、2D、3D等,而matrix只能是2维的,也就是矩阵。数据类型:ndarray的数据类型可以不一致&#xf…...

设计海报都有哪些好用的软件推荐

在新媒体时代,设计在各个方面都是不可分割的。它最初是设计师的工作,并逐渐成为新媒体编辑的必要技能。 网页内容需要图片和文字,应用程序需要独特的风格基调,人们更喜欢分享视频和图片,而不是简单的文本。因此&#…...

Arcgis中像元值变化问题,拉伸显示的是否为实际像元值范围?

Arcgis中合并栅格但像元值变化 问题描述 这是四幅栅格,范围都在-1-9之间,怀疑这个范围是否是真实的范围。因为经常听到同学说放到arcgis拉伸显示之后,值变化了,所以研究一下。 原因 可以打开ENVI的像元快速统计工具&#xff…...

oracle库中数据利用datax工具同步至mysql库

查看oracle版本 $sqlplus aaa/aaaa192.168.1.1/lcfaSQL*Plus: Release 19.0.0.0.0 - Production on Tue Oct 17 15:56:46 2023 Version 19.15.0.0.0Copyright (c) 1982, 2022, Oracle. All rights reserved.Last Successful login time: Tue Oct 17 2023 15:56:03 08:00Conne…...

【Unity HDRP渲染管线下的WorleyUtilities文件,“Hash”函数】

Unity HDRP内置文件WorleyUtilities WorleyUtilities文件路径如下:文件代码如下然后转译到ShaderLab中:存档:WorleyUtilities文件路径如下: D:…\Library\PackageCache\com.unity.render-pipelines.high-definition@14.0.8\Runtime\Lighting\VolumetricClouds\WorleyUtili…...

前端跨域问题解决

一、同源策略 同源策略是一个重要的安全策略,它用于限制一个Origin的文档或者它加载的脚本如何能与另一个源的资源进行交互。它能帮助阻隔恶意文档,减少可能被攻击的媒介。 Origin:指web文档的来源,Web 内容的来源取决于访问的U…...

【前端】Js

目 录 一.前置知识第一个程序JavaScript 的书写形式注释输入输出 二.语法概览变量的使用理解 动态类型基本数据类型 三.运算符算术运算符赋值运算符 & 复合赋值运算符自增自减运算符比较运算符逻辑运算符位运算移位运算 四.条件语句if 语句三元表达式switch 五.循环语句whi…...

第四章 Istio出口流量管理

文章目录 访问外部服务Envoy 代理将请求传递给网格外服务配置服务条目以提供对外部服务的受控访问访问外部 HTTP 服务 直接访问外部服务 出口网关清理 HTTP 网关其他 访问外部服务 为了更好的做好网络访问控制,k8s结合Istio出口网络升级示意图 来自 Istio 的 pod…...

网页界面设计要中重点掌握/网站快速优化排名软件

生活中,经常会因为有多个账号需要双开或者多开的情况,而目前大部分的安卓手机都可以实现应用多开的功能,对于需要多账号登录的用户来说很方便。但是还有一部分人也需要用电脑版的微信进行日常的使用和办公,然而电脑版的微信并没有…...

上海最专业的网站建设公司/seo 首页

go yum安装go 通过yum安装,比较简单 yum install epel-release yum install golang go version源码安装 用yum就好了,哈哈! 修改环境变量 通过go env命令进行查看: go env echo $PATH配置环境变量 # vim /etc/profile在文…...

企业app定制开发公司/seo网络营销推广公司深圳

试验网站#3搜索引擎优化收录情况记录日期Yahoogooglebaidusogou每日收录每日收录增量每日收录每日收录增量每日收录每日收录增量每日收录每日收录增量2007-7-7迁移至不限带宽的服务器,地理位置在美国2007-7-193650 1 6 0 2007-7-253703531141132216002007-7-263705…...

黄埔建网站公司/百度后台管理

转载出处:https://www.cnblogs.com/lemon-flm/p/7877898.html Queue:基本上,一个队列就是一个先入先出(FIFO)的数据结构。 Queue接口与List、Set同一级别,都是继承了Collection接口。LinkedList实现了Dequ…...

网站怎么做图片动态图片/关键词推广是什么

为方便旅客,某航空公司拟开发一个机票预定系统。旅行社把预定机票的旅客信息(姓名、性别、工作单位、身份证号码、旅行时间、旅行目的地等)输入进入该系统,系统为旅客安排航班,印出取票通知和账单,旅客在飞…...

网站开发哪个城市发展好/百度如何添加店铺位置信息

阮一峰博客系列: http://es6.ruanyifeng.com/#README 转载于:https://www.cnblogs.com/hao-1234-1234/p/9939764.html...