实时数仓:基于数据湖的实时数仓与数据治理架构
设计一个基于数据湖的实时数仓与数据治理架构,需要围绕以下几个核心方面展开:实时数据处理、数据存储与管理、数据质量治理、数据权限管理以及数据消费。以下是一个参考架构方案:
一、架构整体概览
核心组成部分
-
数据源层
- 数据来源:多样化的数据源(OLTP数据库、日志系统、IoT设备、API接口等)。
- 数据类型:结构化、半结构化(JSON、CSV)、非结构化(图片、视频)。
-
数据接入层
- 工具:使用 Flink CDC 或 Debezium 捕获数据库变更;通过 Kafka 或 Pulsar 作为数据流传输工具。
- 实现:实时采集和流式数据传输,支持批流融合。
-
数据存储层
- 湖仓一体化存储:
- 使用 Hudi/Iceberg/Delta Lake 作为数据湖存储格式,提供流批融合的 ACID 事务支持。
- 元数据管理工具:集成 Apache Hive Metastore 或 AWS Glue。
- 分层存储:
- ODS层:原始数据按时间分区存储。
- DWD层:清洗后数据,按主题域区分,增强列式存储优化。
- DWS层:宽表或汇总数据,支持实时与离线分析。
- ADS层:直接服务于BI和报表需求。
- 湖仓一体化存储:
-
数据处理层
- 实时处理:
- 使用 Flink Structured Streaming 或 Spark Structured Streaming 处理实时流数据。
- 实现基于事件驱动的实时数据加工。
- 离线处理:
- 使用 Spark SQL 或 Hive 定期对冷数据做批量清洗和汇总。
- 查询加速:
- Doris 提供在线分析服务,支持对实时数仓和数据湖查询加速。
- 实时处理:
-
数据消费层
- BI工具:如 Apache Superset、Tableau。
- 实时监控:通过 Grafana 或自研监控平台展示实时指标。
- 数据接口:通过 REST API 或 GraphQL 提供服务。
-
数据治理层
- 数据质量:Great Expectations 或自研工具,监控数据准确性、一致性、完整性。
- 数据权限:集成 Apache Ranger 或 AWS Lake Formation,实现细粒度权限控制。
- 数据血缘:通过 Apache Atlas 构建血缘追踪系统。
二、架构设计细节
1. 实时数据处理架构
- 工具选择:
- Kafka:实时数据管道,存储流数据。
- Flink Structured Streaming:低延迟的流式处理框架。
- Hudi/Iceberg/Delta Lake:支持实时写入与批量读取。
- 流处理流程:
- 事件驱动:
- 例如:电商订单事件,基于订单状态变化驱动实时处理。
- 时间驱动:
- 例如:按时间窗口计算销售汇总数据(1分钟/1小时)。
- 事件驱动:
2. 数据湖存储架构
- 数据按 主题域 和 时间分区 存储:
- ODS:
ods/{业务域}/{表名}/{年}/{月}/{日}/{小时}
- DWD:
dwd/{业务域}/{表名}/{年}/{月}/{日}
- DWS:
dws/{业务域}/{汇总主题}/{年}/{月}
- ADS:
ads/{业务域}/{分析主题}/{年}/{月}
- ODS:
- 数据湖存储格式:选择支持事务的格式(Hudi、Iceberg)。
3. 数据治理实现
- 数据质量管理:
- 定义质量规则:
- Null值校验、唯一性校验、值域校验。
- 工具:通过 Great Expectations 自动化校验规则。
- 定义质量规则:
- 数据权限管理:
- 设置访问策略:
- 按主题域、角色分配细粒度权限。
- 工具:使用 Apache Ranger。
- 设置访问策略:
- 数据血缘管理:
- 构建数据流向:
- 数据从 Kafka -> Flink -> Hudi -> Doris 的全链路血缘图。
- 工具:Apache Atlas。
- 构建数据流向:
4. 数据消费设计
- BI报表和实时监控:
- 将指标数据实时暴露到 Doris,供 Superset 或其他BI工具使用。
- API服务:
- 提供基于实时数仓的接口服务,支持企业内部应用快速访问。
三、架构优点与挑战
优点
- 实时性强:利用事件驱动和流处理,实时响应数据变化。
- 灵活扩展:湖仓一体化架构,支持高效存储和查询。
- 数据治理完备:实现从质量、权限到血缘的全面管理。
挑战
- 实时任务复杂度高:Flink流任务设计需要更高的工程能力。
- 数据湖性能优化:Hudi/Iceberg在查询性能上仍需精心设计分区和索引。
- 治理系统维护成本高:需要持续投入开发和运维力量。
相关文章:
![](https://www.ngui.cc/images/no-images.jpg)
实时数仓:基于数据湖的实时数仓与数据治理架构
设计一个基于数据湖的实时数仓与数据治理架构,需要围绕以下几个核心方面展开:实时数据处理、数据存储与管理、数据质量治理、数据权限管理以及数据消费。以下是一个参考架构方案: 一、架构整体概览 核心组成部分 数据源层 数据来源ÿ…...
![](https://www.ngui.cc/images/no-images.jpg)
STM32 拓展 RTC案例1:使用闹钟唤醒待机模式 (HAL库)
需求描述 执行完毕正常代码之后,让MCU进入待机模式,设置闹钟,自动让MCU从待机模式中被唤醒。可以用led点亮熄灭显示是否唤醒。 应用场景:比如设计一个野外温度自动采集的设备,规定每小时采集一次温度,就可…...
![](https://i-blog.csdnimg.cn/direct/40c9c4fdaefb4ec198388397f3af2888.png)
ESP32S3使用串口0作为LOG输出
配置 配置串口,在内存保护这个选项里Memory protection 修改内存申请函数 测试代码 uint8_t buf1 heap_caps_malloc(320*240 * sizeof(lv_color_t), MALLOC_CAP_SPIRAM); ESP_LOGI("Test", "%d", buf1);sprintf(buffer, " Biggest / …...
![](https://i-blog.csdnimg.cn/direct/db7aef8aedd94befa53ef752e3298159.png)
Linux:深入了解fd文件描述符
目录 1. 文件分类 2. IO函数 2.1 fopen读写模式 2.2 重定向 2.3 标准文件流 3. 系统调用 3.1 open函数认识 3.2 open函数使用 3.3 close函数 3.4 write函数 3.5 read函数 4. fd文件描述符 4.1 标准输入输出 4.2 什么是文件描述符 4.3 语言级文件操作 1. 文件分类…...
![](https://i-blog.csdnimg.cn/direct/ba486bcec1434df59037a94b145c35c8.png)
springboot 集成 etcd
springboot 集成 etcd 往期内容 ETCD 简介docker部署ETCD 前言 好久不见各位小伙伴们,上两期内容中,我们对于分布式kv存储中间件有了简单的认识,完成了docker-compose 部署etcd集群以及可视化工具 etcd Keeper,既然有了认识&a…...
![](https://i-blog.csdnimg.cn/direct/6722e2e4221747f5b6e813d44c534519.png)
03_Redis基本操作
1.Redis查询命令 1.1 官网命查询命令 为了便于学习Redis,官方将其用于操作不同数据类型的命令进行了分类整理。你可以通过访问Redis官方网站上的命令参考页面https://redis.io/commands来查阅这些分组的命令,这有助于更系统地理解和使用Redis的各项功能。 1.2 HELP查询命令…...
![](https://i-blog.csdnimg.cn/direct/b935c8b2d5f641ec9cb2efbad6d92b44.png)
pycharm-pyspark 环境安装
1、环境准备:java、scala、pyspark、python-anaconda、pycharm vi ~/.bash_profile export SCALA_HOME/Users/xunyongsun/Documents/scala-2.13.0 export PATH P A T H : PATH: PATH:SCALA_HOME/bin export SPARK_HOME/Users/xunyongsun/Documents/spark-3.5.4-bin…...
![](https://i-blog.csdnimg.cn/direct/85e1bacf37294fc598ba765409ce9f37.png)
Unity + Firebase + GoogleSignIn 导入问题
我目前使用 Unity版本:2021.3.33f1 JDK版本为:1.8 Gradle 版本为:6.1.1 Firebase 版本: 9.6.0 Google Sign In 版本为: 1.0.1 问题1 :手机点击登录报错 apk转化成zip,解压,看到/lib/armeabi-v…...
![](https://i-blog.csdnimg.cn/direct/304faf8bbf7346b7810dc6c4b8531e6d.png)
web-app uniapp监测屏幕大小的变化对数组一行展示数据作相应处理
web-app uniapp监测屏幕大小的变化对数组一行展示数据作相应处理 1.uni.getSystemInfoSync().screenWidth; 获取屏幕宽度 2.uni.onWindowResize() 实时监测屏幕宽度变化 3.根据宽度的大小拿到每行要展示的数量itemsPerRow 4.为了确保样式能够根据 items…...
![](https://i-blog.csdnimg.cn/img_convert/052751e4f33bbfbda9ffed7111dabbbb.png)
2025年VGC大众汽车科技社招入职测评综合能力英语口语SHL历年真题汇总、考情分析
早在1978年,大众汽车集团就开始了与中国的联系。1984年,集团在华的第一家合资企业—上汽大众汽车有限公司奠基成立;1991年,一汽-大众汽车有限公司成立;2017年,大众汽车(安徽)有限公司…...
![](https://i-blog.csdnimg.cn/direct/14c310de466c41eaa44ab828ce2a1606.png)
Linux中配置Java环境变量
基本工作 1.官网下载java 1.8地址(需要注册一个oracle账户): Java Downloads | Oracle 点击上面的链接,滚动页面到最下面就可以看到下载界面,如下图 选择适合自己系统的版本。 本文选用 jdk-8u431-linux-x64.tar.g…...
![](https://www.ngui.cc/images/no-images.jpg)
完全自定义Qt翻译功能,不使用Qt Linguist的.ts 和 .qm类型翻译
这篇文章展示了集成Qt Linguist 的功能。 但是有时候Qt的翻译功能比较繁琐,我们简单项目只需要使用本地化功能,将中文字符串导入到项目中,避免编码格式问题导致的乱码。 只需要使用一个简单的json或者其他格式的本地文件作为映射的key/value.…...
![](https://i-blog.csdnimg.cn/direct/5d6a9e2086f94a46b146e5bf519cbc48.png)
551 灌溉
常规解法: #include<bits/stdc.h> using namespace std; int n,m,k,t; const int N105; bool a[N][N],b[N][N]; int cnt; //设置滚动数组来存贮当前和下一状态的条件 //处理传播扩散问题非常有效int main() {cin>>n>>m>>t;for(int i1;i&l…...
![](https://www.ngui.cc/images/no-images.jpg)
php函数性能优化中应注意哪些问题
PHP 函数性能优化中的注意事项 在 PHP 应用中优化函数性能对于提升整体运行效率至关重要。以下是一些需要注意的关键问题: 1. 避免内联变量 将变量内联到函数调用中会增加不必要的开销。例如: function sum($a, $b) {return $a $b; }// 不要这样做&…...
![](https://i-blog.csdnimg.cn/direct/db98e228b9ab40bcb3a24dadc6577985.jpeg)
安科瑞 Acrel-1000DP 分布式光伏监控系统在工业厂房分布式光伏发电项目中的应用
吕梦怡 18706162527 摘 要:常规能源以煤、石油、天然气为主,不仅资源有限,而且会造成严重的大气污染,开发清洁的可再生能源已经成为当今发展的重要任务,“节能优先,效率为本”的分布式发电能源符合社会发…...
鼠标自动移动防止锁屏的办公神器 —— 定时执行专家
目录 ◆ 如何设置 ◇ 方法1:使用【执行Nircmd命令】任务 ◇ 方法2:使用【模拟键盘输入】任务 ◆ 定时执行专家介绍 ◆ 定时执行专家最新版下载 ◆ 如何设置 ◇ 方法1:使用【执行Nircmd命令】任务 1、点击工具栏第一个图标【新建任务】&…...
![](https://i-blog.csdnimg.cn/img_convert/2a5c44f64583c7157d83df69b5e34c02.png)
各种特种无人机快速发展,无人机反制技术面临挑战
随着科技的飞速发展,各种特种无人机在军事、民用等领域得到了广泛应用,其性能不断提升,应用场景也日益丰富。然而,无人机反制技术的发展确实面临一定的挑战,难以完全跟上无人机技术的快速发展步伐。以下是对这一问题的…...
![](https://i-blog.csdnimg.cn/direct/a068bfdfef024770b6191f33273d50c4.jpeg)
深入学习RabbitMQ的Direct Exchange(直连交换机)
RabbitMQ作为一种高性能的消息中间件,在分布式系统中扮演着重要角色。它提供了多种消息传递模式,其中Direct Exchange(直连交换机)是最基础且常用的一种。本文将深入介绍Direct Exchange的原理、应用场景、配置方法以及实践案例&a…...
![](https://www.ngui.cc/images/no-images.jpg)
HTML实战课堂之启动动画弹窗
一:代码片段讲解 小提示:下面是一个包含启动页和弹窗的完整示例。这个示例包括一个简单的启动页和一个弹窗,当用户点击启动页上的按钮时,会显示弹窗。 1. **HTML结构**: - #startPage:启动页,包…...
![](https://www.ngui.cc/images/no-images.jpg)
将本地的 Git 仓库上传到 GitHub 上(github没有该仓库)
文章目录 步骤 1:在 GitHub 上创建新仓库步骤 2:配置本地仓库步骤 3:添加远程仓库地址步骤 4:推送本地代码到 GitHub验证上传 步骤 1:在 GitHub 上创建新仓库 登录 GitHub: 打开浏览器并访问 GitHub。使用自…...
![](https://i-blog.csdnimg.cn/direct/d2e41d8f56ab44b99d60b13a89dabf0a.png)
【Linux】模拟Shell命令行解释器
一、知识补充 1.1 snprintf snprintf() 是 C语言的一个标准库函数,定义在<stdio.h>头文件中。 snprintf() 函数的功能是格式化字符串,并将结果存储在指定的字符数组中。该函数的原型如下: int snprintf(char *str, size_t size, con…...
![](https://i-blog.csdnimg.cn/direct/688447afbe1d4f7ebac24df5f8dbce93.png)
G-Star Landscape 2.0 重磅发布,助力开源生态再升级
近日,备受行业瞩目的 G-Star Landscape 迎来了其 2.0 版本的发布,这一成果标志着 GitCode 在开源生态建设方面又取得了重要进展。 G-Star Landscape仓库链接: https://gitcode.com/GitCode-official-team/G-Star-landscape 2024 GitCode 开…...
![](https://www.ngui.cc/images/no-images.jpg)
Lianwei 安全周报|2024.1.7
以下是本周「Lianwei周报」,我们总结推荐了本周的政策/标准/指南最新动态、热点资讯和安全事件,保证大家不错过本周的每一个重点! 政策/标准/指南最新动态 01 国家发改委等三部门印发《国家数据基础设施建设指引》 国家数据基础设施是从数据…...
![](https://i-blog.csdnimg.cn/img_convert/4c21922e7f51f1f015566f4294631397.png)
ASP.NET Core 实现微服务 - Consul 配置中心
这一次我们继续介绍微服务相关组件配置中心的使用方法。本来打算介绍下携程开源的重型配置中心框架 apollo 但是体系实在是太过于庞大,还是让我爱不起来。因为前面我们已经介绍了使用Consul 做为服务注册发现的组件 ,那么干脆继续使用 Consul 来作为配置…...
![](https://www.ngui.cc/images/no-images.jpg)
使用redis的5种常用场景
文章目录 1. 缓存热点数据2. 分布式锁3. 计数器和限流器4. 消息队列5. 会话管理总结 在日常开发工作中,Redis作为一款高性能的内存数据库,凭借其强大的功能特性和卓越的性能表现,已经成为了许多项目中不可或缺的组件。本文将详细介绍Redis在实…...
![](https://i-blog.csdnimg.cn/direct/7e6d1793b7044bf9b28497a44d6e641f.png)
微信小程序防止重复点击事件
直接写在app.wpy里面,全局可以调用 // 防止重复点击事件preventActive(fn) {const self this;if (this.globalData.PageActive) {this.globalData.PageActive false;if (fn) fn();setTimeout(() > {self.globalData.PageActive true;}, 3000); //设置该时间内…...
![](https://www.ngui.cc/images/no-images.jpg)
PySpark用sort-merge join解决数据倾斜的完整案例
假设有两个大表 table1 和 table2 ,并通过 sort-merge join 来解决可能的数据倾斜问题。 from pyspark.sql import SparkSession from pyspark.sql.functions import col# 初始化SparkSession spark SparkSession.builder.appName("SortMergeJoinExample&quo…...
![](https://i-blog.csdnimg.cn/direct/3becb50d20c342cba0666fff3b7df192.png)
sklearn-逻辑回归-制作评分卡
目录 数据集处理 分箱 分多少个箱子合适 分箱要达成什么样的效果 对一个特征进行分箱的步骤 分箱的实现 封装计算 WOE 值和 IV值函数 画IV曲线,判断最佳分箱数量 结论 pd.qcut 执行报错 功能函数封装 判断分箱个数 在银行借贷场景中,评分卡是…...
![](https://i-blog.csdnimg.cn/direct/1ee5da86db924f668951eb7bfc0ce8e9.gif)
scrapy爬取图片
scrapy 爬取图片 环境准备 python3.10scrapy pillowpycharm 简要介绍scrapy Scrapy 是一个开源的 Python 爬虫框架,专为爬取网页数据和进行 Web 抓取而设计。它的主要特点包括: 高效的抓取性能:Scrapy 采用了异步机制,能够高效…...
![](https://i-blog.csdnimg.cn/direct/bd6c2e85a84b4d78a1e9e3e8b8427ad0.png)
在 Vue 项目中使用地区级联选
在 Vue 项目中使用地区级联选择的完整流程: 1.安装依赖包,这个包提供了中国省市区的完整数据。 npm install element-china-area-data --save 2.导入数据 import { regionData } from element-china-area-data 这个包提供了几种不同的数据格式&#…...
![](/images/no-images.jpg)
企业免费网站建设/营销咨询公司排名
第一层是EventListener顶层事件接口类,它只是定义了一个接口,没有包含任何接口函数。第二层是AWT的事件监听器接口(以Listener为结尾),每一个监听器接口对应一种窗口事件,其中定义了多个事件处理函数。第三层是AWT的事件适配器抽象…...
![](/images/no-images.jpg)
黑龙江省建设教育信息网网站/网址提交
在解析xml时,经常因为文件中含特殊字符而解析失败。原因有两个:一是内容中含有XML预定义好的实体,二是内容中含有低位非打印字符。 1.内容中含有xml预定好的实体,如“<”和“&”,对xml来说是禁止使用的…...
![](/images/no-images.jpg)
网站关键词的确定/制作网站的软件
今天发现,之前写到mysql中的推送日志,有两个问题:1) 由于日志是添加式的不是覆盖式的,一天执行多次,就有多条记录,我只想要最后一次的记录即可,用这个语句从库里检索:SE…...
![](http://common.cnblogs.com/images/copycode.gif)
网站实现多模板切换/网络营销策划ppt范例
Java Arrays.sort源代码解析 Java Arrays中提供了对所有类型的排序。其中主要分为Primitive(8种基本类型)和Object两大类。 基本类型:采用调优的快速排序; 对象类型:采用改进的归并排序。 一、对于基本类型源码分析如下(以int…...
![](/images/no-images.jpg)
武汉高端商城网站建设/网络销售是什么工作内容
会话总结 Session pk cookie? 联系: 都是实现会话的方法。 Session基于cookie。 差异: cookie session 会话数据存储位置 浏览器端 服务器端 安全性 低 高 数据传输量 大 小 支持会话数据量 有限制4k,20个 无限制 支…...
![](http://hi.csdn.net/attachment/201002/1/3634917_1265048535cS3A.jpg)
旅游网站开发公司/十大免费网站推广入口
一、总论 根据http://lucene.apache.org/java/docs/index.html 定义: Lucene 是一个高效的,基于Java 的全文检索库。 所以在了解Lucene之前要费一番工夫了解一下全文检索。 那么什么叫做全文检索呢?这要从我们生活中的数据说起。 我们生活中的…...