Apache Hudi数据湖技术应用在网络打车系统中的系统架构设计、软硬件配置、软件技术栈、具体实现流程和关键代码
网络打车系统利用Hudi数据湖技术成功地解决了其大规模数据处理和分析的难题,提高了数据处理效率和准确性,为公司的业务发展提供了有力的支持。
Apache Hudi数据湖技术的一个典型应用案例是网络打车系统的数据处理场景,具体如下:
大型网络打车公司每天需要处理的数据量达到数千亿条,数据规模达到数百PB级别。网络打车系统使用Hudi数据湖技术来跟踪记录每一次打车过程的所有事件,包括打开打车应用、发起打车、上车、到达目的地下车以及对司机的评价打分等。
在这个场景中,网络打车系统选择使用Hudi的写时复制表(COW)来存储应用程序中用户交互的历史记录数据。这些数据一旦产生并不会发生追溯修改,因此适合使用COW表来存储。使用Hudi后,网络打车系统的写入效率相比之前的Spark作业提高了100多倍,同时满足了数据查询的性能和低延迟要求。
此外,网络打车系统还利用Hudi提供的多种视图能力来优化数据查询。例如,使用快照查询来获取某个时间点的数据快照,使用增量查询来只查询自上次查询以来的新数据。这些视图能力使得网络打车系统能够更加高效地处理和分析数据,进而优化其业务决策和运营效率。
根据网络打车系统的Hudi应用场景,以下是详细的架构设计与实现方案:
一、硬件配置方案
- 存储层:
- 分布式存储:10,000节点HDFS集群(或S3兼容对象存储)
- 存储类型:NVMe SSD(热数据)+ HDD(冷数据)
- 总容量:1.5EB(支持3副本)
- 网络:100Gbps RDMA网络
- 计算层:
- Spark/Flink集群:5000节点
- 配置:256核/节点,2TB内存/节点
- 本地SSD缓存:10TB/节点
- 网络架构:
- 东西向流量:Clos网络架构
- 延迟要求:计算节点间<1ms
- 带宽:数据节点间40Gbps专线
二、系统架构设计
三、软件技术栈
- 核心组件:
- 存储引擎:Apache Hudi 0.12.0
- 计算引擎:Spark 3.3 + Flink 1.16
- 资源调度:YARN 3.3 + Kubernetes 1.26
- 数据格式:Parquet + Avro
- 元数据管理:Hive Metastore 3.1.2
- 辅助组件:
- 数据采集:Flume 1.10 + Kafka 3.3
- 查询引擎:Trino 412
- 监控体系:Prometheus 2.43 + Grafana 9.4
四、具体实现流程
- 数据写入流程:
# 示例Spark写入代码(Scala)
val hudiOptions = Map[String,String]("hoodie.table.name" -> "ride_events","hoodie.datasource.write.recordkey.field" -> "event_id","hoodie.datasource.write.partitionpath.field" -> "event_date,event_type","hoodie.datasource.write.precombine.field" -> "event_ts","hoodie.upsert.shuffle.parallelism" -> "5000","hoodie.insert.shuffle.parallelism" -> "5000","hoodie.bulkinsert.shuffle.parallelism" -> "5000"
)val eventDF = spark.read.format("kafka").option("kafka.bootstrap.servers", "kafka-cluster:9092").option("subscribe", "ride-events").load().select(from_json(col("value"), schema).as("data")).select("data.*")eventDF.write.format("org.apache.hudi").options(hudiOptions).option("hoodie.datasource.write.operation", "upsert").mode("append").save("s3://data-lake/ride_events")
- 查询优化配置:
-- 创建Hudi表外部关联
CREATE EXTERNAL TABLE ride_events
USING hudi
LOCATION 's3://data-lake/ride_events';-- 快照查询(最新数据)
SELECT * FROM ride_events
WHERE event_date = '2023-08-01' AND event_type = 'payment';-- 增量查询(Java示例)
HoodieIncQueryParam incParam = HoodieIncQueryParam.newBuilder().withStartInstantTime("20230801120000").build();SparkSession.read().format("org.apache.hudi").option(HoodieReadConfig.QUERY_TYPE, HoodieReadConfig.QUERY_TYPE_INCREMENTAL_OPT_VAL).option(HoodieReadConfig.BEGIN_INSTANTTIME, "20230801120000").load("s3://data-lake/ride_events").createOrReplaceTempView("incremental_data");
五、关键优化技术
- 存储优化:
// Hudi表配置(Java)
HoodieWriteConfig config = HoodieWriteConfig.newBuilder().withPath("s3://data-lake/ride_events").withSchema(schema.toString()).withParallelism(5000, 5000).withCompactionConfig(HoodieCompactionConfig.newBuilder().withInlineCompaction(true).withMaxNumDeltaCommitsBeforeCompaction(5).build()).withStorageConfig(HoodieStorageConfig.newBuilder().parquetMaxFileSize(2 * 1024 * 1024 * 1024L) // 2GB.build()).build();
- 索引优化:
# hudi.properties
hoodie.index.type=BLOOM
hoodie.bloom.index.bucketized.checking=true
hoodie.bloom.index.keys.per.bucket=100000
hoodie.bloom.index.filter.type=DYNAMIC_V0
六、运维监控体系
- 关键监控指标:
# Prometheus监控指标示例
hudi_commit_duration_seconds_bucket{action="commit",le="10"} 23567
hudi_compaction_duration_minutes 8.3
hudi_clean_operations_total 1428
hudi_bytes_written_total{type="parquet"} 1.2e+18
七、性能调优参数
- Spark调优参数:
spark.conf.set("spark.sql.shuffle.partitions", "10000")
spark.conf.set("spark.executor.memoryOverhead", "4g")
spark.conf.set("spark.hadoop.parquet.block.size", 268435456) # 256MB
该架构设计可实现以下性能指标:
- 写入吞吐:>500万条/秒
- 查询延迟:点查<1s,全表扫描<5min/PB
- 数据新鲜度:端到端延迟<5分钟
- 存储效率:压缩比8:1(原始JSON vs Parquet)
实际部署时需要根据数据特征动态调整以下参数:
- 文件大小(hoodie.parquet.max.file.size)
- 压缩策略(hoodie.compact.inline.trigger.strategy)
- Z-Order索引字段选择
- 增量查询时间窗口策略
相关文章:
Apache Hudi数据湖技术应用在网络打车系统中的系统架构设计、软硬件配置、软件技术栈、具体实现流程和关键代码
网络打车系统利用Hudi数据湖技术成功地解决了其大规模数据处理和分析的难题,提高了数据处理效率和准确性,为公司的业务发展提供了有力的支持。 Apache Hudi数据湖技术的一个典型应用案例是网络打车系统的数据处理场景,具体如下: 大…...
安全策略配置
需求: 1、VLAN 2属于办公区;VLAN 3属于生产区 2、办公区PC在工作日时间(周一至周五,早8到晚6)可以正常访问0A Server,其他时间不允许 3、办公区PC可以在任意时刻访问web server 4、生产区PC可以在任意时刻访问0A Server,但是不能访问Web serv…...
c++ stl 遍历算法和查找算法
概述: 算法主要由头文件<algorithm> <functional> <numeric> 提供 <algorithm> 是所有 STL 头文件中最大的一个,提供了超过 90 个支持各种各样算法的函数,包括排序、合并、搜索、去重、分解、遍历、数值交换、拷贝和…...
【Envi遥感图像处理】008:波段(批量)分离与波段合成
文章目录 一、波段分离提取1. 提取单个波段2. 批量提取单个波段二、波段合成相关阅读:【ArcGIS微课1000例】0058:波段合成(CompositeBands)工具的使用 一、波段分离提取 1. 提取单个波段...
线程创建与管理 - 创建线程、线程同步(C++)
前言 在现代软件开发中,线程的创建和管理是并发编程的核心内容之一。通过合理地创建和管理线程,可以有效提高程序的响应速度和资源利用率。本文将详细讲解如何在C中创建线程,并探讨几种常见的线程同步机制。我们假设读者具备一定的C基础&…...
【C语言篇】“三子棋”
一、游戏介绍 三子棋,英文名为 Tic - Tac - Toe,是一款简单而经典的棋类游戏。游戏在一个 33 的棋盘上进行,两名玩家轮流在棋盘的空位上放置自己的棋子(通常用 * 和 # 表示),率先在横、竖或斜方向上连成三个…...
安培定律应用于 BH 曲线上的工作点
在本篇博文中,我将展示如何应用安培定律来确定磁芯包裹的导体必须承载多少电流才能从 BH 值工作点获得 B 值,该工作点对应于磁芯材料中的最大 B 值。我在 BH 曲线上使用两个工作点,一个在线性区域,另一个在饱和区域。 安培定律 H…...
深度求索DeepSeek横空出世
真正的强者从来不是无所不能,而是尽我所能。多少有关输赢胜负的缠斗,都是直面本心的搏击。所有令人骄傲振奋的突破和成就,看似云淡风轻寥寥数语,背后都是数不尽的焚膏继晷、汗流浃背。每一次何去何从的困惑,都可能通向…...
【CSS】什么是响应式设计?响应式设计的基本原理,怎么做
在当今多设备、多屏幕尺寸的时代,网页设计面临着前所未有的挑战。传统的固定布局已无法满足用户在不同设备上浏览网页的需求,响应式设计(Responsive Web Design)应运而生,成为网页设计的趋势和标准。本文将深入探讨响应…...
后盾人JS--继承
继承是原型的继承 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> </hea…...
提升开发效率:IDE使用技巧与插件推荐
在软件开发过程中,选择一个合适的集成开发环境(IDE)并掌握其使用技巧,可以显著提高开发效率。本文将分享一些常用的IDE使用技巧,并推荐几款实用的插件,帮助开发者更好地利用IDE进行开发。 一、IDE使用技巧…...
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势(一)
一、前言 在当今人工智能技术迅猛发展的时代,各类人工智能模型如雨后春笋般不断涌现,其性能的优劣直接影响着应用的广度与深度。从自然语言处理到计算机视觉,从智能安防到医疗诊断,AI 模型广泛应用于各个领域,人们对其准确性、稳定性和高效性的期望也与日俱增。 在此背景下…...
小书包:让阅读更美的二次开发之作
小书包是在一款知名阅读软件的基础上进行二次开发的产品。在保留原有软件的基本功能和用户体验的同时,对其界面和视觉效果进行了精心美化,让阅读体验更加舒适和愉悦。 内置了171条书源,虽然数量不算多,但都是作者精挑细选出来的&a…...
MySQL 插入数据指南
MySQL 插入数据指南 引言 MySQL 是一款广泛使用的开源关系数据库管理系统,被广泛应用于各种规模的组织中。在数据库管理中,数据的插入是基础操作之一。本文将详细介绍如何在 MySQL 中插入数据,包括插入单条记录和多条记录,以及一…...
防火墙安全策略实验
一、拓扑图 需求 Cloud云: 二、防火墙配置 初始化防火墙 Username:admin Password:***** The password needs to be changed. Change now? [Y/N]: y Please enter old password: Admin123 Please enter new password: admin123 Please confirm new password: …...
【Redis】主从模式,哨兵,集群
主从复制 单点问题: 在分布式系统中,如果某个服务器程序,只有一个节点(也就是一个物理服务器)来部署这个服务器程序的话,那么可能会出现以下问题: 1.可用性问题:如果这个机器挂了…...
互联网行业常用12个数据分析指标和八大模型
本文目录 前言 一、互联网线上业务数据分析的12个指标 1. 用户数据(4个) (1) 存量(DAU/MAU) (2) 新增用户 (3) 健康程度(留存率) (4) 渠道来源 2. 用户行为数据(4个) (1) 次数/频率…...
多模块协同信息安全管理平台
1.产品介绍 产品名称 【SecureMOS - 多模块协同信息安全管理平台】 主要功能: [功能1] 模块化架构设计与集成 具体作用与使用方式: 通过模块化的设计,将信息安全系统分解为多个独立且可扩展的组件,便于快速部署和维护。需求满足与问题解…...
基于RK3588/RK3576+MCU STM32+AI的储能电站电池簇管理系统设计与实现
伴随近年来新型储能技术的高质量规模化发展,储能电站作为新能源领域的重要载体, 旨在配合逐步迈进智能电网时代,满足电力系统能源结构与分布的创新升级,给予相应规模 电池管理系统的设计与实现以新的挑战。同时,电子系…...
使用LightGlue进行图像配准并提取图像重叠区域
发表日期:2023年6月23日 项目地址:https://github.com/cvg/LightGlue https://github.com/cvg/glue-factory/ LightGlue是一个在精度上媲美Superglue,但在速度上比Superglue快一倍的模型。通过博主实测,LightGlue的配准效果比Su…...
KubeSphere 容器平台高可用:环境搭建与可视化操作指南
Linux_k8s篇 欢迎来到Linux的世界,看笔记好好学多敲多打,每个人都是大神! 题目:KubeSphere 容器平台高可用:环境搭建与可视化操作指南 版本号: 1.0,0 作者: 老王要学习 日期: 2025.06.05 适用环境: Ubuntu22 文档说…...
JavaScript 中的 ES|QL:利用 Apache Arrow 工具
作者:来自 Elastic Jeffrey Rengifo 学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。 想获得 Elastic 认证吗?了解下一期 Elasticsearch Engineer 培训的时间吧! Elasticsearch 拥有众多新功能,助你为自己…...
visual studio 2022更改主题为深色
visual studio 2022更改主题为深色 点击visual studio 上方的 工具-> 选项 在选项窗口中,选择 环境 -> 常规 ,将其中的颜色主题改成深色 点击确定,更改完成...
java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别
UnsatisfiedLinkError 在对接硬件设备中,我们会遇到使用 java 调用 dll文件 的情况,此时大概率出现UnsatisfiedLinkError链接错误,原因可能有如下几种 类名错误包名错误方法名参数错误使用 JNI 协议调用,结果 dll 未实现 JNI 协…...
django filter 统计数量 按属性去重
在Django中,如果你想要根据某个属性对查询集进行去重并统计数量,你可以使用values()方法配合annotate()方法来实现。这里有两种常见的方法来完成这个需求: 方法1:使用annotate()和Count 假设你有一个模型Item,并且你想…...
uniapp微信小程序视频实时流+pc端预览方案
方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度WebSocket图片帧定时拍照Base64传输✅ 完全免费无需服务器 纯前端实现高延迟高流量 帧率极低个人demo测试 超低频监控500ms-2s⭐⭐RTMP推流TRTC/即构SDK推流❌ 付费方案 (部分有免费额度&#x…...
12.找到字符串中所有字母异位词
🧠 题目解析 题目描述: 给定两个字符串 s 和 p,找出 s 中所有 p 的字母异位词的起始索引。 返回的答案以数组形式表示。 字母异位词定义: 若两个字符串包含的字符种类和出现次数完全相同,顺序无所谓,则互为…...
ArcGIS Pro制作水平横向图例+多级标注
今天介绍下载ArcGIS Pro中如何设置水平横向图例。 之前我们介绍了ArcGIS的横向图例制作:ArcGIS横向、多列图例、顺序重排、符号居中、批量更改图例符号等等(ArcGIS出图图例8大技巧),那这次我们看看ArcGIS Pro如何更加快捷的操作。…...
中医有效性探讨
文章目录 西医是如何发展到以生物化学为药理基础的现代医学?传统医学奠基期(远古 - 17 世纪)近代医学转型期(17 世纪 - 19 世纪末)现代医学成熟期(20世纪至今) 中医的源远流长和一脉相承远古至…...
#Uniapp篇:chrome调试unapp适配
chrome调试设备----使用Android模拟机开发调试移动端页面 Chrome://inspect/#devices MuMu模拟器Edge浏览器:Android原生APP嵌入的H5页面元素定位 chrome://inspect/#devices uniapp单位适配 根路径下 postcss.config.js 需要装这些插件 “postcss”: “^8.5.…...
