Hbase中Rowkey的设计方法
Hbase中Rowkey的设计方法
过去对于Rowkey设计方法缺乏理解,最近结合多篇博主的文章,进行了学习。有不少心得体会。总结下来供后续学习和回顾。
一、设计Rowkey的三个原则
1.长度原则:长度不能太长,小于100个字节。可以偏端一些,短一些可以方便存储。最好是8的倍数。因而建议16字节为好。
太长的话有两点影响:1.降低HFile的存储效率,需要话更多的空间存储不包含实际数据的Rowkey。2.会使MemStore的缓存效率下降,缓存大小固定,Rowkey越长,能缓存的数据个数越少。
2.唯一原则
一个Rowkey只唯一标识一组数据,若出现两条数据的数据部分一样但Rowkey不一样,那么就不是同一条数据。
3.散列原则
设计的Rowkey应该是分布于各个Hbase节点上的,这样主要是为了防止出现热点,造成单个RegionServer服务器压力过大。
二、写优化与读优化
Rowkey在数据进行读写时及其重要。在写入时,当Rowkey足够分散,能均匀的写入不同的HRegionServer时,写入效率就会提升。在读取时,当Rowkey设计的足够好,就可以避免对所有数据进行扫描。甚至于仅需要扫描某个Region中的一部分数据即可。为了使写入和查询的效率进一步提高,可以对Rowkey进行一些设计。
1.写优化
写优化主要有三种技术层面的操作:hash值,加盐,和反转
- hash值
优点:一般使用MD5生成的hash值足够散列,能均匀分布。且hash值能讲部分变长字符串转化为定长字符串。
缺点:单纯的使用hash值容易使数据散乱的分布,当查找的时候会进行全表扫描,遍历所有region
- 加盐
所谓加盐就是指在一部分有实际含义的数据中添加一部分无实际含义的数据。
例如:将Rowkey直接设置为时间戳的话有可能造成大量的数据堆积在同一个region中。此时在时间戳之前添加一个随机的hash值就会使数据均匀分布且查找数据时可以按时间戳进行查找。
有如下三个时间戳timestamp1、timestamp2、timestamp3,若将时间戳作为Rowkey,可能三条数据都被存储在一个Region上。若对其分别进行加盐操作,在时间戳之前加上一个分区号,此时三个时间戳变为字符串 0timestamp1、1timestamp2、2timestamp3。此时首位变成了不同的数,也更容易分散到不同的Region中
优点:确保Rowkey在包含实际意义的情况下也能够均匀分布在Region中。
缺点:读取时依然需要遍历所有region
- 反转
反转操作一般可以用于时间戳,此时反转后的时间戳作为Rowkey的一部分时,既能使Rowkey分散于各个Region,又方便捕获数据的最新版本。
2.读优化
相比于写优化,读优化是一个复杂的议题。原因在于,写优化通常只需要确保Rowkey不会影响数据在Region中的分布。而读优化则依据场景的不同设计不同的Rowkey去缩小扫表范围。
在上一小节对写优化方法的总结中,反转操作是读优化中常用的,主要是为了方便获取最新数据。
下面举两个应用场景下的读优化:
1.目标:在Hbase中存储用户订单状态
Rowkey:反转订单id+反转时间戳
通过反转订单id能避免所有数据存储在同一个Region中的情况,通过反转时间可以便于获取最新订单。
rowkey可以表示为:reverse(userId) + (Long.MAX_VALUE - timestamp)
注意:此处时间戳反转使用(Long.MAX_VALUE - timestamp)。主要是为了方便查询。如果要查询某段时间的操作记录,则使用如下方法:
startRow是[userId反转] [Long.MAX_VALUE - 结束时间]
stopRow是[userId反转] [Long.MAX_VALUE - 起始时间]
2.目标:存储最近10分钟的热点数据
Rowkey:两位随机数Salt + eventId + Date + kafka的offset
其中两位随机数用于使数据写入时均匀分布在不同的Region中,后两个eventId和Date则由查询语句的查询条件所决定。如果查询之前总是能获取到eventId和某一个数据字段,则将两个字段放入Rowkey中。
kafka的offset则是为了确保获取最新的数据。
相关文章:
Hbase中Rowkey的设计方法
Hbase中Rowkey的设计方法 过去对于Rowkey设计方法缺乏理解,最近结合多篇博主的文章,进行了学习。有不少心得体会。总结下来供后续学习和回顾。 一、设计Rowkey的三个原则 1.长度原则:长度不能太长,小于100个字节。可以偏端一些…...
Python基础总结之functools.wraps介绍与应用
Python基础总结之functools.wraps介绍与应用 在Python编程中,装饰器(decorator)是一种非常强大的工具,它允许开发者在不改变函数本身的情况下,动态地增加函数的功能。使用装饰器时,常常会用到 functools.wr…...
UE5基础1-下载安装
目录 一.下载 二.安装 三.安装引擎 四.其他 简介: UE5(Unreal Engine 5)是一款功能极其强大的游戏引擎。 它具有以下显著特点: 先进的图形技术:能够呈现出令人惊叹的逼真视觉效果,包括高逼真的光影、材…...
前端实现获取后端返回的文件流并下载
前端实现获取后端返回的文件流并下载 方法一:使用Axios实现文件流下载优点缺点 方法二:使用封装的Request工具实现文件流下载优点缺点 方法三:直接通过URL跳转下载优点缺点 结论 在前端开发中,有时需要从后端获取文件流࿰…...
Windows下对于Qt中带 / 的路径的处理
在Windows下,如果你想使用操作系统的分隔符显示用户的路径,请使用 toNativeSeparators()。 请看以下代码: void Player::on_playBtn_clicked() {if (this->m_url.isEmpty()) {openMedia();if (this->m_url.isEmpty())return;}qDebug(…...
[leetcode]swap-nodes-in-pairs
. - 力扣(LeetCode) class Solution { public:ListNode* swapPairs(ListNode* head) {ListNode* dummyHead new ListNode(0);dummyHead->next head;ListNode* temp dummyHead;while (temp->next ! nullptr && temp->next->next !…...
国思RDIF.vNext全新低代码快速开发框架平台6.1版本发布(支持vue2、vue3)
1、平台介绍 RDIF.vNext,全新低代码快速开发集成框架平台,给用户和开发者最佳的.Net框架平台方案,为企业快速构建跨平台、企业级的应用提供强大支持。 RDIF.vNext的前身是RDIFramework框架,RDIF(Rapid develop Integrate Framewor…...
中国地市分布图
原文链接https://mp.weixin.qq.com/s?__bizMzUyNzczMTI4Mg&mid2247693904&idx1&snb54884975272eaecb1d0564cafc128d3&chksmfa76a96dcd01207b939b8852a08eea9852eeffa8cc51a3af055dfca5c999e93301237e95901b&token1851596113&langzh_CN#rd...
HCIA11 网络安全之本地 AAA 配置实验
AAA 提供 Authentication(认证)、Authorization(授权)和 Accounting(计费)三种安全功能。 • 认证:验证用户是否可以获得网络访问权。 • 授权:授权用户可以使用哪些服务。 •…...
用Python处理Excel的资源
用Python处理Excel的资源 python-excel 读写Excel文件 openpyxl openpyx文档l 读写Excel2010文件(即xlsx) openpyxl示例: from openpyxl import Workbook wb Workbook()# 获取active worksheet ws wb.active# 给单元格赋值 ws[A1] 4…...
2024年中国移动游戏市场研究报告
来源:点点数据: 近期历史回顾: 面向水泥行业的5G虚拟专网技术要求(2024).pdf 2024年F5G-A绿色万兆全光园区白皮书.pdf 2024年全球废物管理展望报告.pdf 内容管理系统 2024-2025中国羊奶粉市场消费趋势洞察报告.pdf 20…...
JS-12-es6常用知识-async
目录 1. 定义与概述 2. 使用方法 3. 注意事项 4. 应用场景 5. 示例代码 6.总结 async 是 JavaScript(包括 TypeScript)中的一个关键字,用于声明一个函数为异步函数。async其实是一个promise的语法糖,以下是关于 async 的详细…...
使用winscp 通过中转机器(跳板机、堡垒机)密钥远程连接服务器,保姆级别教程
1.winscp下载地址 winscp下载 2.安装自己选择位置 3.连接服务器 到这里,基本就是没有壁垒机的就可直接连接,传递文件 4.配置中转服务器(壁垒机、跳板机) 选择高级选项 配置utf-8的编码格式 配置中转服务器(壁垒机、跳板机) 设置中专机的密码或者私钥 配置私钥...
力扣-1984. 学生分数的最小差值
文章目录 力扣题目工程代码C实现python实现 力扣题目 给你一个 下标从 0 开始 的整数数组 nums ,其中 nums[i] 表示第 i 名学生的分数。另给你一个整数 k 。 从数组中选出任意 k 名学生的分数,使这 k 个分数间 最高分 和 最低分 的 差值 达到 最小化 。…...
激动人心的LayerDiffusion终于可以在ComfyUI中使用了
一、什么是LayerDiffusion 随着Stable Diffusion等散射模型的蓬勃发展,人工智能图形生成进入了一个崭新的阶段。我们可以仅仅通过文字提示,就可以让AI模型为我们生成逼真的图像。但是,目前主流的AI生成模型大多只能生成普通的RGB图像,对生成具有透明通道的图片能力还非常有限。…...
【JVM】finalize() 方法的定义与作用
finalize() 方法的定义与作用 定义 finalize() 方法是 Java 中的一种特殊方法,定义在 java.lang.Object 类中。它在对象被垃圾回收之前由垃圾回收器调用,用于执行清理操作。 方法签名: protected void finalize() throws Throwable作用 …...
这10个前端库,帮我在工作中赢得了不少摸鱼时间!!
文章目录 前言1、dayjs2、 lodash3、 Quill4、 crypto-js5、 viewerjs6、 localforage7、 vconsole8、 uuid9、 copy-text-to-clipboard10、 classnames前言 通过高效的工具提高工作效率,从而有更多的时间来处理其他重要的任务,或者……摸鱼。没错!就是摸鱼。毕竟,提高效率…...
(2024最新)CentOS 7上在线安装MySQL 5.7
在CentOS 7上安装MySQL 5.7并配置允许远程连接,以下是详细步骤: 1. 添加MySQL官方存储库 首先,下载并添加MySQL的官方存储库。默认情况下,添加的存储库可能会包含最新的MySQL版本(如MySQL 8.0),…...
【C++高阶】C++继承学习手册:全面解析继承的各个方面
📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C “ 登神长阶 ” 🤡往期回顾🤡:模板进阶 🌹🌹期待您的关注 🌹🌹 继承 📖1. 继承的概念及定义…...
使用GPT-soVITS再4060下2小时训练声音模型以及处理断句带来的声音模糊问题
B站UP主视频 感谢UP主“白菜工厂1145号员工”的“熟肉”,我这篇笔记就不展示整一个训练和推理流程,重点写的4060该注意的一些事项。如何解决断句模糊的问题,在本篇笔记的最末尾。 相关连接: 原项目github UP主的说明文档 1、训…...
终极指南:Certbot多语言环境配置与错误处理全攻略
终极指南:Certbot多语言环境配置与错误处理全攻略 【免费下载链接】certbot Certbot is EFFs tool to obtain certs from Lets Encrypt and (optionally) auto-enable HTTPS on your server. It can also act as a client for any other CA that uses the ACME prot…...
EcomGPT-7B部署教程:WSL2环境下Windows用户运行电商AI助手完整流程
EcomGPT-7B部署教程:WSL2环境下Windows用户运行电商AI助手完整流程 1. 环境准备与系统要求 在开始部署EcomGPT-7B之前,我们需要确保你的Windows系统满足基本要求。这个电商AI助手专门为电商从业者设计,能够帮你自动处理商品分类、属性提取、…...
java+vue基于springboot框架的骑行俱乐部交流论坛活动组织系统的设计与开发
目录摘要开发技术源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 该系统基于SpringBoot后端框架与Vue.js前端框架,设计并实现了一个面向骑行爱好者的交流论坛与活动组织平台。系统整合了用户管理、活动发布、论坛讨论、…...
Qwen3-14B效果可视化:生成代码注释、SQL优化建议与周报总结的真实截图
Qwen3-14B效果可视化:生成代码注释、SQL优化建议与周报总结的真实截图 1. 模型简介 Qwen3-14b_int4_awq是基于Qwen3-14b模型的int4量化版本,采用AngelSlim技术进行压缩优化,专门用于各类文本生成任务。这个量化版本在保持模型性能的同时&am…...
新手入门:借助快马AI生成你的第一个推特内容抓取页面
最近想做个能展示推特帖子信息的小页面,但作为新手,一想到要处理网络请求、解析数据、更新网页这些步骤就有点头大。好在发现了InsCode(快马)平台,它有个很酷的功能:你只需要用文字描述你想要什么,AI就能帮你生成可运行…...
Gemini 2.5 Flash、Grok 3 与Claude 4 Sonnet:三大模型实战场景性能横评
1. 三大模型基础特性与定位差异 第一次接触Gemini 2.5 Flash、Grok 3和Claude 4 Sonnet时,最直观的感受就是它们截然不同的"性格特征"。这就像面对三个不同专业背景的助手:一个像反应敏捷的实习生,一个像严谨的工程师,还…...
CAN总线抗干扰实战:60R+60R+电容方案如何让你的信号更稳定(附波形对比)
CAN总线抗干扰实战:60R60R电容方案如何让你的信号更稳定(附波形对比) 在工业自动化、汽车电子等复杂电磁环境中,CAN总线的信号稳定性直接关系到整个系统的可靠性。许多工程师都遇到过这样的困扰:明明按照标准设计了120…...
机器学习分类任务中,如何用Python快速计算混淆矩阵?附完整代码示例
机器学习分类任务实战:从混淆矩阵到核心指标的全流程解析 在机器学习分类任务中,模型性能评估是项目落地的关键环节。许多初学者在训练出模型后,面对各种评估指标往往感到困惑——准确率98%的模型真的优秀吗?为什么精确率和召回率…...
题目: 复合材料缠绕压力容器复合材料的概率断裂模型
摘要 本文建立了一个用于模拟单向复合材料断裂过程的概率数值模型。该模型的模拟算法充分考虑了碳纤维的随机分布、材料力学性能的分散性以及各结构单元的断裂行为。通过对复合材料缠绕压力容器用复合材料进行多变量拉伸数值实验,分析了其变形与断裂的规律。结果表明…...
GESP2026年3月认证C++一级( 第三部分编程题(2)数字替换)
一、🌟故事:Alice讨厌数字41、Alice 是一个很可爱的同学,不过她有一个小小的习惯:她 不喜欢数字 4。(1)因为在很多地方:4 的谐音像 “死”(2)但她特别喜欢:8因…...
