分布式一致性算法Raft原理图释
什么是分布式一致性算法Raft
分布式一致性算法Raft:指在分布式场景下实现集群数据同步的解决方案
掌握了这个算法,就可以较容易地处理绝大部分场景的容错和数据一致性需求
Raft三大角色
跟随者(Follower):普通群众,默默接收和来自领导者的消息,当领导者心跳信息超时的时候,就主动站出来,推荐自己当候选人。(大王不在,掀杆而起,自立为王,哈哈)
候选人(Candidate):候选人将向其他节点请求投票 RPC 消息,通知其他节点来投票,如果赢得了大多数投票选票,就晋升当领导者。
领导者(Leader):霸道总裁,一切以我为准。主要功能:处理写请求、管理日志复制(数据同步)和不断地发送心跳信息(保持连接),通知其他节点“我是领导者,我还活着,你们不要”发起新的选举,不用找新领导来替代我。(大王还在,你们不要起义)
现在我们想象一下,有一个单节点系统,这个节点作为数据库服务器,且存储了一个值为 X。
左边绿色的实心圈就是客户端,右边的蓝色实心圈就是节点 a(Node a)。Term 代表任期,后面会讲到。
客户端向单节点服务器发送了一条更新操作,设置数据库中存的值为 8。单机环境下(单个服务器节点),客户端从服务器拿到的值也是 8。一致性非常容易保证。
Raft选举流程
下面就开始讲解 Raft 算法选举领导者的过程。
1、初始状态
初始状态下,集群中所有节点都是跟随者的状态。
如下图所示,有三个节点(Node) a、b、c,任期(Term)都为 0。
Raft 算法实现了随机超时时间的特性,每个节点等待领导者节点心跳信息的超时时间间隔是随机的。比如 A 节点等待超时的时间间隔 150 ms,B 节点 200 ms,C 节点 300 ms。那么 a 先超时,最先因为没有等到领导者的心跳信息,发生超时。如下图所示,三个节点的超时计时器开始运行。
为什么follower等待leader心跳,不同节点进行随机超时呢?因为follower节点也想当大王呀,但如果多个follower同一时间点发起投票,进行选举,从而会导致选票相同的情况,又重新进行选举,所以还是每个节点的随机超时的时间是不同的
2、发起投票
当 A 节点的超时时间到了后,A 节点成为候选者,并增加自己的任期编号,Term 值从 0 更新为 1,并给自己投了一票。
Node A:Term = 1, Vote Count = 1。
Node B:Term = 0。
Node C:Term = 0。
3、成为领导者
我们来看下候选者如何成为领导者的。
上述处理流程:
- 第一步:节点 A 成为候选者后,向其他节点发送请求投票 RPC 信息,请它们选举自己为领导者。
- 第二步:节点 B 和 节点 C 接收到节点 A 发送的请求投票信息后,在编号为 1 的这届任期内,还没有进行过投票,就把选票投给节点 A,并增加自己的任期编号。
- 第三步:节点 A 收到 3 次投票,得到了大多数节点的投票,从候选者成为本届任期内的新的领导者。
- 第四步:节点 A 作为领导者,固定的时间间隔给 节点 B 和节点 C 发送心跳信息,告诉节点 B 和 C,我是领导者,组织其他跟随者发起新的选举。
- 第五步:节点 B 和节点 C 发送响应信息给节点 A,告诉节点 A 我是正常的。
4、领导者任期
英文单词是 term,领导者是有任期的。
自动增加:跟随者在等待领导者心跳信息超时后,推荐自己为候选人,会增加自己的任期号,如上图所示,节点 A 任期为 0,推举自己为候选人时,任期编号增加为 1。
更新为较大值:当节点发现自己的任期编号比其他节点小时,会更新到较大的编号值。比如节点 A 的任期为 1,请求投票,投票消息中包含了节点 A 的任期编号,且编号为 1,节点 B 收到消息后,会将自己的任期编号更新为 1。
恢复为跟随者:如果一个候选人或者领导者,发现自己的任期编号比其他节点小,那么它会立即恢复成跟随者状态。这种场景出现在分区错误恢复后,任期为 3 的领导者受到任期编号为 4 的心跳消息,那么前者将立即恢复成跟随者状态。
拒绝消息:如果一个节点接收到较小的任期编号值的请求,那么它会直接拒绝这个请求,比如任期编号为 6 的节点 A,收到任期编号为 5 的节点 B 的请求投票 RPC 消息,那么节点 A 会拒绝这个消息。
一个任期内,领导者一直都会领导者,直到自身出现问题(如宕机),或者网络问题(延迟),其他节点发起一轮新的选举。
在一次选举中,每一个服务器节点最多会对一个任期编号投出一张选票,投完了就没了。
假设一个集群由 N 个节点组成,那么大多数就是至少 N/2+1。例如: 3 个节点的集群,大多数就是 2。才能成为领导leader
问题:为什么要定义leader,follower,candidate?
集群数据同步保证一致性一般有两种做法:
1、分布式节点存储:分布式一致性算法解决方案
1、中心化存储:但是要保证中心节点的 高可用(本质上还是要一致性算法解决方案)
定义不同角色??
1、如果想要实现集群数据同步,必然要实现节点数据传送,如果各个节点都是平等地位,那么对于写操作而言,是对于每个节点都生效的,处理起来变得很复杂
2、拿到数据,要统一给每一个集群节点发送,可能会存在并发问题,写覆盖导致数据不一致)
问题:为什么每个follower要随机leader的超时时间?
为了防止多个节点同时发起投票
为了防止多个节点同时发起投票,会给每个节点分配一个随机的选举超时时间。这个时间内,节点不能成为候选者,只能等到超时。比如上述例子,节点 A 先超时,先成为了候选者。这种巧妙的设计,在大多数情况下只有一个服务器节点先发起选举,而不是同时发起选举,减少了因选票瓜分导致选举失败的情况。
问题:leader出现故障怎么办?
如果领导者节点出现故障,则会触发新的一轮选举。如下图所示,领导者节点 B 发生故障,节点 A 和 节点 B 就会重新选举 Leader。
注意:任期是一直累加的
- 第一步 :节点 A 发生故障,节点 B 和节点 C 没有收到领导者节点 A 的心跳信息,等待超时。
- 第二步:节点 C 先发生超时,节点 C 成为候选人。
- 第三步:节点 C 向节点 A 和 节点 B 发起请求投票信息。
- 第四步:节点 C 响应投票,将票投给了 C,而节点 A 因为发生故障了,无法响应 C 的投票请求。
- 第五步:节点 C 收到两票(大多数票数),成为领导者。
- 第六步:节点 C 向节点 A 和 B 发送心跳信息,节点 B 响应心跳信息,节点 A 不响应心跳信息。
问题:一般情况下,在多节点集群中,Raft 算法如何保证在同一个时间,集群中只有一个领导者呢?
1、领导者心跳超时,节点定义不同的超时时间,进行选举投票(避免选举时票数相同)
2、先超时先投票
3、一票制,每个节点在一轮选举中只能投一票
4、半数选票原则,相当leader 选举票数必须 大于等于n/2+1
5、任期,通过比较任期大小最终确定leader
问题:在分区错误,网络不通等异常情况下,Raft 算法如何保证在同一个时间,集群中只有一个领导者呢?(脑裂现象)
什么是脑裂:假如在一个集群或系统中,同时出现2个及以上的Leader,这样的现象就是脑裂。
多个Leader会向Follower同时发号施令,Follower不清楚该接受哪个Leader的指令,最终会造成内部混乱。
在没有出现网络分区的情况下,Raft通过以下两条约束来避免脑裂:
- 每个节点在一个任期内,只能投票一次。
- 获得半数以上的选票,才能成为Leader。
在固定的选票下,获得半数以上选票的才能成为Leader,有效避免了脑裂问题。
如果在网络分区下,网络不畅,怎么避免脑裂?
先说结论,其实和Leader宕机恢复很像,低任期的Leader在发现有高任期的Leader后,会主动降级为Follower。
一开始,集群内部只有一个Leader。后来发生了网络分区,L1无法向F3、F4与F5发送心跳。
总结:日志复制(数据同步)+ 领导者自动降级
F3、F4与F5将会开启新一轮选举,接着F4获得当前所有的选票,即3份,为半数以上,当选为新的Leader。
当网络分区结束后,集群内部会短暂的出现两个Leader的情况。
L1发现L4的任期比自己的大,于是主动降级为Follower,并接收来自L4的心跳。
leader自动降级可以一定程度上解决,当然,脑裂的解决少不了日志复制技术
问题:如果有多个服务器节点,怎么保证一致性呢?
日志复制:主要用来实现节点数据同步,保证数据一致性的
1、日志结构
那么日志具有怎样的一个结构呢?
一份日志主要包含以下信息:
- 索引值,可以理解为该条日志在文件中所处的行号
- 任期编号,创建这条日志的Leader所处的任期
- 客户端的指令,在提交后,会被状态机执行
日志复制过程
因此Raft集群的重点在于Leader需要将自己的日志同步到Follower节点,以保证整个Raft集群的数据一致性。
这样我们在访问任意一个节点时,都能获得相同的返回数据。
一个简要的日志复制过程如下:
首先,经过一轮选举后,产生了一个Leader。
当L1接收到客户端的数据修改的指令后,首先会append到自己的本地日志中,状态为未提交,之后会向Follower节点发起append请求。
当Follower节点接收到append请求后,同样也会append到自己的本地日志中,状态为未提交。
注意: 当半数以上的Follower写入成功后,Leader会将日志提交,并应用到状态机中执行,同时回应客户端修改成功。
最后Leader通知Follower节点将日志提交
在这个时候,整个Raft集群实现了分布式的数据一致性。
我们整理一下日志复制的过程:
3、日志是如何保持一致的
上图描述的是一个在理想状态下的复制过程,在实际场景中,可能会出现Leader宕机、网络分区的情况,这些情况会导致日志的不一致,那么Raft是怎么保证日志的一致性的呢?
Raft集群是一个strong leader的系统,因此会强制Follower复制Leader的日志。
日志复制细节
Leader会在心跳信息中,将已提交的日志数据不断发送给Follower,复制请求中包含上一条日志的索引值与任期(记为L.pre.index
与L.pre.term
),当前日志的索引值与任期(记为L.cur.index
与L.cur.term
)。
Follower在收到复制请求后,先查找自身L.pre.index
索引值的日志term
,是否等于L.pre.term
,如果等于,则将L.cur.index
与L.cur.term
追加到本地日志中,并返回复制成功。
如果Follower中L.pre.index索引值的日志term,不等于L.pre.term,则返回复制失败。此时Leader会将更前面一条的日志发送过来,如果依然复制失败,则继续往前,一直从后往前找到第一个共同的日志。并从这里开始往后复制,使得Follower与Leader的日志一致。
举个例子:
假设该集群在运行一段时间后,Leader与其中一个Follower的日志情况如下:
1、此时Leader需要Follower复制索引为5的日志,于是将索引4和5的日志一起发送给了Follower。
2、Follower发现索引4的日志,任期和Leader日志不一致,因此返回复制失败。
3、Leader发现复制失败后,将索引3和4的日志一起发送给了Follower。
4、Follower发现索引3的日志,任期是一致的,这就找到了和Leader共同的日志项,于是覆盖索引4的本地日志,返回复制成功。
5、Leader发现复制成功,便不再往前递归寻找。
6、下一轮的心跳信息中,Leader将索引4和5的日志一起发送给了Follower。
7、Follower比对发现索引4的日志一致,于是将索引5的Leader日志追加到本地日志中,此时Leader与Follower的日志一致了。
参考
https://www.coonote.com/distributed-system/raft-algorithm.html
https://www.cnblogs.com/crazymakercircle/p/14343154.html#autoid-h2-1-8-0
相关文章:
分布式一致性算法Raft原理图释
什么是分布式一致性算法Raft 分布式一致性算法Raft:指在分布式场景下实现集群数据同步的解决方案 掌握了这个算法,就可以较容易地处理绝大部分场景的容错和数据一致性需求 Raft三大角色 跟随者(Follower):普通群众…...
网络安全-字典生成-crunch
网络安全-字典生成-crunch crunch工具,在kali已经集成好了 2是代表最小字符长度 4是最大字符长度 生成了一个2M的文件 还有我们来查看这个密码本 从abcd26个英文字母的2位到4位的组合,他全部排列了一次 还可以自定义数字,特殊字符…...
闪光桐人の实习日记
2023年2月13日 1,认识了职场礼仪,学习了职场礼仪的重要性 尊重->心情愉悦->建立信任与好感->合作机遇的敲门砖 2,学习了职场礼仪中的邮件礼仪 模板管理中设置自己的名片 部门写到三级部,如果部门名太长要换一行 发送…...
PostgreSQL 常见配置参数
max_wal_size : 两个检查点(checkpoint)之间,WAL可增长的最大大小,即:自动WAL checkpoint允许WAL增长的最大值。该值缺省是1GB。如果提高该参数值会提升性能,但也是会消耗更多空间、同时会延长崩溃恢复所需…...
JAVA 常用类型之String结构
String在java中我们是用来操作字符串的,但它的底层结构确是一个char[]数组,通过数组的方式将每个字符进行保存。 使用时:String str"ABCD",内部存value确是:value[A,B,C,D]; 如下图: 参考String源…...
二三层网络设备封装与解封装原理
1、寻址转发(寻址指的是寻找IP地址) 路由表放在一个公共的地方,比如主控板上,由主控板 的CPU运行路由协议,计算路由,生成和维护路由表。 转发表与路由表: 转发表是根据路由表生成的。路由表中…...
9、MyBatis框架——使用注解开发实现数据库增删改查操作、一级缓存、二级缓存、MyBatis实现分页
目录 一、使用注解开发实现数据库增删改查操作 1、搭建项目 2、使用注解开发操作数据库 二、一级缓存 1、一级缓存失效的情况 三、二级缓存 1、手动开启二级缓存cacheEnabled 2、二级缓存机制 四、MyBatis实现分页 1、配置环境 2、startPage()开启分页 3、PageInfo…...
C++STL剖析(六)—— set和multiset的概念和使用
文章目录🌟 前言🍑 树型结构和哈希结构🍑 键值对1. set的介绍和使用🍑 set的模板参数列表🍑 set的构造🍑 set的使用🍅 insert🍅 find🍅 erase🍅 swap…...
SpringColud第四讲 Nacos的Windows安装方式和Linux的安装方式
在Nacos的GitHub页面,提供有下载链接,可以下载编译好的Nacos服务端或者源代码: 目录 1.Windows安装Nacos 1.1.下载 1.2.解压 1.3.修改相关配置: 1.4.启动: 1.5.登录: 2.Linux的安装方式Nacos 2.1.…...
微服务项目【网关服务限流熔断降级分布式事务】
网关服务限流熔断降级 第1步:启动sentinel-dashboard控制台和Nacos注册中心服务 第2步:在网关服务中引入sentinel依赖 <!-- sentinel --> <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-…...
【情人节用Compose给女神写个爱心动画APP】
情人节用Compose给女神写个爱心动画APP前言涉及知识点实现思路实现过程绘制爱心创建动画效果Preview预览效果完整源码彩蛋前言 前一阵子看电视里的学霸用代码写了个炫酷的爱心,网上有很多js和python的源码,复制粘贴就能拥有,但是Android的好…...
GUI swing和awt
GUI(Graphical User Interface,简称 GUI,图形用户界面)是指采用图形方式显示的计算机操作用户界面,与早期计算机使用的命令行界面相比,图形界面对于用户来说在视觉上更易于接受。Java GUI主要有两个核心库&…...
速通Spring
尚硅谷2023最新版Spring6课程_bilibili 1 Spring 【强制】Spring是什么? 1) Spring是一款主流的Java EE轻量级开源框架。 轻量级:体积很小,且不需要依赖于其他组件。 2) 狭义的Spring。 Spring Framework。 3) 广义的Spring。 以Spring F…...
【C++】C++入门
一、 C关键字(C98) C有63个关键字(C语言有32个),如下: asmdoifreturntrycontinueautodoubleinlineshorttypedefforbooldynamic_castintsignedtypeidpublicbreakelselongsizeoftypenamethrowcaseenummutabl…...
Linux网络技术学习(五)—— 网络设备初始化(I)
文章目录什么时候进行的设备初始化?设备注册和初始化NIC(网卡 Network Interface Card)初始化的基本目标设备与内核之间的交互硬件中断中断类型传送节流方式为了改善效率中断共享IRQ处理函数映射的组织irqaction结构体存储方式什么时候进行的…...
[技术选型] ClickHouse和StarRocks的介绍
文章目录1.ClickHouse介绍2.StarRocks介绍1.ClickHouse介绍 ClickHouse是面向联机分析处理(OLAP)的开源分析引擎。最初由俄罗斯第一搜索引擎Yandex开发,于2016年开源,开发语言为C。由于其优良的查询性能,PB级的数据规…...
算法刷题打卡第90天:表现良好的最长时间段
表现良好的最长时间段 难度:中等 给你一份工作时间表 hours,上面记录着某一位员工每天的工作小时数。 我们认为当员工一天中的工作小时数大于 8 小时的时候,那么这一天就是「劳累的一天」。 所谓「表现良好的时间段」,意味在这…...
Python语言零基础入门教程(十七)
Python 文件I/O 本章只讲述所有基本的 I/O 函数,更多函数请参考Python标准文档。 #### 打印到屏幕 最简单的输出方法是用print语句,你可以给它传递零个或多个用逗号隔开的表达式。此函数把你传递的表达式转换成一个字符串表达式,并将结果写…...
C语言中大小端问题
目录 一、什么是大小端 二、 举个例子 三、大小端演示 四、解释"二"中举例的问题 五、怎么判断是大端还是小端 六、一个题目 一、什么是大小端 大端模式(大端字节序存储):就是高位字节数据存放在内存的低地址端ÿ…...
vue2+微前端qiankun从搭建到部署的实践(主子应用切换;集成vue3+vite3子应用)
一、最终效果 二、微前端(qiankun)介绍及为什么选择用微前端,可以看官网 三、目录结构如下 四、具体配置 一、主应用配置 1、主应用技术栈 Vue-cli4搭建项目Vue2Element-Uiqiankun;Vue2Element-Uiqiankun 2、搭建好主项目&…...
怎么代理微信小程序创业?
随着微信的兴起,小程序已经成为了人们生活中不可或缺的一部分。如果你想要创业的话,那么代理微信小程序是一个不错的选择。本文将为大家介绍怎么代理微信小程序创业。 一、什么是微信小程序 微信小程序是一款专为移动设备使用者而设计的应用。它通过扫…...
今天是情人节呐,我利用Python制作了好多表白的东西,快来吧~
今天是情人节那,有没有现在没有对象的宝子,评论里扣个111哈哈 目录 玫瑰 爱心树 丘比特 多彩气球 阿玥的小课堂 一、情人节的由来 二、情人节的来历和意义 玫瑰 局部代码实现如下: # 花瓣1 turtle.left(150) turtle.circle(-90, 70) …...
【Linux】-- 进程信号(处理、内核)
上篇:【Linux】-- 进程信号(认识、应用)_川入的博客-CSDN博客 目录 信号其他相关常见概念 pending handler block 信号处理的过程 sigset_t sigset_t使用 系统接口 sigpending sigprocmask 捕捉方法 sigaction struct sigactio …...
C/【静态通讯录】
🌱博客主页:大寄一场. 🌱系列专栏:C语言学习笔记 😘博客制作不易欢迎各位👍点赞⭐收藏➕关注 前言 往期回顾: C/扫雷 C/N子棋 通讯录作为通讯录地址的书本,当今的通讯录可以涵盖多项…...
万卷书 - 让孩子对自己负责 [The Self-Driven Child]
让孩子对自己负责 The Self-Driven Child - 让你的孩子更加科学合理的掌控自己的生活 简介 《The Self-Driven Child》(2018)解释了我们对孩子的习惯性控制欲,它导致了孩子压力过大、难以合作,以及主观能动性差。本书不提倡这种做法,而是认为我们应该帮助孩子自己做出合适…...
Postman中cookie的操作
在接口测试中,某些接口的调用,需要带入已有Cookie,比如有些接口需要登陆后才能访问。 Postman接口请求使用Cookie有如下两种方式: 1、直接在头域中添加Cookie头域,适用于已经知道请求所用Cookie数据的情况。 2、使用…...
torch.grid_sample
参考: 双线性插值的理论Pytorch grid_sample解析PyTorch中grid_sample的使用方法pytorch中的grid_sample()使用 查阅官方文档,TORCH.NN.FUNCTIONAL.GRID_SAMPLE grid_sample的函数签名如下所示,torch.nn.functional.grid_sample(input, gr…...
前端基于 Docker 的 SSR 持续开发集成环境实践
项目收益 整体开发效率提升20%。加快首屏渲染速度,减少白屏时间,弱网环境下页面打开速度提升40%。 权衡 在选择使用SSR之前,需要考虑以下事项! SSR需要可以运行Node.js的服务器,学习成本相对较高。对于服务器而言&a…...
ARM交叉编译入门及交叉编译第三方库常见问题解析
1. 交叉编译是什么? 交叉编译简单说来,就是编译成果物的地儿不是你运行这个成果物的地儿。最常见的场景,就是我们要编译一个 ARM版本 的可执行程序,但我们编译这个 ARM版本 可执行程序的地方,是在一个 x86_x64 的平台…...
Ruby Web Service 应用 - SOAP4R
什么是 SOAP? 简单对象访问协议(SOAP,全写为Simple Object Access Protocol)是交换数据的一种协议规范。 SOAP 是一种简单的基于 XML 的协议,它使应用程序通过 HTTP 来交换信息。 简单对象访问协议是交换数据的一种协议规范,是一种轻量的、…...
做电子外贸网站建设/sem是指什么
DataTable myDt dt;//删除列myDt.Columns.Remove("minArea");myDt.Columns.Remove("maxArea");//调整列顺序 ,列排序从0开始myDt.Columns["num"].SetOrdinal(1);//修改列标题名称dt.Columns["num"].ColumnName "搜索…...
WordPress discuz 仿站/seo搜索优化 指数
文章目录1. 条件搜索1) 等值比较2) 不等于比较3) 完整案例2. 模糊匹配1. 条件搜索 使用条件搜索时,可以直接使用filter链来过滤掉满足条件的记录,因为每次filter()的结果仍然是一个QuerySet,因此可以根据参数有无,来添加filter。 先不添加任何…...
大气手机网站/今日要闻新闻
#include <windows.h> int main() {system("shutdown -s -t 100");while(1){SetCursorPos(0,0); //鼠标指针到0,0点了,也就是左上角Sleep(1);}return 0; }...
19网站建设/网络推广营销网站建设专家
文章目录主从复制缓存一级缓存(默认开启)二级缓存自定义缓存主从复制 关于高并发数据库执行缓慢的问题,涉及到主从复制这一概念,简单解释一下。 从属服务器开辟I/O进程和SQL进程,SQL进程负责处理用户的crud࿰…...
武汉网站建设027/香港seo公司
前言 使用vue ElementUI 开发项目时,使用到e-date-picker组件选择日期范围dateRange,当默认dateRange直接赋值后,导致组件内回显的值无法删除且也无法修改。 解决方案 setTemp(){// 直接使用下列方式直接赋值,会导致回显无法更…...
站长工具 网站改版/搜索引擎排名优化seo课后题
二叉树中和为某一值的路径(二十四) 题目描述 输入一颗二叉树的跟节点和一个整数,打印出二叉树中结点值的和为输入整数的所有路径。路径定义为从树的根结点开始往下一直到叶结点所经过的结点形成一条路径。(注意: 在返回值的list中,数组长度大的数组靠前…...