当前位置: 首页 > news >正文

浅析 Redis 主从同步与故障转移原理

我们在生产中使用 Redis,如果只部署一个 Redis 实例,当该实例宕机,到恢复之前都不可用;虽说 Redis 一般都用来做缓存,但不可用给业务系统带来的影响也是不小的,流量大时甚至会导致整个服务宕机。所以 Redis 的高可用也非常重要,Redis 的高可用简单来说就是增加冗余副本,将一份数据保存在多个实例上;即使有一个实例宕机,其他服务仍然可以对外提供服务,不影响业务使用。

一. Redis 主从同步

Redis 提供了主从模式(一主多从)来提高 Redis 的可用性,主从库之间采用的是读写分离

  • 读操作:主从库都能接收

  • 写操作:主库能接收,执行完后同步给从库

主从同步原理

首次全量同步

主从第一次同步会经历三个步骤:

(1)主从库建立连接,二者连接完成后开始同步。

(2)首次同步需要全量数据,主库会 fork 出一个子进程来生成 RDB 快照,接着将 RDB 文件发送给从库(不会阻塞主线程),从库收到后清空旧数据,最后加载 RDB 文件完成全量数据同步。

(3)在主库生成 RDB 后接收的命令会暂存到一块内存区域:replication buffer,当从库加载完 RDB 快照后,再将这块暂存的数据发送给从库执行,最终完成首次主从同步。

为什么要单独维护全量同步阶段的增量数据呢?

  • 单独维护是为了保证命令执行的顺序性,这批增量数据需要等到 RDB 文件加载完后再发送给从库,否则会因为先后顺序不同导致主从不一致。

当完成首次同步后,主从之间维护一个长连接,后续写命令通过这个长连接进行同步。

长连接因为网络问题断开了期间的写命令会丢吗?

  • 当发生网络分区导致长连接断开,主库也会将写命令暂存到一块环形的内存区域,等待连接恢复后将暂存的写命令发送给从库,保证主从一致

做主从复制的作用是?

数据冗余:主从复制实现了数据的热备份;

高可用:当主节点出现问题时,可以由从节点提供服务,实现快速的故障恢复;

负载均衡:在主从的模式下,配合读写分离,可以大大提供 Redis 整体的吞吐量。

二. Redis 故障转移

主从模式能做到数据备份,也能支持读写分离,但一旦主节点宕机,需要人工介入切换主节点

Redis 提供了哨兵机制保证 Master 出现故障时自动进行主从切换,也就是故障转移

哨兵机制

哨兵节点的作用分为三点:监控,选主,通知;一般哨兵会集群部署,原因是为了保证哨兵的高可用防止下线误判下线误判在下面分析)。

哨兵实现故障转移原理

1. 哨兵监控

Sentinel 节点会监控 matser、slave 及其他 Sentinel 节点的状态。这个是通过 Redis 自身的 pub/sub 机制实现的。Redis 的哨兵一共有三个定时监控任务,来完成节点的发现与监控。

  • 监控主从拓扑信息:每隔 10 s,每个 Sentinel 节点会向主从库发送 info 命令,来获取最新的拓扑结构;

  • Sentinel 集群节点之间交换信息:每隔 2 s,每个 Sentinel 节点会向 _sentinel_:hello 频道上发送自身的信息,以及对主节点的判断信息。这样,Sentinel 节点之间就可以交换信息。

  • 节点状态监控:每隔 1 s,每个 Sentinel 节点会向 master、slave 及其他 Sentinel 节点发送 ping 命令做心跳检测(服务端回复 pong 代表节点正常),来判断这些节点是否可达

2. 主观下线

Sentinel 每隔 1 s 会对数据节点发送 ping 命令做心跳检测,当节点超过 down-after-milliseconds 没有进行回复,Sentinel 会对该节点做失败判定,这个行为被称作主观下线

主观下线,顾名思义是主观的,可能会误判,假设主观下线后就进行主从切换,实际主库并没有发生故障,后续的选主和通知操作会带来额外的开销

发生误判的场景:网络拥塞、节点发生短暂网络分区,或是节点压力较大响应超时。

3. 客观下线

为了防止下线误判,只有当大多数的哨兵节点认为 master 下线才算真正下线,这个行为叫做客观下线

客观下线过程:

(1) 当某个 Sentinel 节点发生判断主库“主观下线”后,会给其他哨兵实例发送 is-master-down-by-addr 命令,其他哨兵节点会根据自己和主库的连接情况,做出 Y(赞同)或 N(反对)的响应。

(2) 当哨兵获取到了“客观下线”所需的赞成票数后,就可以标记主库为“客观下线”,这个所需要的票数由 quorum 配置项决定(例如,现在有 5 个哨兵,quorum 为 2,当两个哨兵判断主服务器下线后则触发故障转移)。

4.Sentinel Leader 选举

当发生了客观下线后,哨兵节点集群就会选出一个 Leader 来进行实际的故障转移操作。Redis 使用 Raft 算法来实现哨兵领导者的选举,大致过程如下:

(1)哨兵节点设置主服务器为“客观下线”后,向其他哨兵节点发送命令,表明希望自己来执行主从切换,其他哨兵节点会进行投票。

(2)当哨兵节点拿到半数以上的赞成票且票数大于等于哨兵配置文件中的 quorum 值就会成为 Leader。

Leader 选举的投票逻辑很简单:在这一轮投票中,如果没有投过票就回复同意,如果投过票就回复拒绝。

(3)如果此过程没有选出 Leader 则会等待故障超时间的 2 倍时长,然后进入下一轮选举。

什么情况会选不出 Leader?

哨兵集群能够成功投票,很大程度上取决于正常的网络传输。如果网络压力大或短暂阻塞就可能导致没有哨兵节点拿到半数以上的票。而网络问题一般都会持续一小段时间,所以在没有选出 Leader 后会等待一段时间再进入下一轮。

5. 故障转移

选出哨兵的 Leader 后就会进行故障转移,也就是从 slave 中选出一个新 master 替换故障 master,主要有以下判断标准:

(1)跟 master 断开链接的时长:如果一个 slave 和 master 的断开链接时长已经超过 down-after-milliseconds 的 10 倍,那哨兵就会认为该 slave 不适合被选为 master。

(2)slave 的优先级配置:slave priority 参数越小,优先级越高。

(3)主从复制进度:当 优先级 相同时,哪个 slave 和 master 的数据越接近,优先级越高。

(4)run id:如果 优先级配置主从复制进度 都相同,则哪个 slave 的 run id 越小,优先级越高。

选出 master 后,对它执行 slaveof no one 命令让其成为主节点,并对剩余 slave 节点发送命令让他们成为新 master 的从节点,最后和其他哨兵节点交换信息完成故障转移

主从切换过程中,是否能对外正常提供读写服务?

如果采用读写分离,还是可以正常处理读请求,但是对于写请求,服务端就无法处理了。如果需要应对写请求,业务系统中可以将写缓存的操作改成异步或放到队列处理。

脑裂问题

如果碰巧客观下线也误判会发生什么?

会发生脑裂。

脑裂就是在主从集群中同时有两个主节点,他们都能接收写请求。而不同的客户端会往不同的主节点上写数据,甚至导致数据丢失。

Redis 的脑裂一般发生在主从切换时原主库假故障的场景下:

当主库因为一些原因无法处理哨兵节点的心跳检测时,就会被判定为“客观下线”,接着就会进行主从切换,但在主从切换完成之前,原主库又恢复服务,就又会处理写请求,当主从切换完成后通知客户端之前就会有两个主节点,即发生脑裂。

Redis 的脑裂可能会造成数据丢失,根本原因是 Redis 内部没有通过共识算法来维护多个数据节点的强一致性,因为强一致性的成本太大,而 Redis 主打性能,所以 Redis 放弃 C(一致性) 而选择 A(可用性)。

相关文章:

浅析 Redis 主从同步与故障转移原理

我们在生产中使用 Redis,如果只部署一个 Redis 实例,当该实例宕机,到恢复之前都不可用;虽说 Redis 一般都用来做缓存,但不可用给业务系统带来的影响也是不小的,流量大时甚至会导致整个服务宕机。所以 Redis…...

MyBatis学习笔记(七) —— 特殊SQL的执行

7、特殊SQL的执行 7.1、模糊查询 模糊查询的三种方式: 方式1:select * from t_user where username like ‘%${mohu}%’ 方式2:select * from t_user where username like concat(‘%’,#{mohu},‘%’) 方式3:select * from t_u…...

计算机组成原理(1)--计算机系统概论

一、计算机系统简介1.计算机系统软硬件概念计算机系统由“硬件”和“软件”两大部分组成。所谓“硬件”,是指计算机的实体部分,它由看得见摸得着的各种电子元器件,各类光、电、机设备的实物组成,如主机、外部设备等。所谓“软件”…...

jdbc模板的基本使用

1.JdbcTemplate的开发步骤 <1>导入spring-jdbc和spring-tx坐标 <2>创建数据库表和实体 <3>创建JdbcTemplate对象 <4>执行数据库 2.JdbcTemplate快速入门 <1>导入坐标 <dependency><groupId>org.springframework</groupId><…...

JPA 注解及主键生成策略使用指南

JPA 注解 Entity 常用注解 参考&#xff1a;JPA & Spring Data JPA学习与使用小记 指定对象与数据库字段映射时注解的位置&#xff1a;如Id、Column等注解指定Entity的字段与数据库字段对应关系时&#xff0c;注解的位置可以在Field&#xff08;属性&#xff09;或Prope…...

【C语言刷题】找单身狗、模拟实现atoi

目录 一、找单身狗 1.暴力循环法 2.分组异或法 二、模拟实现atoi 1.atoi函数的功能 2.模拟实现atoi 一、找单身狗 题目描述&#xff1a;给定一个数组中只有两个数字是出现一次&#xff0c;其他所有数字都出现了两次。 编写一个函数找出这两个只出现一次的数字。 比如&…...

前端必会面试题指南

计算属性和watch有什么区别?以及它们的运用场景? // 区别computed 计算属性&#xff1a;依赖其它属性值&#xff0c;并且computed的值有缓存&#xff0c;只有它依赖的属性值发生改变&#xff0c;下一次获取computed的值时才会重新计算computed的值。watch 侦听器&#xff1a…...

C 语言—— 数组

【C 语言】数组1. 概念2. 声明3. 分类4. 初始化5. 赋值6. 附加语法7. VLA 的一些补充1. 概念 数组是存放一组 相同类型 的 有序 数据的一段 连续 空间。 2. 声明 TYPE identifier[static(optional) qualifiers(optional) expression(optional)] TYPE identifier[qualifiers(o…...

Oracle-RAC集群主机重启问题分析

问题背景: 在对一套两节点Oracle RAC19.18集群进行部署时&#xff0c;出现启动数据库实例就会出现主机出现重启的情况&#xff0c;检查发现主机重启是由于节点集群被驱逐导致​。 问题: 两节点Oracle RAC19.18集群,启动数据库实例会导致主机出现重启。 问题分析: 主机多次出现…...

Python每日一练(20230227)

目录 1. 路径交叉 ★★★ 2. 缺失的第一个正数 ★★★ 3. 寻找两个正序数组的中位数 ★★★ 附录 散列表 基本概念 常用方法 1. 路径交叉 给你一个整数数组 distance 。 从 X-Y 平面上的点 (0,0) 开始&#xff0c;先向北移动 distance[0] 米&#xff0c;然后向西移…...

Scratch少儿编程案例-算法练习-存款收益计算

专栏分享 点击跳转=>Unity3D特效百例点击跳转=>案例项目实战源码点击跳转=>游戏脚本-辅助自动化点击跳转=>Android控件全解手册点击跳转=>Scratch编程案例👉关于作者...

【Linux驱动开发100问】Linux驱动开发工程师在面试中常被问到的问题汇总

&#x1f947;今日学习目标&#xff1a;什么是Kconfig&#xff1f;如何使用Kconfig&#xff1f; &#x1f935;‍♂️ 创作者&#xff1a;JamesBin ⏰预计时间&#xff1a;10分钟 &#x1f389;个人主页&#xff1a;嵌入式悦翔园个人主页 &#x1f341;专栏介绍&#xff1a;Lin…...

每日学术速递2.27

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CL 1.FiTs: Fine-grained Two-stage Training for Knowledge-aware Question Answering 标题&#xff1a;FiTs&#xff1a;用于知识感知问答的细粒度两阶段训练 作者&#xff1a;Qichen…...

【数据库系统概论】基础知识总结

&#x1f339;作者:云小逸 &#x1f4dd;个人主页:云小逸的主页 &#x1f4dd;Github:云小逸的Github &#x1f91f;motto:要敢于一个人默默的面对自己&#xff0c;强大自己才是核心。不要等到什么都没有了&#xff0c;才下定决心去做。种一颗树&#xff0c;最好的时间是十年前…...

简单移动平均在量化中的应用(附Python实战代码)

在大多数金融产品的投资过程中,均线系统都是很重要的投资参考。一般来说,均线可以近似理解为某段时间内成交筹码的均价,它往往能帮助我们找到合适的支撑位和压力位。随着各种技术流派以及统计学的发展,从简单移动平均中逐渐衍生出了更多的均线计算方式,比如指数移动平均、…...

ChatGPT提高你日常工作的五个特点,以及如何使用它来提高代码质量

ChatGPT已经完全改变了代码开发模式。然而&#xff0c;大多数软件开发者和数据专家们仍然不使用ChatGPT来完善——并简化他们的工作。 这就是我们在这里列出提升日常工作效率和质量的5个不同的特点的原因。 让我们一起来看看在日常工作中如何使用他们。 警告&#xff1a;不要…...

spark datasourceV1和v2

datasourceV2 一文理解 Apache Spark DataSource V2 诞生背景及入门实战 https://zhuanlan.zhihu.com/p/83006243 2.3 Data source API v2 https://issues.apache.org/jira/browse/SPARK-15689 Because of the above limitations/issues, the built-in data source impleme…...

10种聚类算法的完整python操作示例

大家好&#xff0c;聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术&#xff0c;用于发现数据中的有趣模式&#xff0c;例如基于其行为的客户群。有许多聚类算法可供选择&#xff0c;对于所有情况&#xff0c;没有单一的最佳聚类算法。相反&#xff0c;最好探索一系…...

构建合作伙伴生态系统刻不容缓

合作伙伴关系管理(PRM)系统是否已死&#xff1f;向合作伙伴生态系统的转变将如何改变我们未来管理合作伙伴计划的方式&#xff1f; 自PC革命以来&#xff0c;间接销售和渠道营销一直普遍存在于技术领域&#xff0c;通过其他公司的销售团队和人脉来增加销售&#xff0c;是一种明…...

剑指 Offer 55 - I. 二叉树的深度(java解题)

剑指 Offer 55 - I. 二叉树的深度&#xff08;java解题&#xff09;1. 题目2. 解题思路3. 数据类型功能函数总结4. java代码1. 题目 输入一棵二叉树的根节点&#xff0c;求该树的深度。从根节点到叶节点依次经过的节点&#xff08;含根、叶节点&#xff09;形成树的一条路径&a…...

威胁行为者将旧漏洞武器化以发起勒索软件攻击

勒索软件运营商比以往任何时候都更加依赖未打补丁的系统来获得对受害者网络的初始访问权限。 一份新报告显示&#xff0c;攻击者正在互联网和暗网中积极搜索可用于勒索软件攻击的旧漏洞和已知漏洞。 其中许多缺陷已存在多年&#xff0c;对尚未修补或更新易受攻击系统的组织构…...

2023北京健博会/第十届中国国际大健康产博览会

China-DJK北京健博会&#xff0c;立足北京打造国内外大健康产业快速融合发展平台&#xff1b; 大健康时代&#xff1a;20年前没有健康产业&#xff0c;如今健康产业成了全球经济中唯“不缩水”的行业&#xff0c;早已被国际经济学界确定为“无限广阔的兆亿产业”。据机构数据&…...

Python学习笔记之环境搭建

Python学习笔记之环境搭建1. 下载Python2. Windows 安装最新Python3. Linux 安装最新PythonPython是一种编程语言&#xff0c;可以让您更快地工作并更有效地集成系统。 您可以学习使用Python&#xff0c;并立即看到生产力的提高和维护成本的降低。 Python是荷兰程序员吉多范罗苏…...

死锁的总结

哲学家死锁造成的原因&#xff1a;我有你需要的&#xff0c;但你已经有了 饥饿与死锁的区别 死锁一旦发生一定又饥饿现象&#xff0c;但是饥饿现象产生不一定是死锁 历史上对于死锁的声音 死锁的方案 前面两个都是不允许死锁出现 前面都是概念性的东西 后面我们研究如何破坏…...

强化学习RL 01~ 数学基础

目录 RL理解要点 1. RL数学基础 1.1 Random Variable 随机变量 1.2 概率密度函数 Probability Density Function(PDF) 1.3 期望 Expectation 1.4 随机抽样 Random Sampling 2. RL术语 Terminologies 2.1 agent、state 和 action 2.2 策略 policy π 2.3 奖励 reward …...

Java的运算符

目录 一、什么是运算符 二、算术运算符 1. 基本四则运算符&#xff1a;加减乘除模&#xff08; - * / %&#xff09; 2、增量运算符 - * % 3. 自增/自减运算符 -- 三、关系运算符 四、 逻辑运算符(重点) 1. 逻辑与 && 2. 逻辑或 || 3. 逻辑非 ! 4. 短路求值…...

扫地机器人(蓝桥杯C/C++)

题目描述 小明公司的办公区有一条长长的走廊&#xff0c;由 NN 个方格区域组成&#xff0c;如下图所示。 走廊内部署了 KK 台扫地机器人&#xff0c;其中第 ii 台在第 A_iAi​ 个方格区域中。已知扫地机器人每分钟可以移动到左右相邻的方格中&#xff0c;并将该区域清扫干净。…...

如何理解API?API 是如何工作的?(5分钟诠释)

大家可能最近经常听到 API 这个概念&#xff0c;那什么是API&#xff0c;它又有什么特点和好处呢&#xff1f; wiki 百科镇楼 …[APIs are] a set of subroutine definitions, protocols, and tools for building application software. In general terms, it’s a set of cle…...

PAT--1111 对称日

央视新闻发了一条微博&#xff0c;指出 2020 年有个罕见的“对称日”&#xff0c;即 2020 年 2 月 2 日&#xff0c;按照 年年年年月月日日 格式组成的字符串 20200202 是完全对称的。 给定任意一个日期&#xff0c;本题就请你写程序判断一下&#xff0c;这是不是一个对称日&a…...

前端纯函数和副作用概念,且在react上的体现详解

什么是纯函数 纯函数是这样一种函数&#xff0c;即相同的输入&#xff0c;永远会得到相同的输出的函数&#xff0c;而且没有任何可观察的副作用。 什么是副作用 副作用是在计算结果的过程中&#xff0c;系统状态的一种变化&#xff0c;或者与外部世界进行的可观察的交互。 个…...

易语言用电脑做网站服务器/网络营销的种类有哪些

stringstr1 Process.GetCurrentProcess().MainModule.FileName; //可获得当前执行的exe的文件名。 stringstr2Environment.CurrentDirectory; //获取和设置当前目录&#xff08;即该进程从中启动的目录&#xff09;的完全限定路径。 //备注 按照定义&…...

兰州迅豹网络/网站做优化一开始怎么做

Redisson官方文档 GetMapping("/hello")public String testRedissonClient(){//根据名字获取锁 只要锁名一样 就是同一把锁 第一个线程拿到这个锁 加锁 第二个线程拿到的就是 一个正在运行的加了锁的锁RLock mylock redissonClient.getLock("my-lock"…...

用国外服务器做赌博网站/厦门网络推广外包

析 构 方 法 封装&#xff0c;有一个叫构造函数 和构造函数对应的还有一种方法叫做析构。 class ren //一个类 是 人类 { public $mingzi &#xff1b;//成员变量 punction__destruct() //析构方法 { } } 析构方法&#xff0c;有什么做用&#xff1f;&#xff1f;什么时…...

网站做app服务端/互联网推广渠道

转载于:https://www.cnblogs.com/luoyinjie/p/10683853.html...

泉州专业网站建设哪家好/网站建设需要多少钱?

本发明涉及无线传感器网络领域&#xff0c;属于leach路由通信技术领域&#xff1a;。背景技术&#xff1a;&#xff1a;物联网技术飞速发展&#xff0c;无线传感器网络(wirelesssensornetworks&#xff0c;wsn)也逐渐成为互联网研究领域的热门话题&#xff0c;主要包含汇聚节点…...

北京网站建设联系电话/营销方式都有哪些

报数序列是一个整数序列&#xff0c;按照其中的整数的顺序进行报数&#xff0c;得到下一个数。其前五项如下&#xff1a; 1. 1 2. 11 3. 21 4. 1211 5. 111221 1 被读作 "one 1" ("一个一") , 即 11。11 被读作 "two 1s" (&…...