浅析 Redis 主从同步与故障转移原理
我们在生产中使用 Redis,如果只部署一个 Redis 实例,当该实例宕机,到恢复之前都不可用;虽说 Redis 一般都用来做缓存,但不可用给业务系统带来的影响也是不小的,流量大时甚至会导致整个服务宕机。所以 Redis 的高可用也非常重要,Redis 的高可用简单来说就是增加冗余副本,将一份数据保存在多个实例上;即使有一个实例宕机,其他服务仍然可以对外提供服务,不影响业务使用。
一. Redis 主从同步
Redis 提供了主从模式(一主多从)来提高 Redis 的可用性,主从库之间采用的是读写分离:

读操作:主从库都能接收
写操作:主库能接收,执行完后同步给从库
主从同步原理
首次全量同步
主从第一次同步会经历三个步骤:
(1)主从库建立连接,二者连接完成后开始同步。
(2)首次同步需要全量数据,主库会 fork 出一个子进程来生成 RDB 快照,接着将 RDB 文件发送给从库(不会阻塞主线程),从库收到后清空旧数据,最后加载 RDB 文件完成全量数据同步。
(3)在主库生成 RDB 后接收的命令会暂存到一块内存区域:replication buffer,当从库加载完 RDB 快照后,再将这块暂存的数据发送给从库执行,最终完成首次主从同步。
为什么要单独维护全量同步阶段的增量数据呢?
单独维护是为了保证命令执行的顺序性,这批增量数据需要等到 RDB 文件加载完后再发送给从库,否则会因为先后顺序不同导致主从不一致。
当完成首次同步后,主从之间维护一个长连接,后续写命令通过这个长连接进行同步。
长连接因为网络问题断开了期间的写命令会丢吗?
当发生网络分区导致长连接断开,主库也会将写命令暂存到一块环形的内存区域,等待连接恢复后将暂存的写命令发送给从库,保证主从一致。
做主从复制的作用是?
数据冗余:主从复制实现了数据的热备份;
高可用:当主节点出现问题时,可以由从节点提供服务,实现快速的故障恢复;
负载均衡:在主从的模式下,配合读写分离,可以大大提供 Redis 整体的吞吐量。
二. Redis 故障转移
主从模式能做到数据备份,也能支持读写分离,但一旦主节点宕机,需要人工介入切换主节点。
Redis 提供了哨兵机制保证 Master 出现故障时自动进行主从切换,也就是故障转移。
哨兵机制
哨兵节点的作用分为三点:监控,选主,通知;一般哨兵会集群部署,原因是为了保证哨兵的高可用和防止下线误判(下线误判在下面分析)。
哨兵实现故障转移原理
1. 哨兵监控
Sentinel 节点会监控 matser、slave 及其他 Sentinel 节点的状态。这个是通过 Redis 自身的 pub/sub 机制实现的。Redis 的哨兵一共有三个定时监控任务,来完成节点的发现与监控。
监控主从拓扑信息:每隔 10 s,每个 Sentinel 节点会向主从库发送 info 命令,来获取最新的拓扑结构;
Sentinel 集群节点之间交换信息:每隔 2 s,每个 Sentinel 节点会向 _sentinel_:hello 频道上发送自身的信息,以及对主节点的判断信息。这样,Sentinel 节点之间就可以交换信息。
节点状态监控:每隔 1 s,每个 Sentinel 节点会向 master、slave 及其他 Sentinel 节点发送 ping 命令做心跳检测(服务端回复 pong 代表节点正常),来判断这些节点是否可达。

2. 主观下线
Sentinel 每隔 1 s 会对数据节点发送 ping 命令做心跳检测,当节点超过 down-after-milliseconds 没有进行回复,Sentinel 会对该节点做失败判定,这个行为被称作主观下线。
主观下线,顾名思义是主观的,可能会误判,假设主观下线后就进行主从切换,实际主库并没有发生故障,后续的选主和通知操作会带来额外的开销。
发生误判的场景:网络拥塞、节点发生短暂网络分区,或是节点压力较大响应超时。
3. 客观下线
为了防止下线误判,只有当大多数的哨兵节点认为 master 下线才算真正下线,这个行为叫做客观下线。
客观下线过程:
(1) 当某个 Sentinel 节点发生判断主库“主观下线”后,会给其他哨兵实例发送 is-master-down-by-addr 命令,其他哨兵节点会根据自己和主库的连接情况,做出 Y(赞同)或 N(反对)的响应。
(2) 当哨兵获取到了“客观下线”所需的赞成票数后,就可以标记主库为“客观下线”,这个所需要的票数由 quorum 配置项决定(例如,现在有 5 个哨兵,quorum 为 2,当两个哨兵判断主服务器下线后则触发故障转移)。
4.Sentinel Leader 选举
当发生了客观下线后,哨兵节点集群就会选出一个 Leader 来进行实际的故障转移操作。Redis 使用 Raft 算法来实现哨兵领导者的选举,大致过程如下:
(1)哨兵节点设置主服务器为“客观下线”后,向其他哨兵节点发送命令,表明希望自己来执行主从切换,其他哨兵节点会进行投票。
(2)当哨兵节点拿到半数以上的赞成票且票数大于等于哨兵配置文件中的 quorum 值就会成为 Leader。
Leader 选举的投票逻辑很简单:在这一轮投票中,如果没有投过票就回复同意,如果投过票就回复拒绝。
(3)如果此过程没有选出 Leader 则会等待故障超时间的 2 倍时长,然后进入下一轮选举。
什么情况会选不出 Leader?
哨兵集群能够成功投票,很大程度上取决于正常的网络传输。如果网络压力大或短暂阻塞就可能导致没有哨兵节点拿到半数以上的票。而网络问题一般都会持续一小段时间,所以在没有选出 Leader 后会等待一段时间再进入下一轮。
5. 故障转移
选出哨兵的 Leader 后就会进行故障转移,也就是从 slave 中选出一个新 master 替换故障 master,主要有以下判断标准:
(1)跟 master 断开链接的时长:如果一个 slave 和 master 的断开链接时长已经超过 down-after-milliseconds 的 10 倍,那哨兵就会认为该 slave 不适合被选为 master。
(2)slave 的优先级配置:slave priority 参数越小,优先级越高。
(3)主从复制进度:当 优先级 相同时,哪个 slave 和 master 的数据越接近,优先级越高。
(4)run id:如果 优先级配置 和 主从复制进度 都相同,则哪个 slave 的 run id 越小,优先级越高。
选出 master 后,对它执行 slaveof no one 命令让其成为主节点,并对剩余 slave 节点发送命令让他们成为新 master 的从节点,最后和其他哨兵节点交换信息完成故障转移。
主从切换过程中,是否能对外正常提供读写服务?
如果采用读写分离,还是可以正常处理读请求,但是对于写请求,服务端就无法处理了。如果需要应对写请求,业务系统中可以将写缓存的操作改成异步或放到队列处理。
脑裂问题
如果碰巧客观下线也误判会发生什么?
会发生脑裂。
脑裂就是在主从集群中同时有两个主节点,他们都能接收写请求。而不同的客户端会往不同的主节点上写数据,甚至导致数据丢失。
Redis 的脑裂一般发生在主从切换时原主库假故障的场景下:
当主库因为一些原因无法处理哨兵节点的心跳检测时,就会被判定为“客观下线”,接着就会进行主从切换,但在主从切换完成之前,原主库又恢复服务,就又会处理写请求,当主从切换完成后通知客户端之前就会有两个主节点,即发生脑裂。
Redis 的脑裂可能会造成数据丢失,根本原因是 Redis 内部没有通过共识算法来维护多个数据节点的强一致性,因为强一致性的成本太大,而 Redis 主打性能,所以 Redis 放弃 C(一致性) 而选择 A(可用性)。
相关文章:
浅析 Redis 主从同步与故障转移原理
我们在生产中使用 Redis,如果只部署一个 Redis 实例,当该实例宕机,到恢复之前都不可用;虽说 Redis 一般都用来做缓存,但不可用给业务系统带来的影响也是不小的,流量大时甚至会导致整个服务宕机。所以 Redis…...
MyBatis学习笔记(七) —— 特殊SQL的执行
7、特殊SQL的执行 7.1、模糊查询 模糊查询的三种方式: 方式1:select * from t_user where username like ‘%${mohu}%’ 方式2:select * from t_user where username like concat(‘%’,#{mohu},‘%’) 方式3:select * from t_u…...
计算机组成原理(1)--计算机系统概论
一、计算机系统简介1.计算机系统软硬件概念计算机系统由“硬件”和“软件”两大部分组成。所谓“硬件”,是指计算机的实体部分,它由看得见摸得着的各种电子元器件,各类光、电、机设备的实物组成,如主机、外部设备等。所谓“软件”…...
jdbc模板的基本使用
1.JdbcTemplate的开发步骤 <1>导入spring-jdbc和spring-tx坐标 <2>创建数据库表和实体 <3>创建JdbcTemplate对象 <4>执行数据库 2.JdbcTemplate快速入门 <1>导入坐标 <dependency><groupId>org.springframework</groupId><…...
JPA 注解及主键生成策略使用指南
JPA 注解 Entity 常用注解 参考:JPA & Spring Data JPA学习与使用小记 指定对象与数据库字段映射时注解的位置:如Id、Column等注解指定Entity的字段与数据库字段对应关系时,注解的位置可以在Field(属性)或Prope…...
【C语言刷题】找单身狗、模拟实现atoi
目录 一、找单身狗 1.暴力循环法 2.分组异或法 二、模拟实现atoi 1.atoi函数的功能 2.模拟实现atoi 一、找单身狗 题目描述:给定一个数组中只有两个数字是出现一次,其他所有数字都出现了两次。 编写一个函数找出这两个只出现一次的数字。 比如&…...
前端必会面试题指南
计算属性和watch有什么区别?以及它们的运用场景? // 区别computed 计算属性:依赖其它属性值,并且computed的值有缓存,只有它依赖的属性值发生改变,下一次获取computed的值时才会重新计算computed的值。watch 侦听器:…...
C 语言—— 数组
【C 语言】数组1. 概念2. 声明3. 分类4. 初始化5. 赋值6. 附加语法7. VLA 的一些补充1. 概念 数组是存放一组 相同类型 的 有序 数据的一段 连续 空间。 2. 声明 TYPE identifier[static(optional) qualifiers(optional) expression(optional)] TYPE identifier[qualifiers(o…...
Oracle-RAC集群主机重启问题分析
问题背景: 在对一套两节点Oracle RAC19.18集群进行部署时,出现启动数据库实例就会出现主机出现重启的情况,检查发现主机重启是由于节点集群被驱逐导致。 问题: 两节点Oracle RAC19.18集群,启动数据库实例会导致主机出现重启。 问题分析: 主机多次出现…...
Python每日一练(20230227)
目录 1. 路径交叉 ★★★ 2. 缺失的第一个正数 ★★★ 3. 寻找两个正序数组的中位数 ★★★ 附录 散列表 基本概念 常用方法 1. 路径交叉 给你一个整数数组 distance 。 从 X-Y 平面上的点 (0,0) 开始,先向北移动 distance[0] 米,然后向西移…...
Scratch少儿编程案例-算法练习-存款收益计算
专栏分享 点击跳转=>Unity3D特效百例点击跳转=>案例项目实战源码点击跳转=>游戏脚本-辅助自动化点击跳转=>Android控件全解手册点击跳转=>Scratch编程案例👉关于作者...
【Linux驱动开发100问】Linux驱动开发工程师在面试中常被问到的问题汇总
🥇今日学习目标:什么是Kconfig?如何使用Kconfig? 🤵♂️ 创作者:JamesBin ⏰预计时间:10分钟 🎉个人主页:嵌入式悦翔园个人主页 🍁专栏介绍:Lin…...
每日学术速递2.27
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CL 1.FiTs: Fine-grained Two-stage Training for Knowledge-aware Question Answering 标题:FiTs:用于知识感知问答的细粒度两阶段训练 作者:Qichen…...
【数据库系统概论】基础知识总结
🌹作者:云小逸 📝个人主页:云小逸的主页 📝Github:云小逸的Github 🤟motto:要敢于一个人默默的面对自己,强大自己才是核心。不要等到什么都没有了,才下定决心去做。种一颗树,最好的时间是十年前…...
简单移动平均在量化中的应用(附Python实战代码)
在大多数金融产品的投资过程中,均线系统都是很重要的投资参考。一般来说,均线可以近似理解为某段时间内成交筹码的均价,它往往能帮助我们找到合适的支撑位和压力位。随着各种技术流派以及统计学的发展,从简单移动平均中逐渐衍生出了更多的均线计算方式,比如指数移动平均、…...
ChatGPT提高你日常工作的五个特点,以及如何使用它来提高代码质量
ChatGPT已经完全改变了代码开发模式。然而,大多数软件开发者和数据专家们仍然不使用ChatGPT来完善——并简化他们的工作。 这就是我们在这里列出提升日常工作效率和质量的5个不同的特点的原因。 让我们一起来看看在日常工作中如何使用他们。 警告:不要…...
spark datasourceV1和v2
datasourceV2 一文理解 Apache Spark DataSource V2 诞生背景及入门实战 https://zhuanlan.zhihu.com/p/83006243 2.3 Data source API v2 https://issues.apache.org/jira/browse/SPARK-15689 Because of the above limitations/issues, the built-in data source impleme…...
10种聚类算法的完整python操作示例
大家好,聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术,用于发现数据中的有趣模式,例如基于其行为的客户群。有许多聚类算法可供选择,对于所有情况,没有单一的最佳聚类算法。相反,最好探索一系…...
构建合作伙伴生态系统刻不容缓
合作伙伴关系管理(PRM)系统是否已死?向合作伙伴生态系统的转变将如何改变我们未来管理合作伙伴计划的方式? 自PC革命以来,间接销售和渠道营销一直普遍存在于技术领域,通过其他公司的销售团队和人脉来增加销售,是一种明…...
剑指 Offer 55 - I. 二叉树的深度(java解题)
剑指 Offer 55 - I. 二叉树的深度(java解题)1. 题目2. 解题思路3. 数据类型功能函数总结4. java代码1. 题目 输入一棵二叉树的根节点,求该树的深度。从根节点到叶节点依次经过的节点(含根、叶节点)形成树的一条路径&a…...
【入坑系列】TiDB 强制索引在不同库下不生效问题
文章目录 背景SQL 优化情况线上SQL运行情况分析怀疑1:执行计划绑定问题?尝试:SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景 项目中使用 TiDB 数据库,并对 SQL 进行优化了,添加了强制索引。 UAT 环境已经生效,但 PROD 环境强制索…...
深入理解JavaScript设计模式之单例模式
目录 什么是单例模式为什么需要单例模式常见应用场景包括 单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量 惰性单例通用的惰性单例 结语 什么是单例模式 单例模式(Singleton Pattern&#…...
WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成
厌倦手动写WordPress文章?AI自动生成,效率提升10倍! 支持多语言、自动配图、定时发布,让内容创作更轻松! AI内容生成 → 不想每天写文章?AI一键生成高质量内容!多语言支持 → 跨境电商必备&am…...
WEB3全栈开发——面试专业技能点P2智能合约开发(Solidity)
一、Solidity合约开发 下面是 Solidity 合约开发 的概念、代码示例及讲解,适合用作学习或写简历项目背景说明。 🧠 一、概念简介:Solidity 合约开发 Solidity 是一种专门为 以太坊(Ethereum)平台编写智能合约的高级编…...
《基于Apache Flink的流处理》笔记
思维导图 1-3 章 4-7章 8-11 章 参考资料 源码: https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...
3403. 从盒子中找出字典序最大的字符串 I
3403. 从盒子中找出字典序最大的字符串 I 题目链接:3403. 从盒子中找出字典序最大的字符串 I 代码如下: class Solution { public:string answerString(string word, int numFriends) {if (numFriends 1) {return word;}string res;for (int i 0;i &…...
Swagger和OpenApi的前世今生
Swagger与OpenAPI的关系演进是API标准化进程中的重要篇章,二者共同塑造了现代RESTful API的开发范式。 本期就扒一扒其技术演进的关键节点与核心逻辑: 🔄 一、起源与初创期:Swagger的诞生(2010-2014) 核心…...
HashMap中的put方法执行流程(流程图)
1 put操作整体流程 HashMap 的 put 操作是其最核心的功能之一。在 JDK 1.8 及以后版本中,其主要逻辑封装在 putVal 这个内部方法中。整个过程大致如下: 初始判断与哈希计算: 首先,putVal 方法会检查当前的 table(也就…...
#Uniapp篇:chrome调试unapp适配
chrome调试设备----使用Android模拟机开发调试移动端页面 Chrome://inspect/#devices MuMu模拟器Edge浏览器:Android原生APP嵌入的H5页面元素定位 chrome://inspect/#devices uniapp单位适配 根路径下 postcss.config.js 需要装这些插件 “postcss”: “^8.5.…...
A2A JS SDK 完整教程:快速入门指南
目录 什么是 A2A JS SDK?A2A JS 安装与设置A2A JS 核心概念创建你的第一个 A2A JS 代理A2A JS 服务端开发A2A JS 客户端使用A2A JS 高级特性A2A JS 最佳实践A2A JS 故障排除 什么是 A2A JS SDK? A2A JS SDK 是一个专为 JavaScript/TypeScript 开发者设计的强大库ÿ…...
