当前位置: 首页 > news >正文

DEVOPS: 集群伸缩原理

概述

  • 阿里云 K8S 集群的一个重要特性,是集群的节点可以动态的增加或减少
  • 有了这个特性,集群才能在计算资源不足的情况下扩容新的节点,同时也可以在资源利用
    率降低的时候,释放节点以节省费用
  • 理解实现原理,在遇到问题的时候,我们就可以高效地排查并定位原因
  • 我们的讨论基于1.12.6 版本

节点增加原理

  • 阿里云 K8S 集群可以给集群增加节点的方式有,添加已有节点,集群扩容,和自动伸缩
  • 其中,添加已有节点又可分为手动添加已有节点和自动添加已有节点
  • 节点的增加涉及到的组件有,节点准备,弹性伸缩(ESS),管控,Cluster Autoscaler 以及调度器

手动添加已有节点

  • 节点准备,其实就是把一个普通的 ECS 实例,安装配置成为一个 K8S 集群节点的过程
  • 这个过程仅靠一条命令就可以完成,这条命令使用 curl 下载 attach_node.sh 脚本
  • 然后以 openapi token 为参数,在 ECS 上运行
  • curl http:///public/pkg/run/attach//attach_node.sh | bash -s – --openapi-token
    • 这里 token 是一个对的 key,而 value 是当前集群的基本信息
    • 阿里云 K8S集群的管控,在接到手动添加已有节点请求的时候
    • 会生成这个对,并把 key 作为token 返回给用户
    • 这个 token(key)存在的价值,是其可以让 attach_node.sh 脚本
    • 以匿名身份在 ECS 上索引到集群的基本信息(value)
    • 而这些基本信息,对节点准备至关重要
  • 总体上来说,节点准备就做两件事情,读和写,读即数据收集,写即节点配置
  • 这里的读写过程,绝大部分都很基础,大家可以通过阅读脚本来了解细节
  • 唯一需要特别说明的是,kubeadm join 把节点注册到 Master 的过程
  • 此过程需要新加节点和集群 Master 之间建立互信
  • 一边,新加节点从管控处获取的 bootstrap token
    • 与 openapi token 不同,此token 是 value 的一部分内容
    • 实际上是管控通过可信的途径从集群 Master 上获取的
    • 新加节点使用这个 bootstrap token 连接 Master
    • Master 则可通过验证这个 bootstrap token 来建立对新加节点的信任
  • 另一边,新加节点以匿名身份从 Master kube-public 命名空间中获取集群cluster-info
    • cluster-info 包括集群 CA 证书,和使用集群 bootstrap token 对这个 CA 做的签名
    • 新加节点使用从管控处获取的 bootstrap token
    • 对 CA 生成 b 新的签名,然后将此签名与 cluster-info 内签名做对比
    • 如果两个签名一致,则说明cluster-info 和 bootstrap token 来自同一集群
    • 新加节点因为信任管控,所以建立对 Master 的信任

自动添加已有节点

  • 自动添加已有节点,不需要人为拷贝黏贴脚本到 ECS 命令行来完成节点准备的过程
  • 管控使用了 ECS userdata 的特性,把类似以上节点准备的脚本,写入ECS userdata
  • 然后重启 ECS 并更换系统盘。当 ECS 重启之后,会自动执行 Userdata 里边的脚本
  • 来完成节点添加的过程。这部分内容,大家其实可以通过查看节点 userdata 来确认

!/bin/bash

mkdir -p /var/log/acs
curl http:///public/pkg/run/attach/1.12.6-aliyun.1/attach_node.sh | bash
-s -- --docker-version --token --endpoint --cluster-dns > /var/log/acs/init.log
  • 这里我们看到,attach_node.sh 的参数,与前一节的参数有很大的不同
  • 其实这里的参数,都是前一节 value 的内容,即管控创建并维护的集群基本信息
  • 自动添加已有节点省略了通过 key 获取 value 的过程

集群扩容

  • 集群扩容与以上添加已有节点不同,此功能针对需要新购节点的情形
  • 集群扩容的实现,在添加已有节点的基础上,引入了弹性伸缩 ESS 组件
  • ESS 组件负责从无到有的过程,而剩下的过程与添加已有节点类似
  • 即依靠 ECS userdata 脚本来完成节点准备
  • 下图是管控通过 ESS 从无到有创建 ECS 的过程

自动伸缩

  • 前边三种方式是需要人为干预的伸缩方式,而自动伸缩的本质不同
  • 是它可以在业务需求量增加的时候,自动创建 ECS 实例并加入集群
  • 为了实现自动化,这里引入了另外一个组件 Cluster Autoscaler
  • 集群自动伸缩包括两个独立的过程
  • 其中第一个过程,主要用来配置节点的规格属性,包括设置节点的用户数据
  • 这个用户数据和手动添加已有节点的脚本类似,不同的地方在于,其针对自动伸缩这种场景,增加了一些专门的标记
  • attach_node.sh 脚本会根据这些标记,来设置节点的属性

!/bin/sh

curl http:///public/pkg/run/attach/1.12.6-aliyun.1/attach_node.sh | bash -s -- --openapi-token --ess true --labels k8s.io/cluster-autoscaler=true,workload_type=cpu,k8s.aliyun.com=true
  • 而第二个过程,是实现自动增加节点的关键
  • 这里引入了一个新的组件 Autoscaler,它以 Pod 的形式运行在 K8S 集群中
  • 理论上来说,我们可以把这个组件当做一个控制器
  • 因为它的作用与控制器类似,基本上还是监听 Pod 状态
  • 以便在 Pod 因为节点资源不足而不能被调度的时,去修改 ESS 的伸缩规则来增加新的节点
  • 这里有一个知识点,集群调度器衡量资源是否充足的标准,是“预订率”,而不是“使用率”
  • 这两者的差别,类似酒店房价预订率和实际入住率:
    • 完全有可能有人预订了酒店
    • 但是并没有实际入住
  • 在开启自动伸缩功能的时候,我们需要设置缩容阈值,就是“预订率”的下线
  • 之所以不需要设置扩容阈值。是因为 Autoscaler 扩容集群
  • 依靠的是 Pod 的调度状态:当 Pod 因为节点资源“预订率”太高无法被调度的时候 Autoscaler 就会扩容集群

节点减少原理

  • 与增加节点不同,集群减少节点的操作只有一个移除节点的入口
  • 但对于用不同方法加入的节点,其各自移除方式略有不同
  • 首先,通过添加已有节点加入的节点,需要三步去移除:
    • 管控通过 ECS API 清楚 ECS userdata;
    • 管控通过 K8S API 从集群中删除节点;
    • 管控通过 ECS Invoke-Command 在 ECS 上执行 kubeadm reset 命令清理节点
  • 其次,通过集群扩容加入的节点,则在上边的基础上,增加了断开 ESS 和 ECS 关系的操作,此操作由管控调用 ESS API 完成
  • 最后,经过 Cluster Autoscaler 动态增加的节点,则在集群 CPU 资源“预订率”降低的时候,由 Cluster Autoscaler 自动移除释放
  • 其触发点是 CPU“预订率”,即上图写 Metrics 的原因

总结

  • 总体上来说,K8S 集群节点的增加与减少,主要涉及四个组件,分别是 Cluster
    Autoscaler,ESS,管控以及节点本身(准备或清理)
  • 根据场景不同,我们需要排查不同的组件
    • 其中 Cluster Autoscaler 是一个普通的 Pod,其日志的获取和其他Pod 无异
    • ESS 弹性伸缩有其专门的控制台
    • 我们可以在控制台排查其伸缩配置、伸缩规则等相关子实例日志和状态
    • 而管控的日志,可以通过查看日志功能来查看
  • 最后,对于节点的准备与清理,其实就是排查对应的脚本的执行过程

相关文章:

DEVOPS: 集群伸缩原理

概述 阿里云 K8S 集群的一个重要特性,是集群的节点可以动态的增加或减少有了这个特性,集群才能在计算资源不足的情况下扩容新的节点,同时也可以在资源利用 率降低的时候,释放节点以节省费用理解实现原理,在遇到问题的…...

什么是SMO算法

SMO算法(Sequential Minimal Optimization) 是一种用于求解 支持向量机(SVM) 二次规划对偶问题的优化算法。它由 John Platt 在 1998 年提出,目的是快速解决 SVM 的优化问题,特别是当数据集较大时&#xff…...

MySQL根据.idb数据恢复脚本,做成了EXE可执行文件

文章目录 1.代码2.Main方法打包3.Jar包打成exe可执行文件4.使用(1.)准备一个表结构一样得数据库(2.)打开软件(3.)输入路径 5.恢复成功 本文档只是为了留档方便以后工作运维,或者给同事分享文档内…...

Spring Boot面试题

1.什么是SpringBoot?它的主要特点是什么? Spring Boot 是一个基于 Spring 框架的开发和构建应用程序的工具,它旨在简化 Spring 应用的初始搭建和开发过程。Spring Boot 提供了一种约定优于配置的方式,通过自动配置和默认值&#…...

原生页面引入Webpack打包JS

Webpack简介 概述: Webpack是一个现代JavaScript应用程序的静态模块打包器。它将应用程序中的每个文件视为一个模块,并通过配置规则来解析这些模块之间的依赖关系,最终将其打包成一个或多个浏览器可以执行的文件。动态加载(Code …...

健康之路押注医药零售:毛利率下滑亏损扩大,医疗咨询人次大幅减少

《港湾商业观察》黄懿 2024年9月13日,健康之路股份有限公司(下称“健康之路”)再次递表港交所,建银国际为独家保荐人。健康之路国内运营主体为健康之路(中国)信息技术有限公司和福建健康之路信息技术有限公…...

【人工智能-初级】第7章 聚类算法K-Means:理论讲解与代码示例

文章目录 一、K-Means聚类简介二、K-Means 聚类的工作原理2.1 初始化簇中心2.2 分配簇标签2.3 更新簇中心2.4 迭代重复2.5 K-Means 算法的目标三、K-Means 聚类的优缺点3.1 优点3.2 缺点四、K 值的选择五、Python 实现 K-Means 聚类5.1 导入必要的库5.2 生成数据集并进行可视化…...

HOT 100 技巧题(136/169/75/31/287)

136. 只出现一次的数字 技巧类型题目,通过异或运算实现 169. 多数元素 三种常见解法:1. 哈希2. 排序3. 投票法 75. 颜色分类 单指针 两次遍历:第一次遍历把所有0都交换到前面,记录最后一个0的位置index,第二次遍…...

什么是时间戳?怎么获取?有什么用?

在 JavaScript 中,时间戳通常表示为自 1970 年 1 月 1 日 00:00:00 UTC 以来的毫秒数。我们可以使用 Date 对象来获取当前时间的时间戳,或者将特定的日期转换为时间戳。在JavaScript中,时间戳通常以毫秒为单位表示。 如何获取时间戳 在Java…...

LeetCode:459重复的子字符串

给定一个非空的字符串 s ,检查是否可以通过由它的一个子串重复多次构成。 示例 1: 输入: s "abab" 输出: true 解释: 可由子串 "ab" 重复两次构成。示例 2: 输入: s "aba" 输出: false示例 3: 输入: s "abcabcabcabc" 输…...

【含开题报告+文档+PPT+源码】基于SSM的旅游与自然保护平台开发与实现

开题报告 围场县拥有丰富的自然景观和野生动植物资源,同时面临着旅游业发展和自然保护之间的平衡问题,通过强调自然保护,这个平台可以教育游客如何尊重和保护当地的生态环境。同时,平台还可以提供关于生态保护的信息,…...

【ANTs】医疗影像工具ANTs多种安装方式教程

介绍ANTs的几种简单的安装教程 基于Releases的安装 Github上选择适配自己操作系统的安装包,链接: link 一般使用最新版本。这里官方操作说明,支持Ubuntu、MacOS、CentOS,但是windows有安装包,不知道怎么用。。。 下载后有两个文件夹,bin和lib,bin里面长这样(图示wind…...

想要音频里的人声,怎么把音频里的人声和音乐分开?

在音频处理领域,将音频中的人声和音乐分开是一个常见需求,尤其对于音乐制作、影视后期以及个人娱乐应用来说,这种分离技术显得尤为重要。随着科技的发展,现在已经有多种方法可以实现这一目的。 一、使用专业音频处理软件 市面上有…...

python代码中通过pymobiledevice3访问iOS沙盒目录获取app日志

【背景】 在进行业务操作过程中,即在app上的一些操作,在日志中会有对应的节点,例如,下面是查看设备实时视频过程对应的一些关键节点: 1、TxDeviceAwakeLogicHelper:wakeStart deviceId CxD2BA11000xxxx …...

Spring AOP 使用方法总结

AOP切面编程的最佳应用场景 记录日志性能监控事务管理处理异常数据验证,验证传入参数的正确性(一般不用这个方法做,而是用拦截器) spring提供了以下注解供开发者使用,编写AOP程序 Aspect 申明切面Pointcut 切点&#…...

LeetCode 每日一题 2024/10/21-2024/10/27

记录了初步解题思路 以及本地实现代码;并不一定为最优 也希望大家能一起探讨 一起进步 目录 10/21 910. 最小差值 II10/22 3184. 构成整天的下标对数目 I10/23 3185. 构成整天的下标对数目 II10/24 3175. 找到连续赢 K 场比赛的第一位玩家10/25 3180. 执行操作可获得…...

不到1500元的I卡可以玩转3A大作吗?撼与科技Intel Arc A750显卡游戏性能实

一、前言 还记得2022年10月的时候,英特尔发布了Arc A750和A770显卡,和此前所发布的DG1、A380不同,这两张显卡可以说是真正意义上的游戏显卡。不知不觉间,两年已经过去了,在这两年期间,英特尔不仅在积极地打…...

STK与MATLAB互联——仿真导航卫星与地面用户间距离和仰角参数

文章目录 构建GPS星座创建单个PRN的GPS卫星创建GPS星座,并为其添加发射机 北斗星座构建搭建低轨铱星星座构建一颗轨道高度为800km/1000km/1200km的低轨卫星构建一颗轨道高度为800km/1000km/1200km的低轨卫星建立地面站,可见性分析确定地面站坐标分析单颗…...

js面试问题笔记(一)

一.热门js面试 1.简述同步和异步的区别? 同步: 浏览器访问服务器请求,用户看到页面刷新 ,重新发请求,等请求完,页面刷新,新内容出现,用户看到新内容,进行下一步操作 异步: 浏览器访问服务器请求,用户正常操作,浏览器后端进行请求,等请求完,页面不刷新,新内容也会出现,用户看到…...

pip 和 pipx 的主要区别?

特性pippipx用途用于安装Python库或命令行应用程序,可以安装带entry points的库专门用于安装和管理Python命令行工具,每个工具都在隔离的虚拟环境中运行虚拟环境不自动创建虚拟环境,需要手动使用 venv 或 virtualenv 创建自动为每个安装的工具…...

4457M数字示波器

_XLT新利通_ 4457M数字示波器 带宽500MHz到3GHz 4457M系列数字示波器产品,包含4457DM/EM/FM/GM四个产品型号,模拟通道数4、8个,带宽500MHz到3GHz,最高采样率10GSa/s,垂直分辨率8bit,最大存储深度2Gpts。…...

【永中软件-注册/登录安全分析报告】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞…...

Tomcat作为web的优缺点

文章目录 优点缺点 优点 开源:Tomcat是Apache软件基金会的一个项目,这意味着它是免费且开放源代码的。这为开发者提供了高度的自由度来修改和扩展其功能。 轻量级:与一些全功能的Java EE应用服务器(如IBM WebSphere, Oracle WebL…...

conda虚拟环境中安装cuda方法、遇到的问题

conda虚拟环境中安装cuda方法、遇到的问题 文章目录 conda虚拟环境中安装cuda方法、遇到的问题conda虚拟环境中安装cudacuda.h和cuda_runtime.hpytorch运行时的CUDA版本其他问题检查包冲突nvcc -V和nvidia-smi显示的版本不一致cuda路径 conda虚拟环境中安装cuda 参考文章&…...

【CPN TOOLS建模学习】设置变迁的属性

使用Tab键在属性之间进行切换 与一个变迁相关联的四个铭文,均为可选项: 变迁名称守卫(Guard)时间代码段 变迁延迟必须是一个正整数表达式。该表达式前面加上,这意味着时间铭文的形式为 delayexpr。在添加时间铭文之前,铭文的默…...

一个简单的例子,说明Matrix类的妙用

在Android、前端或者别的平台的软件开发中,有时会遇到类似如下需求: 将某个图片显示到指定的区域;要求不改变图片本身的宽高比,进行缩放;要求最大限度的居中填充到显示区域。 以下示意图可以简单描绘该需求 以Androi…...

【C++】类和对象(四):析构函数

大家好,我是苏貝,本篇博客带大家了解C的析构函数,如果你觉得我写的还不错的话,可以给我一个赞👍吗,感谢❤️ 目录 1. 概念2. 特性 1. 概念 通过前面构造函数的学习,我们知道一个对象是怎么来的…...

linux中各目录作用及介绍

目录 1 /usr 1 /usr /usr 是 Unix-like 操作系统中的一个重要目录之一,代表可共享的用户资源(User System Resources)或 Unix Software Resource(UNIX 软件资源)。 /usr 目录通常包含了系统的许多可共享资源&#xf…...

v4.7版本使用线下付款方式不给管理员发送新订单通知问题修复

在app/api/controller/v1/order/StoreOrderController.php文件中,将红框内的代码注释,加上绿框的代码即可修复 if ($this->services->setOrderTypePayOffline($order[order_id])) {event(NoticeListener, [$order, admin_pay_success_code]);retur…...

vue3中mitt和pinia的区别和主要用途,是否有可重合的部分?

在 Vue 中,Mitt 和 Pinia 是两个不同的工具,它们的主要用途和功能有所不同,但在某些方面也存在重合的部分。 区别 Mitt: Mitt 是一个简单而强大的事件总线库,用于在组件之间进行事件的发布和订阅。 它提供了一种简洁…...

wordpress苏醒/推广赚钱的项目

明天没有具体的任务 全员讨论Beta版改进的问题转载于:https://www.cnblogs.com/WWW-Buaa/archive/2012/11/13/2767314.html...

wordpress 调用页面/北京厦门网站优化

题目描述 约翰家的 N 头奶牛正在排队游行抗议。一些奶牛情绪激动,约翰测算下来,排在第 i 位的奶牛的理智度为 A i ,数字可正可负。约翰希望奶牛在抗议时保持理性,为此,他打算将这条队伍分割成几个小组,每个…...

广州机械网站建设/营销app

工作窃取在本系列的第一部分中,您学习了足够JavaScript和CSS来使动画角色在浏览器中移动。 在本文中,我将探讨一些计算机游戏技术,这些技术将使我们能够对多个精灵进行动画处理,并使它们彼此交互。 如果您想在家中试用此代码&…...

wordpress如何发布文件夹/深圳seo公司助力网络营销飞跃

逆置打印字符串是有很多种方法的,个人感觉使用递归的方式很可以很容易的去理解栈的创建与析构,所以就稍微建立了模型;首先我们先看看理论:递归模型:1. 递归模型即是对自己本身的调用,一般用在函数或子函数函…...

哈尔滨网站基础优化/百度运营优化师

for循环的作用&#xff1a;注意&#xff1a;要主要满足条件一和二后是先执行语句&#xff0c;后再执行条件三。简单重复的输出for(int i0&#xff1b;i<10;i){printf("对一句话简单重复输出输出10");printf("\n")&#xff1b;}其基本结构&#xff1a;(如…...

湖北省建设厅政务公开网站/网站免费搭建

Toast.LENGTH_SHORT 2000&#xff08;2秒&#xff09; Toast.LENGTH_LONG 3500&#xff08;3.5秒&#xff09;...