我们如何优化 Elasticsearch Serverless 中的刷新成本
作者:来自 Elastic Francisco Fernández Castaño, Henning Andersen
最近,我们推出了 Elastic Cloud Serverless 产品,旨在提供在云中运行搜索工作负载的无缝体验。为了推出该产品,我们重新设计了 Elasticsearch,将存储与计算分离,数据存储在云 blob 存储中,提供几乎无限的存储和可扩展性。在这篇博文中,我们将深入探讨如何消除索引数量和对象存储调用数量之间的强关系,从而让我们能够同时改善用户体验并降低成本。
在深入研究所做的更改之前,首先必须了解 Elasticsearch 和 Lucene 之间的相互作用。
Elasticsearch 使用 Lucene(一个用 Java 编写的高性能开源库)进行全文索引和搜索。当文档被索引到 Elasticsearch 中时,Lucene 不会立即将其写入磁盘。相反,Lucene 会更新其内部内存数据结构。一旦积累了足够的数据或触发了刷新(refresh),这些文档就会被写入磁盘,从而创建一组新的不可变文件(在 Lucene 术语中称为段 - segemnts)。在将段写入磁盘之前,索引文档无法进行搜索。这就是为什么刷新是 Elasticsearch 中如此重要的概念的原因。你可能想知道,当文档保存在内存中直到触发刷新时,如何确保持久性。这是通过 Translog 实现的,它持久存储每个操作以保证数据持久性和在发生故障时恢复。
更多有关刷新的知识,请参考文章 “Elasticsearch:Elasticsearch 中的 refresh 和 flush 操作指南”。
现在我们知道了 Lucene 段是什么以及为什么 Elasticsearch 需要刷新,我们可以探索有状态 Elasticsearch 和 serverless Elasticsearch 之间的刷新行为有何不同。
有状态 Elasticsearch 中的刷新
在 Elasticsearch 中,索引被分为多个分片,每个分片由一个主分片和多个可能的副本分片组成。在有状态(stateful) Elasticsearch 中,当文档被索引时,它首先被路由到主分片,Lucene 在那里对其进行处理和索引。在主分片上进行索引后,文档被路由到副本分片,在那里由这些副本对其进行索引。
如前所述,需要刷新才能使这些索引文档可搜索。在有状态 Elasticsearch 中,刷新会将 Lucene 内存数据结构写入磁盘,而无需执行 fsync。刷新是定期安排的,每个节点在不同的时间执行它们。此过程将在每个节点上创建不同的 Lucene 段文件,所有文件都包含同一组文档。
Serverlss Elasticsearch 中的刷新
相比之下,无服务器(serverless) Elasticsearch 采用基于段的复制模型。在这种方法中,每个分片的一个节点负责处理文档索引并生成 Lucene 段。一旦启动刷新,这些段就会上传到 blob 存储中。随后,搜索节点会收到有关这些新的 Lucene 段的通知,它们可以直接从 blob 存储中读取这些段。
上图演示了无服务器 Elasticsearch 中的刷新工作原理:
- 索引节点(所有文档都已编入索引)接收刷新请求,Lucene 将内存中的数据结构写入磁盘,类似于有状态刷新的运行方式。
- 段文件作为单个文件上传到 blob 存储(称为无状态复合提交)。图中上传的是 S4。
- 将段文件上传到 blob 存储后,索引节点会向每个搜索节点发送一条消息,通知它们新的段文件,以便它们可以对新编入索引的文档执行搜索。
- 搜索节点在执行搜索时从 blob 存储中获取必要的数据。
此模型具有轻量级节点的优势,因为数据存储在 blob 存储中。与有状态 Elasticsearch 相比,这使得在节点之间扩展或重新分配工作负载更具成本效益,在有状态 Elasticsearch 中,数据必须传输到包含新分片的新节点。
值得考虑的一个方面是无服务器 Elasticsearch 中每次刷新相关的额外对象存储请求成本。每次刷新操作都会在对象存储中创建一个新对象,从而产生一个对象存储 PUT 请求,并产生相关成本。这导致索引数量与对象存储 PUT 请求数量之间存在线性关系。如果刷新次数足够多,对象存储成本可能会超过硬件本身的成本。为了解决这个问题,我们最初实施了刷新限制措施,以有效管理成本并缓解潜在的问题。这篇博文描述了这项工作的下一步,这使我们能够以更快的速度和可控的成本进行刷新。
刷新成本优化
如前所述,无服务器 Elasticsearch 架构提供了许多好处。但是,为了有效地管理刷新成本,我们做出了偶尔会影响用户体验的决定。其中一个决定是强制执行 15 秒的默认刷新间隔,这意味着在某些情况下,新索引的数据要等到 15 秒过去后才能搜索。尽管我们付出了努力,但还是出现了对象存储费用过高的情况,促使我们重新评估我们的方法。在本节中,我们将深入研究如何成功地将刷新操作与对象存储调用分离,以在不影响用户体验的情况下解决这些挑战。
在评估了各种解决方案(从在 NFS 等分布式文件系统中临时存储段到将段直接推送到搜索节点)后,我们决定采用一种依赖于将段数据从索引节点直接提供给搜索节点的方法。
索引节点现在不会让刷新立即将新的 Lucene 段上传到 blob 存储,而是从刷新中积累段,然后将它们作为单个 blob 上传。这使得索引节点能够以类似于 blob 存储的方式为搜索节点提供读取服务,延迟分段上传,直到积累足够的数据或经过预定的时间间隔。
此策略使我们能够完全控制上传到 blob 存储的 blob 的大小,使我们能够确定请求成本与硬件成本相比何时可以忽略不计。
批量复合提交
我们的目标是逐步实现这一增强功能,并确保与存储在 Blob 存储中的现有数据的向后兼容性。因此,我们选择在 Blob 存储中存储 Lucene 段时使用相同的文件格式。就上下文而言,Lucene 段包含多个文件,每个文件都充当不同的角色。为了简化上传过程并最大限度地减少 PUT 请求,我们引入了复合提交:单个 Blob 连续包含所有段文件,并附带元数据标头,其中包括复合提交中的文件目录。
从 blob 存储中检索复合提交时(例如在分片重新定位期间),我们的主要关注点通常放在复合提交标头(header)上。此标头至关重要,因为它包含及时填充内部数据结构所需的基本数据。考虑到这一点,我们意识到我们可以保留现有文件格式,但对其进行简化,以便每个 blob 可以按顺序逐个附加复合提交。我们将这种新文件格式称为批量复合提交。
由于每个复合提交的大小都存储在其标头中,因此检索批量复合提交中所有复合提交的标头非常简单;我们只需查找下一个条目即可按顺序读取每个标头。在处理旧格式的 blob 时,它们被视为单例批量复合提交。我们的文件格式的另一个关键方面是,一旦将每个 Lucene 段文件附加到批量复合提交中,就会为其保持固定偏移量。这确保了文件是从索引节点还是 blob 存储提供的一致性。当批量复合提交最终上传到 blob 存储时,它还可以避免在搜索节点上逐出缓存条目。
新的刷新生命周期
索引节点现在将从刷新中积累 Lucene 段,直到收集到足够的数据以将它们上传为单个 blob。让我们探索索引和搜索节点如何协调以确定从何处访问这些数据。
如上图所示,在无服务器 Elasticsearch 中优化的刷新过程中会发生以下步骤:
- 索引节点接收刷新请求,将一组新的 Lucene 段写入其本地磁盘,并将这些段添加到待处理的批量复合提交中以供最终上传。
- 索引节点将这些新段通知搜索节点,提供有关所涉及段及其位置(blob 存储或索引节点)的详细信息。
- 当搜索节点需要一个段来完成查询时,它会决定是从 blob 存储还是索引节点获取该段,并在本地缓存数据。
上图说明了在索引节点中积累了足够多的段或经过了指定的时间后,将数据上传到无服务器 Elasticsearch 中的 Blob 存储的过程。
- 刷新会将新段添加到分批复合提交中,并且累积的数据达到 16 MB,或者自上次刷新以来已经过了一段时间,从此时起,新段将累积到新的分批复合提交中。
- 索引节点开始将累积的段作为单个 Blob 上传到对象存储。
- 索引节点将最新上传到对象存储的段通知搜索节点副本(search node replicas),指示它们从 Blob 存储中获取这些段的数据。
- 如果搜索需要本地未缓存的数据,它将从 Blob 存储中检索必要的信息,而任何先前从索引节点获取的数据即使在上传后仍然有效。
考虑和权衡
所选方法模糊了存储和计算之间的明确区分,要求索引节点处理存储请求,直到 Lucene 段最终上传到 blob 存储。但是,这些存储请求的开销很小,我们没有观察到对索引吞吐量的影响。
我们会注意到,我们会保留 translog 条目,直到相应的数据已上传到 blob 存储,因此该方法保持了现有的数据安全保障。崩溃后的恢复时间可能会稍长一些,但我们认为这是一个可以接受的权衡。
结论
这篇博文探讨了我们向更云原生方法的过渡,强调了它的诸多好处以及关键的成本考虑。我们从一个模型中追溯了我们的演变过程,在这个模型中,每个新的 Lucene 段都会在对象存储中生成一个不同的对象。与有状态的 Elasticsearch 相比,这导致特定无服务器工作负载的成本和用户体验面临挑战。批量对象存储上传使我们能够最大限度地减少对象存储请求的数量,并提高无服务器产品的成本效率。
准备好亲自尝试一下了吗?开始免费试用。
想要获得 Elastic 认证吗?了解下一期 Elasticsearch 工程师培训何时开课!
原文:Elasticsearch refresh: How we optimized refreshes in Serverless — Search Labs
相关文章:
我们如何优化 Elasticsearch Serverless 中的刷新成本
作者:来自 Elastic Francisco Fernndez Castao, Henning Andersen 最近,我们推出了 Elastic Cloud Serverless 产品,旨在提供在云中运行搜索工作负载的无缝体验。为了推出该产品,我们重新设计了 Elasticsearch,将存储与…...
MySQL半同步复制
1.MySQL主从复制模式 1.1异步复制 异步复制为 MySQL 默认的复制模式,指主库写 binlog、从库 I/O 线程读 binlog 并写入 relaylog、从库 SQL 线程重放事务这三步之间是异步的。 异步复制的主库不需要关心备库的状态,主库不保证事务被传输到从库…...
[一本通提高数位动态规划]数字游戏:取模数题解
[一本通提高数位动态规划]数字游戏:取模数题解 1前言2问题3状态的设置4数位dp-part1预处理5数位dp-part2利用状态求解6代码7后记 1前言 本文为数字游戏:取模数的题解 需要读者对数位dp有基础的了解,建议先阅读 论数位dp–胎教级教学 B3883 […...
[Day 39] 區塊鏈與人工智能的聯動應用:理論、技術與實踐
區塊鏈的安全性分析 區塊鏈技術已經成為現代數字經濟的一個重要組成部分,提供了去中心化、透明和不可篡改的數據存儲與交易系統。然而,隨著區塊鏈技術的廣泛應用,其安全性問題也日益受到關注。本篇文章將詳細探討區塊鏈技術的安全性…...
OpenStack入门体验
一、云计算概述 1.1什么是云计算 云计算(cloud computing)是一种基于网络的超级计算模式,基于用户的不同需求,提供所需的资源,包括计算资源、存储资源、网络资源等。云计算服务运行在若干台高性能物理服务器之上,提供每秒 10万亿次的运算能力…...
预测未来 | MATLAB实现RF随机森林多变量时间序列预测未来-预测新数据
预测未来 | MATLAB实现RF随机森林多变量时间序列预测未来-预测新数据 预测效果 基本介绍 随机森林属于 集成学习 中的 Bagging(Bootstrap AGgregation 的简称) 方法。如果用图来表示他们之间的关系如下: 随机森林是由很多决策树构成的,不同决策树之间没有关联。当我们进行…...
iOS 系统提供的媒体资源选择器(UIImagePickerController)
简介 图片或者视频的选择功能几乎是每个APP必不可少的,UIImagePickerController 是 iOS 系统提供的一个方便的媒体选择器,允许用户从照片库中选择图片或视频,或者使用相机拍摄新照片和视频。 它的页面简单易用,代码稳定可靠&…...
电脑如何扩展硬盘分区?告别空间不足困扰
在数字化时代,电脑硬盘的存储空间显得愈发重要。随着个人文件、应用程序和系统更新的不断累积,原有的硬盘分区可能很快就会被填满。为了解决这个问题,扩展硬盘分区成为了一个非常实用的方法。那么,电脑如何扩展硬盘分区呢…...
论文阅读:Mammoth: Building math generalist models through hybrid instruction tuning
Mammoth: Building math generalist models through hybrid instruction tuning https://arxiv.org/pdf/2309.05653 MAmmoTH:通过混合指令调优构建数学通才模型 摘要 我们介绍了MAmmoTH,一系列特别为通用数学问题解决而设计的开源大型语言模型&#…...
什么样的双筒式防爆器把煤矿吸引?
什么样的双筒式防爆器把煤矿吸引?要有好的服务和态度,要用心去聆听客户的需求,去解决客户的疑虑,用诚信去赢得客户的信任。 150产品的技术特点 双筒式防爆器采用双罐结构,其水封水位观测直观、能够快速有效排污、操作…...
如何保证冰河AL0 400G 100W 的稳定运行?
要保证冰河 AL0 400G 100w 的稳定运行,可以考虑以下几点: 1. 适宜的工作环境:确保设备放置在通风良好、温度适宜的环境中。良好的散热条件有助于防止设备过热,因为过热可能会导致性能下降或故障。该设备采用纯铝合金外壳…...
剪画小程序:巴黎奥运会,从画面到声音!
在巴黎奥运会的赛场上,每一个瞬间都伴随着独特的声音。那是观众的欢呼,是运动员冲刺的呐喊,是国歌奏响的激昂旋律。 如今,通过剪画音频提取,我们能够将这些珍贵的声音从精彩的画面中分离出来,单独珍藏。 想…...
【leetcode详解】心算挑战: 一题搞懂涉及奇偶数问题的 “万金油” 思路(思路详解)
前记: 做了几日的leetcode每日一题,几乎全是十分钟结束战斗的【中等】题,今日杀出来个【简单】题,反倒开始难以想出很清楚的解题思路,反复调试修改才将题目逐渐考虑全面,看到了原本思路的漏洞,…...
【资料集】数据库设计说明书(Word原件提供)
2 数据库环境说明 3 数据库的命名规则 4 逻辑设计 5 物理设计 5.1 表汇总 5.2 表结构设计 6 数据规划 6.1 表空间设计 6.2 数据文件设计 6.3 表、索引分区设计 6.4 优化方法 7 安全性设计 7.1 防止用户直接操作数据库 7.2 用户帐号加密处理 7.3 角色与权限控制 8 数据库管理与维…...
MySQL 常用查询语句精粹
引言 MySQL 是一种广泛使用的开源关系型数据库管理系统,其强大的查询语言为用户提供了丰富的数据处理能力。掌握 MySQL 的常用查询语句对于数据库管理和数据分析至关重要。本文将介绍一些 MySQL 中的常用查询语句,并提供实际的示例。 基础查询 1. 选择…...
hive的内部表(MANAGED_TABLE)和外部表(EXTERNAL_TABLE)的区别
1.hive的表类型分为外部表和内部表 内部表和外部表的主要区别在于数据的存储方式。 外部表:外部表的存储在hdfs中,是我们指定的文件目录,当我们删除数据或者删除分区的时候不会将元数据删除,数据还会在hdfs目录中,我们…...
【AutoSar网络管理】验证ecu能够从RepeatMessage状态切换到ReadySleep
本专栏将为您提供: Autosar网络管理介绍,包括:状态迁移、状态行为、状态表现、切换条件、时间参数、消息类型等。DUT模拟节点介绍,包括:设计思路、代码展示、编写须知等。测试用例介绍,包括:测试内容、测试步骤、期望结果等。测试脚本介绍,包括:编写思路、代码展示、脚…...
js逻辑或(||)和且()
重点: JavaScript 中的逻辑运算符按照布尔逻辑进行计算,并且返回值是操作数本身 || ||:逻辑或,只要有一个表达式为真(truthy),整个表达式就为真 逻辑或 (||) 的行为: ||运算符可以用来连接两个…...
ElasticSearch入门(六)SpringBoot2
private String author; Field(name “word_count”, type FieldType.Integer) private Integer wordCount; /** Jackson日期时间序列化问题: Cannot deserialize value of type java.time.LocalDateTime from String “2020-06-04 15:07:54”: Failed to des…...
vue项目Nginx部署启动
1.vue打包 (1)package.json增加打包命令 "scripts": {"dev": "webpack-dev-server --inline --progress --config build/webpack.dev.conf.js --host 10.16.14.110","start": "npm run dev","un…...
Duplicate class kotlin.collections.jdk8.CollectionsJDK8Kt found in modules。Android studio纯java代码报错
我使用java代码 构建项目,初始代码运行就会报错。我使用的是Android Studio Giraffe(Adroid-studio-2022.3.1.18-windows)。我在网上找的解决办法是删除重复的类,但这操作起来真的太麻烦了。 这是全部报错代码: Dupli…...
filebeat
1、作用 1、可以在本机收集日志2、也可以远程收集日志3、轻量级的日志收集系统,可以在非java环境运行。logstash是在jmv环境中运行,资源消耗很大,启动一个logstash要消耗500M左右的内存,filebeat只消耗10M左右的内存。收集nginx的…...
matlab y=sin(x) - 2/π*(x)函数绘制
[TOC](matlab ysin(x) - 2/π*(x)函数绘制) ysin(x) - 2/π*(x) clc; clear; close all; x_axis_length 10; y_axis_length 10; % 创建 x 值向量 x_positive linspace(0.1, 10, 1000); % 正半轴上的 x 值 x_negative linspace(-10, -0.1, 1000); % 负半轴上的 x 值% 计算…...
HyperDiffusion阅读
ICCV 2023 创新点 HyperDiffusion:一种用隐式神经场无条件生成建模的新方法。 HyperDiffusion直接对MLP权重进行操作,并生成新的神经隐式场。 HyperDiffusion是与维度无关的生成模型。可以对不同维度的数据用相同的训练方法来合成高保真示例。 局限性…...
分治思想 排序数组
题目 这是一道经典的关于分治思想的算法题,适合刚接触分治的小白。 . - 力扣(LeetCode) 思路 采用递归分治的思想,也就是快速排序的模拟,这里先确定每趟递归的作用: 在一个规定的区间内,随机…...
通用前端分页插件
/*** >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>* 分页组件* >>>>>>>>>>>>>>>>>>>…...
jEasyUI 扩展编辑器
jEasyUI 扩展编辑器 jEasyUI 是一个基于 jQuery 的前端框架,它提供了一系列的组件,用于快速构建交互式的网页界面。这些组件包括布局、窗口、数据网格等,但有时候,开发者可能需要更多的定制化功能,这时候就需要使用 jEasyUI 的扩展编辑器。 什么是 jEasyUI 扩展编辑器 …...
腾讯课堂停服,付费课程怎么观看!!!
腾讯课堂十月1停服拉,大家的付费课程赶紧保存收获一波啊, 爬虫工程师手拿把掐啦!!!...
C# 桥接模式
栏目总目录 概念 桥接模式(Bridge Pattern)是一种结构型设计模式,用于将抽象部分与具体实现部分分离,使它们可以独立地变化。这种设计模式通过创建一个连接(桥)来将抽象和实现部分分离,从而允许…...
GPT-4o mini一手测评:懂得不多,但答得极快
在性能方面,GPT-4o mini 在 MMLU 上的得分为 82%,在 LMSYS 排行榜的聊天方面分数优于 GPT-4。 OpenAI 突然上线新模型 GPT-4o mini, 声称要全面取代 GPT-3.5 Turbo。 在性能方面,GPT-4o mini 在 MMLU 上的得分为 82%,在 LMSYS 排行榜的聊天方面分数优于 GPT-4。 在价格…...
iis 发布网站 500/百度手机助手app下载安装
如果运行一些程序后,远行yum命令出现“rpmdb: Lock table is out of available locker entries...”的问题时, 你可以按照如下操作来修复它:错误表现如下:rpmdb: Lock table is out of available locker entrieserror: db4 error(22) from db->close:…...
如何攻击织梦做的网站/百度小说风云榜排行榜官网
embOS是一个优先级控制的多任务系统,是专门为各种微控制器应用于实时系统应用的嵌入式操作系统.是一个具有最小RAM和ROM占用的、高速的、多功能的高性能工具。 特点: 贯穿embOS的整个开发过程,微控制器有限的资源一直是开发者所顾…...
快速做网站服务好/2023智慧树网络营销答案
数据库批处理 批处理(batch)指的是一次操作中执行多条SQL语句,批处理相比于一次一次执行效率会提高很多。 批处理操作数据库的过程主要是分两步: 将要执行的SQL语句保存执行保存的SQL语句 如何实现批处理 Statement和PreparedStatement都支持批处理操…...
wordpress頂部公告插件/seo发外链工具
当我们的项目中有peerDependencies时,执行npm install会发现peerDependencies的依赖项并不会下载,如果一个个下载太过麻烦,因此推荐一个npm库npm-install-peers,可以直接下载。 npm install --save-dev npm-install-peersnpm scr…...
专业做网站的公司有没有服务器/运营培训班学费大概多少
转载于:https://blog.51cto.com/xcf007/109359...
做分销网站多少钱/优化技术
  [导读]:江苏省2016年上半年全国计算机等级考试社会考生报名时间:12月11日—12月31日我省2016年上半年全国计算机等级考试(NCRE)社会考生报名工作将于12月11日—12月31日进行。本次考试报名工作采用网上报名方式,社会考生可在规定时间内…...