Kafka:介绍和内部工作原理
展示Kafka工作方式的简单架构。
什么是Kafka?为什么我们要使用它?它是消息队列吗?
它是一个分布式流处理平台或分布式提交日志。
Kafka通常用于实时流数据管道,即在系统之间传输数据,构建不断流动的数据转换系统和构建事件驱动的系统。
它确实可以充当消息队列,但不仅限于此。它可以充当FIFO队列、发布/订阅消息系统、实时流处理平台。由于Kafka的持久性存储能力,甚至可以用作数据库。
那么从上面的定义中,什么是分布式流处理和提交日志?
Kafka作为一个由一个或多个节点组成的集群工作,这些节点可以位于不同的数据中心,我们可以将数据/负载分布到Kafka集群中的不同节点,它具有固有的可扩展性、可用性和容错性。
Kafka将数据存储为一系列连续的记录,可以以不同的方法进行处理。
当您将数据推送到Kafka时,它会将它们附加到记录流中,就像将日志附加到日志文件中一样。
让我们开始...
为了理解这一点,让我们深入研究关键主题:
1.消息
- 消息是Kafka的原子数据单位。
- 您可以推送字符串、整数、不同架构的JSON以及其他任何内容,但通常将不同类型的消息推送到不同的主题中。
- 可以使用一个键(Key),它只是一些元数据,用于确定目标分区。
2.主题
我们可以将主题视为Kafka中的消息的逻辑类别,它们是相同类型数据的流。
3.分区
Image.jpeg
- 这基本上是分片技术,是Kafka的扩展能力背后的概念。
- 分区是使消息能够并行分布在集群中的多个代理上的机制。使用这种并行性方法,Kafka可以同时支持多个消费者和生产者的线性扩展。这种分区方法允许消费者和生产者的线性扩展。
- 当我们将主题的数据拆分为多个流时,我们称所有这些较小的流为该主题的“分区”。
- 系统的性能还取决于设置分区的方式。
- 消息的偏移量是该消息的数组索引。图中块上的数字表示偏移量,第一个块位于第0个偏移量处,最后一个块位于(n-1)个偏移量处。
4.生产者
(1) 将消息发布到Kafka主题的Kafka客户端
生产者用于决定将消息发送到哪个分区。根据不同的配置和参数,生产者决定目标分区。
让我们检查不同的情况:
- 未指定键:生产者将随机决定分区,并尝试平衡所有分区上的消息总数。
- 指定键:生产者使用一致性哈希[1]将键映射到分区。一致性哈希是一种哈希机制,在相同的键上始终生成相同的哈希值,它最小化了重新哈希情况下键的重新分布。
- 指定分区:您也可以硬编码目标分区。
- 自定义分区逻辑:我们可以根据分区可以决定的一些规则编写规则。
(2) 您可以以3种方式将消息发送到Kafka
- 发送并忘记 — 我们发送消息到Kafka代理并忘记它。由于Kafka是高可用的,成功的机会很大。
- 同步发送 — 您希望等待所有感兴趣的消费者完成您希望它们完成的任何操作
- 异步发送 — 您不希望等待所有感兴趣的消费者完成您希望它们完成的任何操作
我们还可以在将消息发送到代理之前在生产者上配置特性。
为了获得更好的性能,我们可以使用Avro序列化/反序列化器。
5.消费者
消费者以有序的方式从分区中读取消息。
每次消费者读取一条消息时,它都会将偏移值存储到Kafka或Zookeeper上,表示它是消费者读取的最后一条消息。
因此,如果消费者节点崩溃,它可以恢复到上次读取的位置。此外,如果在任何时候消费者需要回到过去并读取旧消息,它只需重置偏移位置即可。
(1) 轮询循环:
您可以配置分区分配策略。
- 范围:消费者获取连续的分区
- 轮询:轮询分配器列出了所有可用的分区和所有可用的
尝试在重新平衡时最小化影响,保持大部分分配不变,但允许协作重新平衡批处理大小。我们可以配置每次轮询调用返回多少条记录和多少数据。
(2) 提交偏移量:
在读取消息时,我们可以更新消费者的偏移位置,这称为提交偏移量。可以启用自动提交,或者应用程序可以显式地提交偏移量。这可以同步和异步两种方式完成。
6.消费者组
一组消费者一起工作,从一个主题中读取消息。
扇出交换: 可以由多个消费者组订阅单个主题。
一个实时示例是OTP发送服务,可以在号码上发送OTP,也可以发送到电子邮件。
Otp示例
1.订单保证: 一个分区不能由同一个消费者组中的多个消费者读取。这由消费者组启用,只有消费者组中的一个消费者可以从单个分区读取。
在这里,生产者生成6条消息。每条消息都是键值对,假设键“A”的值为“1”,“C”的值为“1”,“B”的值为“1”,“C”的值为“2”……“B”的值为“2”。
我们的主题有3个分区,由于一致性哈希,具有相同键的消息始终进入同一分区,因此所有键为“A”的消息都会在一起分组,键为B和C的消息也是如此。
现在,由于每个分区只有一个消费者,它们只按顺序接收消息。因此,消费者将在A2之前接收A1,在B2之前接收B1,因此保持了顺序。
因此,对于3个分区,您可以最多拥有3个消费者,如果有4个消费者,一个消费者将处于空闲状态。但对于3个分区,您可以有2个消费者,然后一个消费者将从一个分区读取,另一个消费者将从两个分区读取。
7.代理
单个Kafka服务器。
代理接收来自生产者的消息,为它们分配偏移量,然后将它们提交到分区日志,基本上是将数据写入磁盘,这赋予了Kafka其持久性特性。
8.集群
由多个代理节点协同工作以提供可扩展性、可用性和容错性的集群。集群中的一个代理充当控制器,负责将分区分配给代理。
当一个分区被复制到3个代理时,其中一个代理将充当该分区的领导者,其余两个将成为追随者。
数据始终写入领导者代理,然后复制到追随者。通过这种方式,我们既不会丢失数据,也不会丢失集群的可用性,如果领导者崩溃,将选举出另一个领导者。
让我们深入一些编程内容:
- 创建一个主题,创建该主题的5个分区,并将所有5个主题的数据复制到总共3个节点。
- kafka-topics — create — zookeeper zookeeper:2181 — topic applog — partitions 5 — replication-factor 3
Zookeeper
在集群中多次听到这个术语,让我们看看它是什么?
Zookeeper作为Kafka的中央配置和共识管理系统。它跟踪代理、主题和分区分配、领导者选举,基本上是有关集群的所有元数据。
结束语
Kafka是一款出色的软件,具有丰富的功能,可以在各种用例中使用。Kafka非常适合现代分布式系统,因为它是通过设计分布式的。它最初由LinkedIn创建,目前由Confluent维护。像Uber、Netflix、Activision、Spotify、Slack、Pinterest、Coursera等顶级科技公司都在使用它。我们了解了Kafka的核心概念,以帮助您入门。还有很多其他东西,比如Kafka Stream API或kSql,由于时间有限,我们没有讨论。
相关文章:
Kafka:介绍和内部工作原理
展示Kafka工作方式的简单架构。 什么是Kafka?为什么我们要使用它?它是消息队列吗? 它是一个分布式流处理平台或分布式提交日志。 Kafka通常用于实时流数据管道,即在系统之间传输数据,构建不断流动的数据转换系统和构…...
在 EMR Serverless 上使用 Delta Lake
本文是一份开箱即用的全自动测试脚本,用于在 EMR Serverless 上提交一个 Delta Lake 作业。本文完全遵循《最佳实践:如何优雅地提交一个 Amazon EMR Serverless 作业?》 一文给出的标准和规范! 1. 导出环境相关变量 注意&#x…...
Stream流的使用详解(持续更新)
1. 对比两List集合数据某些字段一样的情况下取值: 一般简单方式我们会使用双重for循环来处理判断数据取值(如下代码所示),但是数据量越大的情况下代码效率则越低,并且现在很多公司都会限制for循环层数所以更推荐strea…...
golang工程——gRpc 拦截器及原理
oauth2认证与拦截器 类似java spring中的拦截器。gRpc也有拦截器的说法,拦截器可作用于客户端请求,服务端请求。对请求进行拦截,进行业务上的一些封装校验等,类似一个中间件的作用 拦截器类型 一元请求拦截器流式请求拦截器链式…...
Python接口自动化之unittest单元测试
以下主要介绍unittest特性、运行流程及实际案例。 一、单元测试三连问 1、什么是单元测试? 按照阶段来分,一般就是单元测试,集成测试,系统测试,验收测试。单元测试是对单个模块、单个类或者单个函数进行测试。 将访…...
在亚马逊云科技Amazon SageMaker上部署构建聊天机器人的开源大语言模型
开源大型语言模型(LLM)已经变得流行起来,研究人员、开发人员和组织都可以使用这些模型来促进创新和实验。这促进了开源社区开展合作,从而为LLM的开发和改进做出贡献。开源LLM提供了模型架构、训练过程和训练数据的透明度ÿ…...
【51单片机】10-蜂鸣器
1.蜂鸣器的原理 这里的“源”不是指电源。而是指震荡源。 也就是说,有源蜂鸣器内部带震荡源,所以只要一通电就会叫。 而无源内部不带震荡源,所以如果用直流信号无法令其鸣叫。必须用2K~5K的方波去驱动它。 有源蜂鸣器往往比无源的贵ÿ…...
26377-2010 逆反射测量仪 知识梳理
声明 本文是学习GB-T 26377-2010 逆反射测量仪. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围 本标准规定了逆反射测量仪的术语和定义、结构与分类、技术要求、计量学特性、试验方法、检验规 则以及标志、包装、运输与贮存。 本标准适用于…...
css实现渐变电量效果柱状图
我们通常的做法就是用echarts来实现 比如 echarts象形柱图实现电量效果柱状图 接着我们实现进阶版,增加渐变效果 echarts分割柱形图实现渐变电量效果柱状图 接着是又在渐变的基础上,增加了背景色块的填充 echarts实现渐变电量效果柱状图 其实思路是一…...
FileManager/本地文件增删改查, Cache/图像缓存处理 的操作
1. FileManager 本地文件管理器,增删改查文件 1.1 实现 // 本地文件管理器 class LocalFileManager{// 单例模式static let instance LocalFileManager()let folderName "MyApp_Images"init() {createFolderIfNeeded()}// 创建特定应用的文件夹func cr…...
vue中使用富文本编辑器
vue中使用富文本编辑器(wangEditor) wangEditor官网地址:https://www.wangeditor.com/ 使用示例 <template><div class"app-container"><div class"box"><div class"editor-tool">&l…...
13.(开发工具篇github)如何在GitHub上上传本地项目
一:创建GitHub账户并安装Git 二:创建一个新的仓库(repository) 三、拉取代码 git clone https://github.com/ainier-max/myboot.git git clone git@github.com:ainier-max/myboot.git四、拷贝代码到拉取后的工程 五、上传代码 (1)添加所有文件到暂存...
vue3中状态适配
写一个函数,在函数中定义一个对象 用于存放键值对,最后返回指定状态所对应的的值,即对象[指定状态] 的 对象的值。 在模板中把状态传入 // vue3 setup语法糖中 const formatXXXState (xxxState)>{const stateMap {键1: 值1,键2: 值2,.…...
uniapp h5 端 router.base设置history后仍有#号
manifest.json文件设置: "h5": { "router": { "base": "./", "mode": "history" }, }按相对路径发行时路由模式强制为hash模式,不支持history模式(两者相悖)…...
上网行为监管软件(上网行为管理软件通常具有哪些功能)
在我们的日常生活中,互联网已经成为了我们获取信息、交流思想、进行工作和娱乐的重要平台。然而,随着互联网的普及和使用,网络安全问题也日益突出,尤其是个人隐私保护和网络行为的规范。在这个背景下,上网行为审计软件…...
C#中的for和foreach的探究与学习
一:语句及表示方法 for语句: for(初始表达式;条件表达式;增量表达式) {循环体 }foreach语句: foreach(数据类型 变量 in 数组或集合) {循环体 }理解 1.从程序逻辑上理解,foreach是通过指针偏移实现的(最初在-1位置,每循环一次,指针就便宜一个单位),而for循环是通...
【ES6知识】Promise 对象
文章目录 1.1 概述1.2 静态方法1.3 实例方法1.4 Promise 拒绝事件 1.1 概述 Promise 对象用于表示一个异步操作的最终完成(或失败)及其结果值。是异步编程的一种解决方案(可以解决回调地狱问题)。 一个 Promise 对象代表一个在这…...
【Git】配置SSH密钥实现Git操作免密
背景 在使用Git推送代码的时候,会默认需要输入密码。如果经常推送代码,那就需要经常输入密码,比较繁琐。所以Git也提供了免密登录的功能。 Git本身支持两种协议对远程Git仓库进行访问:HTTPS、SSH。两种方式有一定的区别…...
AI能给百融云带来什么?
一大堆有关ChatGPT的利好消息出现之后,市场的反应难得的跟投资者预期站在了一起,AIGC也终于有了跑赢CPO的苗头。二级市场的逻辑不用重复,毕竟AI已经炒了大半年,但有没有发现一个问题?就是在不知不觉中,AI应…...
AI创作系统ChatGPT商业运营版源码+AI绘画/支持GPT联网提问/支持Midjourney绘画+Prompt应用+支持国内AI提问模型
一、AI创作系统 SparkAi创作系统是基于国外很火的ChatGPT进行开发的Ai智能问答系统。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署AI创作ChatGPT?小编这里写一个详细图文教程吧&am…...
vue.draggable拖拽,项目中三个表格互相拖拽的实例操作,前端分页等更多小技巧~
vue.draggable中文文档 - itxst.com官网在这里,感兴趣的小伙伴可以看看。 NPM或yarn安装方式 yarn add vuedraggable npm i -S vuedraggable UMD浏览器直接引用JS方式 <script src"https://www.itxst.com/package/vue/vue.min.js"></script&…...
400G DR4 QSFP-DD光模块:数据中心应用全攻略
在当今数字化时代,对于企业和供应商来说,高速数据传输至关重要。随着对更快数据传输的需求不断攀升,400G DR4 QSFP-DD光模块已经成为高速网络的最新解决方案。本文将全面介绍400G DR4 QSFP-DD光模块在数据中心应用中的优势和技术规范。 什么…...
自动驾驶:路径规划概述
自动驾驶:路径规划概述 全局路径规划Dijkstra算法A*算法RRT(随机快速探索树)算法PRM(概率路线图)算法 局部路径规划DWA(动态窗口法)算法TEB(时间弹性带)算法Lattice Plan…...
vlc将本地文件推流成ts实时流
推流 打开vlc ,打开 媒体----打开网络串流 选择文件选项卡,打开本地文件 点击添加,选择本地的mp3文件 选择串流 点击下拉框,选择udp,点击右边的【添加】按钮 输入媒体流输出地址,点击【下一个】 选择正确的…...
C# 自定义控件库之Lable组合控件
1、创建类库 2、在类库中添加用户控件(Window窗体) 3、控件视图 4、后台代码 namespace UILib {public partial class DeviceInfoV : UserControl{public DeviceInfoV(){InitializeComponent();ParameterInitialize();}#region 初始化private void Par…...
解密防关联指纹浏览器:联盟营销领域的秘密武器
联盟营销在今天的数字化时代越来越受欢迎。然而,联盟营销也面临着一些挑战,其中之一就是账号关联问题。本文将介绍如何利用防关联指纹浏览器来提升联盟营销的效果和安全性。 一、什么是防关联指纹浏览器? 防关联指纹浏览器是一种工具&#…...
asp.net core mvc Razor +dapper 增删改查,分页(保姆教程)
说明:本demo使用sqlserver数据库,dapper orm框架 完成一张学生信息表的增删改查,前端部分使用的是Razor视图, Linq分页 HtmlHelper。(代码随便写的,具体可以自己优化) //实现效果如下࿰…...
网络安全——自学(黑客)方法
如果你想自学网络安全,首先你必须了解什么是网络安全!,什么是黑客!! 1.无论网络、Web、移动、桌面、云等哪个领域,都有攻与防两面性,例如 Web 安全技术,既有 Web 渗透2.也有 Web 防…...
秋招算法岗,面试复盘
面试锦囊之面经分享系列,持续更新中 欢迎后台回复『面试』加入讨论组交流噢 楼主秋招主要投算法岗(偏NLP方向)和数据岗方向,下面分享我的一些面试经历。 一、科大讯飞(NLP) 简要介绍自己Python里面哈希表…...
AI类APP能做什么
AI类APP可以实现多种功能,涵盖了各种领域和用途。以下是一些常见的AI类APP示例以及它们主要实现的功能,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1.语音助手(Voice Assis…...
做app模板下载网站/seo查询百科
定义和用法 <audio> 标签定义声音,比如音乐或其他音频流。 示例代码:<audio src"someaudio.wav">您的浏览器不支持 audio 标签。</audio> 提示和注释 提示:可以在开始标签和结束标签之间放置文本内容,这样老的浏…...
网站关键词收费/关键词推广seo
indices crossvalind(Kfold, N, K): 该命令返回一个对于N个观察样本的K个fold(意为折,有“层”之类的含义,感觉还是英文意思更形象)的标记(indices)。该标记中含有相同(或者近似相同…...
wordpress 中文官网/培训加盟
数据类型编号 oracle Mysql 注释 1 NUMBER int / DECIMAL DECIMAL就是NUMBER(10,2)这样的结构INT就是是NUMBER(10),表示整型;MYSQL有很多类int型,tinyint mediumint bigint等,不同的int宽度不一样 2 Varchar2(n) varchar(n) 3 …...
wordpress 当前分类id/2023b站推广大全
众所周知,Android 11 正式版已经正式上线,各大厂商也都纷纷加快了自家系统的适配进度。近日,盖乐世社区也官宣三星 S20 系列基于 Android 11 的 One UI 3 开启内测。不得不说,一直以来三星对于安卓大版本的适配还是非常迅速的。不…...
中文博客网站模板/网络营销是什么?
第一:private, public, protected 访问标号的访问范围。private:只能由1.该类中的函数、2.其友元函数访问。不能被任何其他访问,该类的对象也不能访问。protected:可以被1.该类中的函数、2.子类的函数、以及3.其友元函数访问。但不…...
然后做网站/搜索引擎优化专员
https://blog.csdn.net/weixin_41796631/article/details/83051966 父组件: 子组件...