当前位置：首页 > news >正文

kafka 文件存储机制

news 2026/2/8 22:16:18

文章目录

- 1. 思考四个问题：
- - 1.1 topic中partition存储分布：
  - 1.2 partiton中文件存储方式：
  - 1.3 partiton中segment文件存储结构：
  - 1.4 在partition中如何通过offset查找message:
- 2. kafka日志存储参数配置

Topic是逻辑上的概念，而partition是物理上的概念
每个partition对应于一个log文件，该log文件中存储的就是Producer生产的数据。
Producer生产的数据会被不断追加到该log文件末端，为防止log文件过大导致数据定位效率低下（不需要先查出来数据，直接往最后追加，也是kafka可以高效读写的原因之一），Kafka采取了分片和索引机制，将每个partition分为多个segment。（segment默认大小为1GB）
- 每个segment包括：“.index”文件、“.log”文件和.timeindex等文件。这些文件位于一个文件夹下，该文件夹的命名规则为：topic名称+分区序号，例如：first-0。

1. 思考四个问题：

topic中partition存储分布
partiton中文件存储方式
partiton中segment文件存储结构
在partition中如何通过offset查找message

1.1 topic中partition存储分布：

在Kafka文件存储中，同一个topic下有多个不同partition，每个partition为一个目录，partiton命名规则为topic名称+有序序号，第一个partiton序号从0开始，序号最大值为partitions数量减1。
每个partition下面有多个segment。

1.2 partiton中文件存储方式：

每个partion(目录)相当于一个巨型文件被平均分配到多个大小相等segment(段)数据文件中。但每个段segment file消息数量不一定相等，这种特性方便old segment file快速被删除。
每个partiton只需要支持顺序读写就行了，segment文件生命周期由服务端配置参数决定。

1.3 partiton中segment文件存储结构：

segment file由segment索引文件、数据文件2部分组成，这两个文件一一对应，后缀是”.index”和“.log”，分别表示为segment索引文件、数据文件
segment文件命名规则：partion全局的第一个segment从0开始，后续每个segment文件名为上一个segment文件最后一条消息的offset值。数值最大为64位long大小，19位数字字符长度，没有数字用0填充。

1.4 在partition中如何通过offset查找message:

segment的索引文件命令规则：起始偏移量(offset)为0.后续每个segment文件名为上一个segment文件最后一条消息的offset值，所以，第二个文件00000000000000000522.index的文件名是上一个log中最大偏移量+1（521+1=522），其他后续文件依次类推，只要根据offset 二分查找 文件列表，就可以快速定位到具体文件。当offset=600时定位到00000000000000000522.index|log，用index文件名上的数字+相对offset计算log文件中数据存在的位置，522+65=587，522+117=639，587 < 600 < 639，所以Offset=600的数据在position=6410的位置往下顺扫。

segment index file采取稀疏索引存储方式，不会为每条数据创建索引，大大的减少索了引文件大小。

2. kafka日志存储参数配置

参数	描述
log.segment.bytes	Kafka 中 log 日志是分成一块块存储的，此配置是指 log 日志划分成块的大小，默认值 1G。
log.index.interval.bytes	稀疏索引间存储数据的大小，默认 4kb，kafka 里面每当写入了 4kb 大小的日志（.log），然后就往 index 文件里面记录一个索引。

kafka 文件存储机制

文章目录 1. 思考四个问题：1.1 topic中partition存储分布：1.2 partiton中文件存储方式：1.3 partiton中segment文件存储结构：1.4 在partition中如何通过offset查找message: 2. kafka日志存储参数配置 Topic是逻辑上的概念&#xff…...

编程日记 2024/2/12 17:43:55

引入BertTokenizer出现OSError: Can‘t load tokenizer for ‘bert-base-uncased‘.

今天在跑一个模型的时候出现该报错，完整报错为： OSError: Cant load tokenizer for bert-base-uncased. If you were trying to load it from https://huggingface.co/models, make sure you dont have a local directory with the same name. Otherwis…...

编程日记 2024/2/12 17:40:51

陶陶摘苹果C++

题目： 代码： #include<iostream> using namespace std; int main(){//一、分析问题//已知：10 个苹果到地面的高度a[10],陶陶把手伸直的时候能够达到的最大高度height//未知：陶陶能够摘到的苹果的数目sum。//关系&#xff…...

编程日记 2024/2/12 17:39:51

STM32F1 引脚重映射功能

STM32 端口引脚重映射文章目录 STM32 端口引脚重映射前言1、查阅芯片数据手册1.1 串口引脚重映射描述 2、代码部分2.1 核心代码部分 3、实验现象4、总结前言在写程序时遇到想要的端口功能，而这个引脚又被其它的功能占用了无法删除掉或直接使用，这种情…...

编程日记 2024/2/12 17:37:49

c语言的各类输出函数（带完善更新）

printf double x; x 218.82631; printf("%-6.2e\n", x);printf(“%-6.2e\n”, x);使用printf函数以指定的格式输出x的值。"%-6.2e"是格式化字符串，其中： %e表示以科学计数法的形式输出浮点数。 6表示输出的总宽度为6个字符&#…...

编程日记 2024/2/12 17:34:46

【linux温故】CFS调度

写在前面网上关于CFS 调度器的文章多如牛毛，没必要自己写。很多文章写的都非常好。很多文章里，关键的技术点，都是一样的，只是各个文章说法不一样。掌握了核心的，关键的，其他的，如果工作中…...

编程日记 2024/2/12 17:33:45

计算机网络之一

目录 1.因特网概述 1.1网络、互连网（互联网）和因特网 1.2.因特网发展的三个阶段 1.3基于ISP的三层架构的因特网 1.4.因特网的组成 2.三种交换方式 2.1电路交换 2.2分组交换 1.因特网概述 1.1网络、互连网（互联网）和因特网…...

编程日记 2024/2/12 17:30:42

从一到无穷大 #23 《流计算系统图解》书评

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。本作品 (李兆龙博文, 由李兆龙创作)，由李兆龙确认，转载请注明版权。文章目录引言内容总结引言春节假期回到家里断然是不会有看纸质书的时间的。造化弄人&#…...

编程日记 2024/2/12 17:28:40

华为问界M9：领跑未来智能交通的自动驾驶黑科技

华为问界M9是一款高端电动汽车，其自动驾驶技术是该车型的重要卖点之一。华为在问界M9上采用了多种传感器和高级算法，实现了在不同场景下的自动驾驶功能，包括自动泊车、自适应巡航、车道保持、自动变道等。华为问界M9的自动驾驶技术惊艳之处…...

编程日记 2024/2/12 17:27:39

Java图形化界面编程——弹球游戏笔记

Java也可用于开发一些动画。所谓动画，就是间隔一定的时间(通常小于0 . 1秒 )重新绘制新的图像，两次绘制的图像之间差异较小，肉眼看起来就成了所谓的动画。为了实现间隔一定的时间就重新调用组件的 repaint()方法，可以借助于…...

编程日记 2024/2/12 17:24:36

浅谈人工智能之深度学习~

目录前言：深度学习的进展一：深度学习的基本原理和算法二：深度学习的应用实例三：深度学习的挑战和未来发展方向四：深度学习与机器学习的关系五：深度学习与人类的智能交互悟已往之不谏&#xff0…...

编程日记 2024/2/12 17:22:34

【复现】大华 DSS SQL 注入漏洞_46

目录一.概述二 .漏洞影响三.漏洞复现 1. 漏洞一： 四.修复建议： 五. 搜索语法： 六.免责声明一.概述大华DSS是大华的大型监控管理应用平台，支持几乎所有涉及监控等方面的操作，支持多级跨平台联网等操作。可…...

编程日记 2024/2/12 17:15:27

Python 中的断点类型详解

前言在 Python 中，断点是一种在代码中设置的标记，用于在程序执行过程中停止或中断程序的执行，以便调试和查看程序的内部状态。断点是调试工具的关键组成部分，能够帮助开发者定位和解决代码中的错误。本文将详细介绍 Python 中的…...

编程日记 2024/2/12 17:07:20

一步步建立一个C#项目(连续读取S7-1200PLC数据)

这篇博客作为C#的基础系列，和大家分享如何一步步建立一个C#项目完成对S7-1200PLC数据的连续读取。首先创建一个窗体应用。 1、窗体应用 2、配置存储位置 3、选择框架拖拽一个Button,可以选择视图菜单---工具箱 4、工具箱拖拽Lable控件和TextBook控件 5、拖拽控件接下来…...

编程日记 2024/2/12 17:02:11

Hive窗口函数详解

一、窗口函数知识点 1.1 窗户函数的定义窗口函数可以拆分为【窗口函数】。窗口函数官网指路： LanguageManual WindowingAndAnalytics - Apache Hive - Apache Software Foundationhttps://cwiki.apache.org/confluence/display/Hive/LanguageManual%20Windowing…...

编程日记 2024/2/12 17:01:10

车载电子电器架构 —— 电子电气系统功能开发

车载电子电器架构 —— 电子电气系统功能开发我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：本就是小人物，输了就是输了，不要在意别人怎么看自己。江湖一碗茶，喝完再挣扎，出门靠自己，四海皆…...

编程日记 2024/2/12 16:40:47

LeetCode--代码详解 7.整数反转

7.整数反转题目给你一个 32 位的有符号整数 x ，返回将 x 中的数字部分反转后的结果。如果反转后整数超过 32 位的有符号整数的范围 [−231, 231 − 1] ，就返回 0。假设环境不允许存储 64 位整数（有符号或无符号）。示例 …...

编程日记 2024/2/12 16:35:42

《统计学简易速速上手小册》第6章：多变量数据分析（2024 最新版）

文章目录 6.1 主成分分析（PCA）6.1.1 基础知识6.1.2 主要案例：客户细分6.1.3 拓展案例 1：面部识别6.1.4 拓展案例 2：基因数据分析 6.2 聚类分析6.2.1 基础知识6.2.2 主要案例：市场细分6.2.3 拓展案例 1&…...

编程日记 2024/2/12 16:31:38

创新S3存储桶检索：Langchain社区S3加载器搭载OpenAI API

在瞬息万变的数据存储和处理领域，将高效的云存储解决方案与先进的 AI 功能相结合，为处理大量数据提供了一种变革性的方法。本文演示了使用 MinIO、Langchain 和 OpenAI 的 GPT-3.5 模型的实际实现，重点总结了存储在 MinIO 存储桶中的文档。 …...

编程日记 2024/2/12 16:30:37

【Linux技术宝典】Linux入门：揭开Linux的神秘面纱

文章目录官网Linux 环境的搭建方式一、什么是Linux？二、Linux的起源与发展三、Linux的核心组件四、Linux企业应用现状五、Linux的发行版本六、为什么选择Linux？七、总结 Linux，一个在全球范围内广泛应用的开源操作系统，近年来越来…...

编程日记 2024/2/12 16:29:36

3.3.1_1 检错编码（奇偶校验码）

从这节课开始，我们会探讨数据链路层的差错控制功能，差错控制功能的主要目标是要发现并且解决一个帧内部的位错误，我们需要使用特殊的编码技术去发现帧内部的位错误，当我们发现位错误之后，通常来说有两种解决方案。第一…...

编程新知 2026/1/30 3:28:14

关于nvm与node.js

1 安装nvm 安装过程中手动修改 nvm的安装路径， 以及修改通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解，但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后，通常在该文件中会出现以下配置&…...

编程新知 2026/1/28 15:17:32

LeetCode - 394. 字符串解码

题目 394. 字符串解码 - 力扣（LeetCode） 思路使用两个栈：一个存储重复次数，一个存储字符串遍历输入字符串： 数字处理：遇到数字时，累积计算重复次数左括号处理：保存当前状态&a…...

编程新知 2026/1/25 10:09:59

大语言模型如何处理长文本？常用文本分割技术详解

为什么需要文本分割？引言：为什么需要文本分割？一、基础文本分割方法1. 按段落分割（Paragraph Splitting）2. 按句子分割（Sentence Splitting）二、高级文本分割策略3. 重叠分割（Sliding Window）4. 递归分割（Recursive Splitting）三、生产级工具推荐5. 使用LangChain的…...

编程新知 2025/11/18 0:32:13

Matlab | matlab常用命令总结

常用命令一、基础操作与环境二、矩阵与数组操作（核心）三、绘图与可视化四、编程与控制流五、符号计算 (Symbolic Math Toolbox)六、文件与数据 I/O七、常用函数类别重要提示这是一份 MATLAB 常用命令和功能的总结，涵盖了基础操作、矩阵运算、绘图、编程和文件处理等…...

编程新知 2025/8/11 1:05:59

AI编程--插件对比分析：CodeRider、GitHub Copilot及其他

AI编程插件对比分析：CodeRider、GitHub Copilot及其他随着人工智能技术的快速发展，AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者，分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...

编程新知 2026/1/25 16:39:17

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，但是它有一个很大的缺陷——很难并行化。我们可以考虑用CNN来替代RNN，但是…...

编程新知 2026/2/1 7:05:07

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

这个问题我看其他博主也写了，要么要会员、要么写的乱七八糟。这里我整理一下，把问题说清楚并且给出代码，拿去用就行，照着葫芦画瓢。问题在继承QWebEngineView后，重写mousePressEvent或event函数无法捕获鼠标按下事…...

编程新知 2025/6/11 3:07:32

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...

编程新知 2026/1/25 10:41:07

深度学习水论文：mamba＋图像增强

🧀当前视觉领域对高效长序列建模需求激增，对Mamba图像增强这方向的研究自然也逐渐火热。原因在于其高效长程建模，以及动态计算优势，在图像质量提升和细节恢复方面有难以替代的作用。 🧀因此短时间内，就有不…...

编程新知 2026/1/26 4:52:47