【MySQL】深入了解索引的底层逻辑结构
文章目录
- 主键排序
- 一. InnoDB的索引结构
- 1. 单个page
- 2. 多个page
- 二. 为什么选择B+树
- 三. 聚簇索引和非聚簇索引
- 结束语
主键排序
我们创建一个user表,并乱序
插入数据
mysql> create table if not exists user(-> id int primary key,-> age int not null,-> name varchar(16) not null-> );mysql> insert into user (id,age,name )values(3,18,'杨过'),(4,16,'小龙女'),(2,26,'黄蓉'),(5,36,'郭靖'),(1,56,'欧阳锋');
Query OK, 5 rows affected (0.00 sec)
Records: 5 Duplicates: 0 Warnings: 0mysql> select * from user;
+----+-----+-----------+
| id | age | name |
+----+-----+-----------+
| 1 | 56 | 欧阳锋 |
| 2 | 26 | 黄蓉 |
| 3 | 18 | 杨过 |
| 4 | 16 | 小龙女 |
| 5 | 36 | 郭靖 |
+----+-----+-----------+
5 rows in set (0.00 sec)
我们发现,虽然是乱序插入,但是显示出来却是排好序的。这是MySQL做的吗?让我们带着这个疑问开始本章的学习
一. InnoDB的索引结构
MySQL的基本单位是Page,Page存储着数据,而一个数据表文件因其数据量多少由一个或多个Page构成
1. 单个page
不同的Page,在MySQL中,都是16KB大小,使用page_prev和page_next互相链接,构成双向链表
上面构建的user表,因为有主键,所以MySQL会默认按照主键对数据进行排序,让Page内的数据是有序且彼此关联的
排序同时也可以提高查询速度
Page内部存放数据,实质是使用了链表,链表是增删快,查询慢,所以需要优化查询效率。
而有序,可以保证每次查询都是有效查询,当前值一定比前面的值大,比后面的值小。
2. 多个page
- Page的作用是在查询数据时,
直接将一整页的数据加载到内存中,以减少IO次数,从而提高性能
。但Page内部采用了链表的结构,还是需要线性遍历的,效率太低
MySQL使用页目录
进一步提高查询效率
页目录
我们在看一本书时,前几页是整本书的目录,如果我们想查看其中的某一章节,那么就可以根据目录中那一章节的页数,跳跃查找
但存储目录同样需要纸张,所以目录是一种以空间换时间
的做法
单页情况
我们在单页Page中加入目录
通过引入目录,如果我们要查询id=4的数据,之前需要线性遍历4次,但现在可以先通过目录2[3],直接进行定位新的起始位置,提高了效率。
所以,为什么MySQL要自动排序呢?
因为方便引入目录
多页情况
Page的大小为16KB,当数据量不断增大时,势必需要多个Page存储数据
在单表数据不断被插入的情况下,MySQL会在容量不足时,自动开辟新的Page来保存新的数据,使用指针的方式,将所有的Page组织起来
而当Page越来越多时,Page之间也是使用指针连接,整体是双向链表结构,Page之间仍是线性查询。
如何解决呢?其实是一样的,给这些Page也带上目录就好了
- 使用一个目录来指向某一页,而这个目录项存放的是指向的
Page中存放的最小的数据的键值
- 和Page内目录不同的地方在于,这种目录管理的级别是Page,页内目录管理级别是行
- 其中,每个目录项的构成是:
键值+指针
(下图没画指针的地址)
存在一个目录页来管理页目录,目录页中的数据存放的就是指向的那个Page中最小的数据。有数据,就可以通过比较,找到该访问那个Page,进而通过指针,找到下一个Page
目录页的本质也是页,普通页中存放的是用户数据,目录页存放的是普通页的地址
即使数据量变大,页目录变大,我们依然可以再在上方添加管理页目录的页目录来加快检索效率
这种结构其实就是B+树
此时,随便查找一个id值,查找的Page数减少,意味着IO次数也减少了,那么效率也就提高了
总结一下
- Page分为
目录页
和数据页
,目录页只放各个下级Page的最小键值 - 查找的时候,
自顶向下
查找,只需要加载部分目录页到内存中
,即可以完成算法的整个查找过程,大大减少了IO次数
二. 为什么选择B+树
-
链表or线性表
链表和线性表肯定是不行的,线性查找的效率太低了 -
二叉搜索树
二叉搜索树,如果插入的值一直比起始都大或者小,就会出现退化的问题,变成线性结构 -
AVL树&&红黑树
虽然AVL树是平衡树,红黑树是接近平衡,但是毕竟是二叉结构,相比较多阶B+,意味着树整体过高。都是自顶向下查找,层高越低,意味着查找次数越少,系统与硬盘的IO次数更少 -
Hash
官方的索引实现中,MySQL是支持Hash的,不过InnoDB和MyISAM并不支持Hase跟进其算法特征,决定了虽然有时候也很快O(1),不过,在面对范围查找就明显不行,另外还有其他差别,有兴趣可以查一下
图中的BTREE是B+树
- B树
数据结构演示链接:数据结构可视化
B树
B+树
-
B树的节点,既有数据,又有Page指针,而B+树,只有叶子节点有数据,其他目录页只有键值和Page指针
-
B+树的叶子节点是相连的,而B树没有
之所以选择B+树,是因为目录页不存储数据,只存储指针,可以存储更多的key,可以使得树更矮
,所以IO次数更少
叶子节点相连,也更便于进行范围查找
三. 聚簇索引和非聚簇索引
先介绍一下MyISAM的存储结构
MyISAM同样使用B+树
,但不同的是叶节点的数据存放的是数据记录的地址。
如下图所示:CoI1为主键
MyISAM最大的特点,是将索引Page和数据Page分离,也就是叶子节点没有数据,只有对应数据的地址
相较于InnoDB索引,InnoDB是将索引和数据放在一起的
用MyISAM为存储引擎创建表会形成三个文件
.frm后缀表示表结构数据
.MYD后缀表示用户数据
.MYI后缀表示主键索引数据
其中,MyISAM这种用户数据与索引数据分离的索引方案,叫做非聚簇索引
用InnoDB为存储引擎创建表会形成两个文件
.from后缀表示表结构数据
.ibd后缀表示主键索引和用户数据
InnoDB这种用户数据与索引数据放在一起的索引方案,叫做聚簇索引
MySQL除了默认会建立主键索引以外,用户也可能按照需求用其他列信息建立索引,一般这种索引叫做普通(辅助)索引
对于MyISAM建立普通索引和主键索引没有什么差别,无非是主键不能重复,而非主键可以重复
下图是基于MyISAM的Col2建立的索引,和主键索引没有差别
MyISAM建立索引,会建立一个新的B+树
,页目录和叶子结点所存储的指针改变
,不会建立新的数据表
同样,InnoDB除了主键索引,用户也会创建普通索引,以上表的Col3建立普通索引,如下图
可以看到,InnoDB的非主键索引中叶子节点并没有数据,而只有对应记录的key值,存储的是主键索引的键值
所以通过普通索引,找到目标记录,需要两遍索引
:
首先检索普通索引获得主键
然后用主键在主键索引中检索获得数据。
这个过程,叫作回表查询
结束语
感谢你的阅读
如果觉得本篇文章对你有所帮助的话,不妨点个赞支持一下博主,拜托啦,这对我真的很重要。
相关文章:
【MySQL】深入了解索引的底层逻辑结构
文章目录 主键排序一. InnoDB的索引结构1. 单个page2. 多个page 二. 为什么选择B树三. 聚簇索引和非聚簇索引结束语 主键排序 我们创建一个user表,并乱序插入数据 mysql> create table if not exists user(-> id int primary key,-> age int not null,-&…...
Android之SpannableString使用
文章目录 前言一、效果图二、实现代码总结 前言 在开发中,往往有些需求是我们不愿意遇到的,但是也不得不处理的事情,比如一段文案,需要文案中某些文字变颜色或者点击跳转,所以简单写了几句代码实现,没什么…...
【Python】Python求均值、中值和众数
Python求均值、中值和众数 我们将讨论如何使用描述性统计数据进行数据分析,包括: 均值——一组值的平均值; 中值——当所有值按顺序排列时的中间值; 众数——最常出现的值。 以上这些都是集中趋势度量,每种都会产生一个值来表示一组值中的“…...
NPM 常用命令(十二)
目录 1、npm unpublish 1.1 使用语法 1.2 描述 2、npm unstar 2.1 使用语法 3、npm update 3.1 使用语法 3.2 描述 3.3 示例 插入符号依赖 波浪号依赖 低于 1.0.0 的插入符号依赖 子依赖 更新全局安装的包 4、npm version 4.1 使用语法 5、npm view 5.1 使用语…...
数据在内存中的存储(2)
文章目录 3. 浮点型在内存中的存储3.1 一个例子3.2 浮点数存储规则 3. 浮点型在内存中的存储 常见的浮点数: 3.14159 1E10 ------ 1.0 * 10^10 浮点数家族包括: float、double、long double 类型 浮点数表示的范围:float.h中定义 3.1 一个例…...
软件工程与计算总结(十三)详细设计中的模块化与信息隐藏
一.模块化与信息隐藏思想 1.设计质量 好的设计要着重满足以下3方面:可管理性、灵活性、可理解性好的设计需要侧重于间接性和可观察性——简洁性使得系统模块易于管理(理解和分解)、开发(修改与调试)和复用。实践者都…...
RF学习——器件的非线性失真分析
在大信号激励下的射频系统 在电路中,如果激励信号的幅度不可忽视,那么就会产生非线性失真。如二极管,晶体管等电路元件的特性在大信号激励下回变得非线性,输入和输出的形状不同,产生失真。 在功率放大器PA中,随着传输给负载的功率增大而迅速增大,传递功率的规格要始终考…...
SUB-1G SOC芯片DP4306F 32 位 ARM Cortex-M0+内核替代CMT2380F32
DP4306F是一款高性能低功耗的单片集成收发机,集成MO核MCU,工作频率可覆盖200MHiz^ 1000MHz。 支持230/408/433/470/868/915频段。该芯片集成了射频接收器、射频发射器、频率综合器、GFSK调制器、GFSK解调器等功能模块。通过SPI接口可以对输出功率、频道选…...
接收请求地址下载并输出文件流实现
代码: import httpxfrom datetime import datetime from io import BytesIO from fastapi.responses import StreamingResponse@router.get("/download", tags=["下载"]) async...
【iOS】——用单例类封装网络请求
文章目录 一、JSONModel1.JSONModel的简单介绍2.JSONModel的使用 二、单例类和Block传值 一、JSONModel 1.JSONModel的简单介绍 JSONModel一个第三方库,这个库用来将网络请求到的JSON格式的数据转化成Foundation框架下的Model类的属性,这样我们就可以直…...
再学Blazor——概述
简介 Blazor 是一种 .NET 前端 Web 框架,同时支持服务器端呈现和客户端交互性。 使用 C# 语言创建丰富的交互式 UI共享前后端应用逻辑可以生成混合桌面和移动应用受益于 .NET 的性能、可靠性和安全性需要有 HTML、CSS、JS 相关基础(开发 UI 框架的话&a…...
Ceph运维笔记
Ceph运维笔记 一、基本操作 ceph osd tree //查看所有osd情况 其中里面的weight就是CRUSH算法要使用的weight,越大代表之后PG选择该osd的概率就越大 ceph -s //查看整体ceph情况 health_ok才是正常的 ceph osd out osd.1 //将osd.1踢出集群 ceph osd i…...
RTSP协议
1 前言 RTSP协议作为音视频实时监控一个非常重要的协议,具有非常广泛的应用。RTSP由RFC 2326规范化,它允许客户端通过请求不同的媒体资源来控制流媒体服务器。RTSP是一种应用层协议,通常基于TCP连接,用于建立和控制媒体会话。这使…...
Maven系列第6篇:生命周期和插件详解?
maven系列目标:从入门开始开始掌握一个高级开发所需要的maven技能。 这是maven系列第6篇。 整个maven系列的内容前后是有依赖的,如果之前没有接触过maven,建议从第一篇看起,本文尾部有maven完整系列的连接。 前面我们使用maven…...
【通义千问】大模型Qwen GitHub开源工程学习笔记(4)-- 模型的量化与离线部署
摘要: 量化方案基于AutoGPTQ,提供了Int4量化模型,其中包括Qwen-7B-Chat和Qwen-14B-Chat。更新承诺在模型评估效果几乎没有损失的情况下,降低存储要求并提高推理速度。量化是指将模型权重和激活的精度降低以节省存储空间并提高推理速度的过程。AutoGPTQ是一种专有量化工具。…...
2022最新版-李宏毅机器学习深度学习课程-P23 为什么用了验证集结果还是过拟合
用了验证集还有可能会过拟合 这个片段可以从理论上证明这一点 以上整个挑选模型的过程也可以想象为一种训练。 把三个模型导出的最小损失公式看成一个集合,现在要做的就是在这个集合中找到某个h(此处可以视为训练),使得在验证集…...
Spring Cloud Alibaba—Sentinel 控制台安装
1、Sentinel 控制台包含如下功能: 查看机器列表以及健康情况:收集 Sentinel 客户端发送的心跳包,用于判断机器是否在线。 监控 (单机和集群聚合):通过 Sentinel 客户端暴露的监控 API,定期拉取并且聚合应用监控信息,最…...
基于动物迁徙优化的BP神经网络(分类应用) - 附代码
基于动物迁徙优化的BP神经网络(分类应用) - 附代码 文章目录 基于动物迁徙优化的BP神经网络(分类应用) - 附代码1.鸢尾花iris数据介绍2.数据集整理3.动物迁徙优化BP神经网络3.1 BP神经网络参数设置3.2 动物迁徙算法应用 4.测试结果…...
一键搞定!黑群晖虚拟机+内网穿透实现校园公网访问攻略!
文章目录 前言本教程解决的问题是:按照本教程方法操作后,达到的效果是前排提醒: 1. 搭建群晖虚拟机1.1 下载黑群晖文件vmvare虚拟机安装包1.2 安装VMware虚拟机:1.3 解压黑群晖虚拟机文件1.4 虚拟机初始化1.5 没有搜索到黑群晖的解…...
【C语言】——通讯录(静态-动态增长-文件储存)
目录 前言: 一:整体框架 关于通讯录结构体的创建 二:通讯录的功能实现(静态) 2.1初始化通讯录 2.2增加联系人 2.3打印通讯录 2.4删除联系人 2.5 查找联系人 2.6修改联系人 2.7排序联系人 三:通…...
win10安装nginx及简单使用(命令)
下载 下载地址:http://nginx.org/en/download.html 使用 解压 更改配置 conf目录下nginx.conf 修改为未被占用的端口,地址改成你的地址 server {# 监听端口 listen 9010;# 地址 server_name 127.0.0.1;# 静态资源location / {root html;i…...
【农业生产系统模型】基于R语言APSIM模型进阶应用与参数优化、批量模拟实践技术
随着数字农业和智慧农业的发展,基于过程的农业生产系统模型在模拟作物对气候变化的响应与适应、农田管理优化、作物品种和株型筛选、农田固碳和温室气体排放等领域扮演着越来越重要的作用。APSIM (Agricultural Production Systems sIMulator)模型是世界知名的作物生…...
金融数学方法:梯度下降法
1.算法介绍 梯度下降法是一种常用的优化算法,其通过沿着梯度下降的方向迭代寻找局部极小值。如果沿着梯度上升的方向迭代,就可以找到极大值。 在梯度下降法中,我们首先需要选择一个初始点 x 0 x_0 x0作为起始位置,然后计算当前位…...
1031 查验身份证
一.问题: 一个合法的身份证号码由17位地区、日期编号和顺序编号加1位校验码组成。校验码的计算规则如下: 首先对前17位数字加权求和,权重分配为:{7,9,10,5,8,4…...
如何共享 Android 不同模块的构建配置
最近想重新梳理学习一遍 Android 的各个知识点,于是新建了一个 AndroidStudy 项目仓库,打算每个知识块新建 1 个 module。 类似这样: AndroidStudy (Root Project) ├─app (Module0) ├─CustomView (Module1) ├─KotlinCoroutines (Modul…...
atlas运维中遇到的问题
1、java.lang.NoClassDefFoundError:javax/ws/rs/core/Link$Builder 主要原因:jsr311-api包中javax.ws.rs.core包中没有Link类,而Atlas以HBase作为元数据存储,HBase本身使用的为javax.ws.rs-api包中的core包,其中有Lin…...
06-React的路由
06-React的路由 1.相关理解 1).SPA的理解 单页Web应用(single page web application,SPA)。整个应用只有一个完整的页面。点击页面中的链接不会刷新页面,只会做页面的局部更新。数据都需要通过ajax请求获取, 并在前端异步展现。…...
虹科方案 | 加州理工学院利用HK-TrueNAS开展地震研究
一、客户背景 加州理工学院(CalTech)是世界顶尖的理工类科学研究型学府之一。加州理工学院地震实验室是加州理工学院地质与行星科学部(GPS)的一个分支机构,成立于1921年,自20年代以来一直是世界地震学研究中心,并且几十年来一直是媒体对大地…...
宝塔面板部署express以及MySql项目
第一次在宝塔面板上部署express和MySql项目,部署过程一直跑不通接口,特此记录一下。 在部署的时候,建议第一步把数据库MySql给跑通,中间好多原因是由于数据库的原因给引起的。 一.连接数据库 (1)在宝塔面…...
联盟链学习笔记-网络的创建
联盟链学习笔记 初始网络 下图是初始网络网络N的参考图 排序服务 在定义 网络 N 的时候,第一件事情就是定义一个 排序服务O4。O4 最初被配置并且由组织 R4 的一个管理员来启动,并且由 R4 管理。配置 NC4 包含了描述网络管理能力初始集合的规则。最初在…...
坂田网站建设/全网关键词搜索工具
最近鹏哥在总结目前市面流行的开源软件,努力发现有价值的项目分享给大家。如果你看到下边的官网,是不是第一感觉是这绝对是一个商业软件的官网,鹏哥告诉你,你错了!这个就是今天鹏哥要推荐的项…...
网站广告推送怎么做/官方正版清理优化工具
一、八大排序 排序也称排序算法(Sort Algorithm),排序是将一组数据,依指定的顺序进行排列的过程。 排序分类 总体对比 1 冒泡排序 基本思想 冒泡排序(Bubble Sorting)的基本思想是:通过对待排序序列从前向后&…...
企业网站建设方案.doc/响应式网站 乐云seo品牌
elites alliance allies revert stewardship fringe orthodoxy creak incitement repudiate wrangle democrat credence filibuster petition disbar purge tumor ductal oncogenic mutant inflammation progenitor...
陕西省住房城乡建设部门户网站/外包公司什么意思
缓存区溢出漏洞工具DoonaDoona是缓存区溢出漏洞工具BED的分支。它在BED的基础上,增加了更多插件,如nttp、proxy、rtsp、tftp等。同时,它对各个插件扩充了攻击载荷,这里也称为模糊用例(fuzz case)࿰…...
全球网站域名/关键词排名优化系统
hashMap源码获取元素的位置: static int indexFor(int h, int length) {// assert Integer.bitCount(length) 1 : "length must be a non-zero power of 2";return h & (length-1); } 解释: h:为插入元素的hashcode length:为map的容量…...
长宁网站建设价格/百度今日数据
发布于vn.py社区公众号【vnpy-community】 原文作者:张国平 | 发布时间: 2020-01-26 cProfile介绍较为大型的程序在开发完成后,通常都会采用以下步骤来进行性能优化:对代码的执行效能测量与分析(profiling);…...