MySQL实战解析底层---“order by“是怎么工作的
目录
前言
全字段排序
rowid排序
全字段排序 VS rowid排序
-
前言
- 在开发应用的时候,一定会经常碰到需要根据指定的字段排序来显示结果的需求
- 以举例市民表为例,假设你要查询城市是“杭州”的所有人名字,并且按照姓名排序返回前1000个人的姓名、年龄
- 假设这个表的部分定义是这样的:
- 这时的SQL语句可以这么写:
- 这个语句看上去逻辑很清晰,但是你了解它的执行流程吗?
- 在这篇文章聊聊这个语句是怎么执行的,以及有什么参数会影响执行的行为
-
全字段排序
- 前面介绍过索引,所以现在就很清楚了,为避免全表扫描,需要在city字段加上索引
- 在city字段上创建索引之后,用explain命令来看看这个语句的执行情况
- Extra这个字段中的“Using filesort”表示的就是需要排序,MySQL会给每个线程分配一块内存用于排序,称为sort_buffer
- 为了说明这个SQL查询语句的执行过程,先来看一下city这个索引的示意图:
- 从图中可以看到,满足city='杭州'条件的行,是从ID_X到ID_(X+N)的这些记录
- 通常情况下,这个语句执行流程如下所示:
- 1-初始化sort_buffer,确定放入name、city、age这三个字段
- 2-从索引city找到第一个满足city='杭州'条件的主键id,也就是图中的ID_X
- 3-到主键id索引取出整行,取name、city、age三个字段的值,存入sort_buffer中
- 4-从索引city取下一个记录的主键id
- 5-重复步骤3、4直到city的值不满足查询条件为止,对应的主键id也就是图中的ID_Y
- 6-对sort_buffer中的数据按照字段name做快速排序
- 7-按照排序结果取前1000行返回给客户端
- 暂且把这个排序过程,称为全字段排序,执行流程的示意图如下所示:
- 图中“按name排序”这个动作,可能在内存中完成,也可能需要使用外部排序,这取决于排序所需的内存和参数sort_buffer_size
- sort_buffer_size,就是MySQL为排序开辟的内存(sort_buffer)的大小
- 如果要排序的数据量小于sort_buffer_size,排序就在内存中完成
- 但如果排序数据量太大,内存放不下,则不得不利用磁盘临时文件辅助排序
- 可以用一些方法,来确定一个排序语句是否使用了临时文件
- 某个方法是通过查看 OPTIMIZER_TRACE 的结果来确认的,可以从 number_of_tmp_files中看到是否使用了临时文件
- number_of_tmp_files表示的是,排序过程中使用的临时文件数
- 你一定奇怪,为什么需要12个文件?
- 内存放不下时,就需要使用外部排序,外部排序一般使用归并排序算法
- 可以这么简单理解,MySQL将需要排序的数据分成12份,每一份单独排序后存在这些临时文件中
- 然后把这12个有序文件再合并成一个有序的大文件
- 如果sort_buffer_size超过了需要排序的数据量的大小,number_of_tmp_files就是0,表示排序可以直接在内存中完成
- 否则就需要放在临时文件中排序
- sort_buffer_size越小,需要分成的份数越多,number_of_tmp_files的值就越大
- 接下来再解释一下上图中其他两个值的意思
- 示例表中有4000条满足city='杭州’的记录,所以可以看到 examined_rows=4000,表示参与排序的行数是4000行
- sort_mode 里面的packed_additional_fields的意思是,排序过程对字符串做了“紧凑”处理
- 即使name字段的定义是varchar(16),在排序过程中还是要按照实际长度来分配空间的
- 这里需要注意的是,为了避免对结论造成干扰,把internal_tmp_disk_storage_engine设置成MyISAM
- internal_tmp_disk_storage_engine:内部临时表默认采用的存储引擎
- 否则,select 的结果会显示为4001
- 这是因为查询OPTIMIZER_TRACE这个表时,需要用到临时表,而internal_tmp_disk_storage_engine的默认值是InnoDB
- 如果使用的是InnoDB引擎的话,把数据从临时表取出来的时候,会让Innodb_rows_read的值加1
-
rowid排序
- 在上面这个算法过程里面,只对原表的数据读了一遍,剩下的操作都是在sort_buffer和临时文件中执行的
- 但这个算法有一个问题,就是如果查询要返回的字段很多的话,那么sort_buffer里面要放的字段数太多,这样内存里能够同时放下的行数很少,要分成很多个临时文件,排序的性能会很差
- 所以如果单行很大,这个方法效率不够好
- 那么,如果MySQL认为排序的单行长度太大会怎么做呢?
- 接下来,修改一个参数,让MySQL采用另外一种算法
- max_length_for_sort_data,是MySQL中专门控制用于排序的行数据的长度的一个参数
- 它的意思是,如果单行的长度超过这个值,MySQL就认为单行太大,要换一个算法
- city、name、age 这三个字段的定义总长度是36,把max_length_for_sort_data设置为16,再来看看计算过程有什么改变
- 新的算法放入sort_buffer的字段,只有要排序的列(即name字段)和主键id
- 但这时,排序的结果就因为少了city和age字段的值,不能直接返回了,整个执行流程就变成如下所示的样子:
- 1-初始化sort_buffer,确定放入两个字段,即name和id
- 2-从索引city找到第一个满足city='杭州’条件的主键id,也就是图中的ID_X
- 3-到主键id索引取出整行,取name、id这两个字段,存入sort_buffer中
- 4.从索引city取下一个记录的主键id
- 5-重复步骤3、4直到不满足city='杭州’条件为止,也就是图中的ID_Y
- 6.对sort_buffer中的数据按照字段name进行排序
- 7-遍历排序结果,取前1000行,并按照id的值回到原表中取出city、name和age三个字段返回给客户端
- 这个执行流程的示意图如下,我把它称为rowid排序:
- 对比之前的全字段排序流程图你会发现,rowid排序多访问了一次表t的主键索引,就是步骤7
- 需要说明的是,最后的“结果集”是一个逻辑概念,实际上MySQL服务端从排序后的sort_buffer中依次取出id,然后到原表查到city、name和age这三个字段的结果,不需要在服务端再耗费内存存储结果,是直接返回给客户端的
- 根据这个说明过程和图示,可以想一下,这个时候执行select ,结果会是多少呢?
- 现在就来看看结果有什么不同
- 首先,图中的examined_rows的值还是4000,表示用于排序的数据是4000行
- 但是select 这个语句的值变成5000了
- 因为这时候除了排序过程外,在排序完成后,还要根据id去原表取值
- 由于语句是limit 1000,因此会多读1000行
- 从OPTIMIZER_TRACE的结果中,还能看到另外两个信息也变了
- sort_mode变成了<sort_key, rowid>,表示参与排序的只有name和id这两个字段
- number_of_tmp_files变成10了,是因为这时候参与排序的行数虽然仍然是4000行,但是每一行都变小了,因此需要排序的总数据量就变小了,需要的临时文件也相应地变少了
-
全字段排序 VS rowid排序
- 来分析一下,从这两个执行流程里,还能得出什么结论
- 如果MySQL实在是担心排序内存太小,会影响排序效率,才会采用rowid排序算法,这样排序过程中一次可以排序更多行,但是需要再回到原表去取数据
- 如果MySQL认为内存足够大,会优先选择全字段排序,把需要的字段都放到sort_buffer中,这样排序后就会直接从内存里面返回查询结果了,不用再回到原表去取数据
- 这也就体现了MySQL的一个设计思想:如果内存够,就要多利用内存,尽量减少磁盘访问
- 对于InnoDB表来说,rowid排序会要求回表多造成磁盘读,因此不会被优先选择
- 这个结论看上去有点废话的感觉,但是要记住它
- 看到这里就了解了,MySQL做排序是一个成本比较高的操作
- 那么是不是所有的order by都需要排序操作呢?
- 如果不排序就能得到正确的结果,那对系统的消耗会小很多,语句的执行时间也会变得更短
- 其实,并不是所有的order by语句,都需要排序操作的
- 从上面分析的执行过程,可以看到,MySQL之所以需要生成临时表,并且在临时表上做排序操作,其原因是原来的数据都是无序的
- 可以设想下,如果能够保证从city这个索引上取出来的行,天然就是按照name递增排序的话,是不是就可以不用再排序了呢?确实是这样的
- 所以可以在这个市民表上创建一个city和name的联合索引,对应的SQL语句是:
- 作为与city索引的对比,来看看这个索引的示意图
- 在这个索引里面,依然可以用树搜索的方式定位到第一个满足city='杭州'的记录,并且额外确保了,接下来按顺序取“下一条记录”的遍历过程中,只要city的值是杭州,name的值就一定是有序的
- 这样整个查询过程的流程就变成了:
- 1-从索引(city,name)找到第一个满足city='杭州'条件的主键id
- 2-到主键id索引取出整行,取name、city、age三个字段的值,作为结果集的一部分直接返回
- 3-从索引(city,name)取下一个记录主键id
- 4-重复步骤2、3,直到查到第1000条记录,或者是不满足city='杭州'条件时循环结束
- 可以看到,这个查询过程不需要临时表,也不需要排序
- 接下来用explain的结果来印证一下
- 从图中可以看到,Extra字段中没有Using filesort了,也就是不需要排序了
- 而且由于(city,name)这个联合索引本身有序,所以这个查询也不用把4000行全都读一遍,只要找到满足条件的前1000条记录就可以退出了
- 也就是说,在这个例子里,只需要扫描1000次
- 那这个语句的执行流程有没有可能进一步简化呢?
- 覆盖索引是指,索引上的信息足够满足查询请求,不需要再回到主键索引上去取数据
- 按照覆盖索引的概念,可以再优化一下这个查询语句的执行流程
- 针对这个查询,可以创建一个city、name和age的联合索引,对应的SQL语句就是:
- 这时,对于city字段的值相同的行来说,还是按照name字段的值递增排序的,此时的查询语句也就不再需要排序了
- 这样整个查询语句的执行流程就变成了:
- 1-从索引(city,name,age)找到第一个满足city='杭州’条件的记录,取出其中的city、name和age这三个字段的值,作为结果集的一部分直接返回
- 2-从索引(city,name,age)取下一个记录,同样取出这三个字段的值,作为结果集的一部分直接返回
- 3-重复执行步骤2,直到查到第1000条记录,或者是不满足city='杭州'条件时循环结束
- 然后再来看看explain的结果
- 可以看到,Extra字段里面多了“Using index”,表示的就是使用了覆盖索引,性能上会快很多
- 当然,这里并不是说要为了每个查询能用上覆盖索引,就要把语句中涉及的字段都建上联合索引,毕竟索引还是有维护代价的
- 这是一个需要权衡的决定
相关文章:

MySQL实战解析底层---“order by“是怎么工作的
目录 前言 全字段排序 rowid排序 全字段排序 VS rowid排序 前言 在开发应用的时候,一定会经常碰到需要根据指定的字段排序来显示结果的需求以举例市民表为例,假设你要查询城市是“杭州”的所有人名字,并且按照姓名排序返回前1000个人的姓…...

Linux和Shell:开源力量与命令行之美
目录 一、概述二、Linux的简单介绍三、Shell的简单介绍四、Linux和Shell的应用领域五、Shell编程结语: 一、概述 Linux和Shell是开源世界中不可或缺的两个重要组成部分。Linux作为一种自由和开放的操作系统,以其稳定性、安全性和可定制性而备受推崇。而S…...

服务负载均衡Ribbon
服务负载均衡Ribbon Ribbon 介绍Ribbon 案例Ribbon 负载均衡策略Ribbon 负载均衡算法设置自定义负载均衡算法 Ribbon 介绍 Ribbon 是一个的客服端负载均衡工具,它是基于 Netflix Ribbon 实现的。它不像 Spring Cloud 服务注册中心、配置中心、API 网关那样独立部署…...

hibernate vilidator主要使用注解的方式对bean进行校验
hibernate vilidator主要使用注解的方式对bean进行校验,初步的例子如下所示: package com.learn.validate.domain; import javax.validation.constraints.Min; import org.hibernate.validator.constraints.NotBlank; public class Student { //在需要校…...

华为HCIP第一天---------RSTP
一、介绍 1、以太网交换网络中为了进行链路备份,提高网络可靠性,通常会使用冗余链路,但是这也带来了网络环路的问题。网络环路会引发广播风暴和MAC地址表震荡等问题,导致用户通信质量差,甚至通信中断。为了解决交换网…...

Jmeter(二) - 从入门到精通 - 创建测试计划(Test Plan)(详解教程)
1.简介 上一篇文章已经教你把JMeter的测试环境搭建起来了,那么这一篇我们就将JMeter启动起来,一睹其芳容,首先我给大家介绍一下如何来创建一个测试计划(Test Plan)。 2.创建一个测试计划(Test Plan&#x…...

Autosar诊断实战系列06-详解Dem中Event的NvM存储
本文框架 前言1. Dem触发NvM存储的基本流程2. Dem触发NvM存储的layout格式及内容2.1 Event在NvM中的layout格式2.2 Event在NvM中的存储内容2.3 Dem中Event与DTC的存储关系3.组合式Event(多个Event对应一个DTC)的存储处理3.1 仅分配一个Memory Entry3.2 检索方式3.3 一对一方式前…...

04 todoList案例
React全家桶 一、案例- TODO List 综合案例 功能描述 动态显示初始列表添加一个 todo删除一个 todo反选一个 todotodo 的全部数量和完成数量全选/全不选 todo删除完成的 todo 1.1 静态组件构建 将资料包中的todos_page/index.html中核心代码添加到Todo.jsx文件中,…...

海睿思分享 | 浅谈企业数据质量问题
一、数据质量问题场景 在日常工作中,业务领导经常通过BI系统来了解各项业务的业绩情况。倘若某天,他打开某张核心报表,发现当日某个区域的数据一直是空白的。BI开发人员经过几个小时的排查分析,发现是当日该区域的销售数据存在产…...

神经网络:激活函数
在计算机视觉中,激活函数是神经网络中的一种非线性函数,用于引入非线性变换和非线性特性到网络中。激活函数的作用、原理和意义如下: 1. 引入非线性变换: 神经网络的线性组合层(如卷积层和全连接层)只能表…...

图像色彩增强相关论文阅读-Representative Color Transform for Image Enhancement(ICCV2021)
文章目录 Representative Color Transform for Image EnhancementAbstractIntroductionRelated workMethod实验Conclusion Representative Color Transform for Image Enhancement 作者:Hanul Kim1, Su-Min Choi2, Chang-Su Kim3, Yeong Jun Koh 单位:S…...

Elasticsearch介绍与应用
Elasticsearch介绍与应用 Elasticsearch的官方文档。 Elasticsearch官网参考文档:https://www.elastic.co/guide/index.html Elasticsearch官方下载地址:https://www.elastic.co/cn/downloads/elasticsearch mvnrepository依赖库地址:http…...

JavaEE规范
Servlet:用于开发 Web 应用程序的 API,定义了处理 HTTP 请求和响应的方式。JSP(JavaServer Pages):一种在服务器端生成动态网页的技术,允许将 Java 代码嵌入到 HTML 页面中。(注意JSP本质就是一个Servlet)J…...

嵌入式实时操作系统的设计与开发New(八)
创建线程 用户在基于RTOS开发应用程序前,首先要创建线程。 用户创建一个线程时须指定用户希望采用的调度策略。 例如,用户想创建一个周期性执行的线程: acoral_period_policy_data_t* data; data acoral_malloc(sizeof(acoral_period_poli…...

MySQL事务相关笔记
杂项 InnoDB最大特点:支持事务和行锁; MyISAM不支持事务 介绍 一个事务是由一条或者多条对数据库操作的SQL语句所组成的一个不可分割的单元,只有当事务中的所有操作都正常执行完了,整个事务才会被提交给数据库。事务有如下特性…...

如何利用AI高效率快速调色
在设计行业中,时间是非常宝贵的资源,而设计师们常常需要应对繁忙的工作日程和紧迫的截止日期。为了提高工作效率和节省时间,越来越多的设计师开始利用人工智能(AI)技术中的高效调色功能。本文将介绍如何利用AI高效率快…...

数据结构--顺序表的基本操作--插入 and 删除
数据结构–顺序表的基本操作–插入 顺序表的插入操作 实现目标 ListInsert(&L,i,e):插入操作。在表L中的第i个位置上插入指定元素e。 typedef struct {int data[MaxSize];int len; }Sqlist;代码实现: #include <stdio.h> #include <stdlib.h> …...

BCSP-玄子Java开发之Java Web编程CH01_初识动态网页
BCSP-玄子Java开发之Java Web编程CH01_初识动态网页 1.1 B/S架构 B/S架构:浏览器/服务器 程序完全部署在服务器上使用浏览器访问服务器无需单独安装客户端软件 为什么要使用B/S架构 B/S与C/S比较B/S架构C/S架构软件安装浏览器需要专门的客户端应用升级维护客户…...

【软件教程】农林生环、水文、海洋、水环境、大气科学、人工智能、碳中和、碳排放、3S、R与统计等软件模型
本文涉及领域水文水资源、大气科学、农林生态、地信遥感、统计分析、编程语言等... 从软件基础到实践案例应用操作,手把手教学,提供永久回放观看和助学群长期辅助指导。适合课题组人员一站式学习,科研人员技术提升、企业单位工程项目、高校论…...

如何加入开源社
开源社成立于 2014 年,是由志愿贡献于开源事业的个人成员,依 “贡献、共识、共治” 原则所组成,始终维持厂商中立、公益、非营利的特点,是最早以 “开源治理、国际接轨、社区发展、项目孵化” 为使命的开源社区联合体。开源社积极…...

软件开发中的破窗效应
应该有很多人已经知道破窗效应【注1】这个社会学 (犯罪学)的词语,破窗效应最先由社会学家James Q. Wilson和George L. Kelling在一篇名为《Broken Windows》的文章中提出【注2】: “一个房子如果窗户破了,没有人去修补…...

机器视觉初步6-1:基于梯度的图像分割
把基于梯度的图像分割单独拿出来。 文章目录 一、图像梯度相关算子的原理1. Sobel算子2. Prewitt算子3. Roberts算子 二、python和halcon算子实现1.python实现2.halcon实现 基于梯度的图像分割方法利用像素之间的梯度信息来进行图像分割。 梯度 1是图像中像素灰度值变化最快的…...

从0开始,精通Go语言Rest微服务架构和开发
说在前面 现在拿到offer超级难,甚至连面试电话,一个都搞不到。 尼恩的技术社区中(50),很多小伙伴凭借 “左手云原生右手大数据”的绝活,拿到了offer,并且是非常优质的offer,据说年…...

Sui x KuCoin Labs夏季黑客松|本周Workshop预告
自Sui x KuCoin Labs夏季黑客松推出以来已有四周的时间,期间收获了众多开发者的积极报名和热情参与。随着黑客松报名即将进入尾声,同期举办的Workshop也迎来了本周的最后一波。本周的黑客松Workshop邀请到MoveEX和Mirror World的负责人作为嘉宾为大家带…...

从电源 LED 读取智能手机的秘密?
研究人员设计了一种新的攻击方法,通过记录读卡器或智能手机打开时的电源 LED,使用 iPhone 摄像头或商业监控系统恢复存储在智能卡和智能手机中的加密密钥。 众所周知,这是一种侧信道攻击。 通过密切监视功耗、声音、电磁辐射或执行操作所需…...

【Linux编辑器-vim使用】
目录 Linux编辑器-vim使用1.vim的基本概念2.vim的基本操作3.vim正常模式命令集4.vim末行模式命令集 Linux编辑器-vim使用 1.vim的基本概念 目前了解的vim有三种模式(其实有好多模式),分别是命令模式、插入模式和底行模式,各模式…...

安装Apache mysql php
目录 一.Apache网站服务 Apache——》静态页面处理——》将静态处理交给PHP Apache简介 安装Apache服务 编辑 安装软件思路 二.安装mysql数据库 1. 安装依赖包 2.创建程序用户管理 3.加压安装包 这边就安装完成了编辑 重点来了 报错了 没有空间 我最后的解决 方法…...

【人工智能】— 神经网络、前向传播、反向传播、梯度下降、局部最小值、多层前馈网络、缓解过拟合的策略
【人工智能】— 神经网络、前向传播、反向传播 前向传播反向传播梯度下降局部最小值多层前馈网络表示能力多层前馈网络局限缓解过拟合的策略 前向传播和反向传播都是神经网络训练中常用的重要算法。 前向传播是指将输入数据从输入层开始经过一系列的权重矩阵和激活函数的计算后…...

小文智能自定义变量详解
在小文交互场景设计时,有一个特殊功能,叫做自定义变量。有时,根据外呼对象的不同,需要对用户传达不同的内容,比如称呼、地址、公司名称等等。此时,就可以使用小文交互的自定义变量功能来实现对不同用户呼出…...
平面电磁波的反射与折射,极化滤波作用
目录 引言 反射定律和折射定律 反射系数和折射系数 平面电磁波在理想介质分界面上的全反射和全折射 全反射 全折射 极化滤波作用 平面电磁波在良导体上的反射与折射 引言 再复杂的电磁波我们都可以看作是很多平面电磁波的叠加 我们在前面介绍的时候,我们认…...