当前位置: 首页 > news >正文

MySQL 中的排序:索引排序与文件排序

文章目录

  • MySQL 中的排序:索引排序与文件排序全解析
    • 一、引言
    • 二、索引排序
      • (一)原理
      • (二)示例
    • 三、文件排序
      • (一)单路排序
      • (二)双路排序
      • (三)归并排序
    • 四、优化建议

MySQL 中的排序:索引排序与文件排序全解析

一、引言

在 MySQL 数据库的查询操作中,排序是一项极为关键的任务。当执行查询并要求结果集按照特定顺序呈现时,MySQL 会依据多种因素来抉择合适的排序策略。其中,索引排序和文件排序是最为常见的两种方式,而文件排序又进一步细分为单路排序、双路排序以及归并排序。透彻理解这些排序机制对于优化数据库查询性能、提升系统响应速度具有不可忽视的重要性。

二、索引排序

(一)原理

索引在 MySQL 中是一种特殊的数据结构,它能够加速数据的检索与排序过程。当查询语句中的 ORDER BY 子句所涉及的字段与某个索引的列顺序完全匹配,并且索引的排序方向(升序或降序)也与 ORDER BY 要求一致时,MySQL 便可巧妙地利用该索引来完成排序操作。由于索引本身就按照特定规则对数据进行了有序存储,因此借助索引排序能够避免对数据行进行额外的读取与复杂排序运算,从而显著提升查询效率。

(二)示例

假设我们创建了一个名为 employees 的表,其结构如下:

CREATE TABLE employees (id INT AUTO_INCREMENT PRIMARY KEY,first_name VARCHAR(50),last_name VARCHAR(50),hire_date DATE,salary DECIMAL(10, 2),INDEX idx_hire_date (hire_date)
);

我们向表中插入一些示例数据:

INSERT INTO employees (first_name, last_name, hire_date, salary) VALUES
('John', 'Doe', '2020-01-01', 5000.00),
('Jane', 'Smith', '2021-03-15', 6000.00),
('Bob', 'Johnson', '2019-11-20', 4500.00);

现在执行一个查询:

SELECT * FROM employees ORDER BY hire_date;

使用 EXPLAIN 关键字来查看该查询的执行计划:

EXPLAIN SELECT * FROM employees ORDER BY hire_date;

EXPLAIN 的输出结果中,我们可以看到 Extra 列显示为 Using index,这就表明 MySQL 成功地运用了索引排序。它直接从索引中获取了按照 hire_date 有序的数据,无需进行额外的文件排序操作,从而大大提高了查询的执行速度。

三、文件排序

当查询条件无法利用索引进行排序时,MySQL 就不得不诉诸文件排序。文件排序意味着 MySQL 需要将数据读取到内存中进行排序处理,如果内存空间不足以容纳所有待排序的数据,还可能会借助磁盘临时表来辅助完成排序任务。

(一)单路排序

  1. 原理
    • 单路排序的核心思想是将查询所需的全部列数据一次性地读取到内存中的排序缓冲区。在这个缓冲区中,MySQL 运用高效的排序算法(如快速排序等)对数据进行排序操作。这种方式在内存资源较为充裕且待排序数据量相对不大的情况下,能够展现出较高的效率。因为它避免了多次数据读取操作,减少了磁盘 I/O 开销以及数据在内存与磁盘之间的传输延迟。
    • 单路排序的效率与 sort_buffer_size 系统变量密切相关。sort_buffer_size 用于指定排序缓冲区的大小。如果该值设置过小,可能导致排序过程中需要频繁地将部分数据临时存储到磁盘上,从而降低排序性能;反之,若设置过大,可能会占用过多的内存资源,影响系统中其他进程的运行。
  2. 示例
    考虑如下查询:
SELECT first_name, last_name, salary FROM employees ORDER BY salary;

由于在 salary 字段上没有合适的索引可供利用,MySQL 将会执行文件排序。执行 EXPLAIN 命令查看该查询的执行计划:

EXPLAIN SELECT first_name, last_name, salary FROM employees ORDER BY salary;

EXPLAIN 结果中,我们会发现 Extra 列显示 Using filesort,这表明 MySQL 正在进行文件排序操作。此时,如果我们查看服务器的性能监控指标,会发现内存使用量在排序过程中会有所增加,并且主要集中在排序缓冲区的使用上。

(二)双路排序

  1. 原理
    • 双路排序采用了一种更为巧妙的策略,尤其是在内存资源有限但索引列数据量相对较小的场景下表现出色。它首先仅读取查询所需列的索引数据以及对应的主键值到排序缓冲区进行排序。在完成初步排序后,再根据主键值回表读取剩余的列数据。这样做的好处在于,在内存有限的情况下,可以有效减少排序缓冲区中数据的占用量,因为只读取了索引列和主键值,而不是全部列数据。然而,这种方式也存在一定的代价,那就是需要额外的回表操作来获取完整的列数据,这可能会增加一定的磁盘 I/O 开销。
    • 双路排序的决策过程也与 max_length_for_sort_data 系统变量有关。该变量用于限制排序数据行的最大长度。当查询结果集中的列数据长度超过 max_length_for_sort_data 所设定的值时,MySQL 更倾向于选择双路排序,以避免一次性将大量数据读取到内存中。
  2. 示例
    假设我们执行以下查询:
SELECT * FROM employees ORDER BY last_name;

如果 last_name 字段有索引,但并非覆盖索引(即查询所需的所有列并非都包含在该索引中),MySQL 可能会采用双路排序策略。通过 EXPLAIN 查看查询计划:

EXPLAIN SELECT * FROM employees ORDER BY last_name;

EXPLAIN 的输出中,Extra 列显示 Using filesort,并且在进一步分析数据库的执行日志或者性能监控数据时,可以观察到在排序过程中存在回表操作的迹象,如磁盘读取操作的增加以及相关统计指标的变化。

(三)归并排序

  1. 原理
    • 当需要排序的数据量极为庞大,以至于无法在内存中一次性完成整个排序过程时,MySQL 会启用归并排序算法。归并排序采用了分治的思想,它首先将大规模的数据划分为多个较小的子数据集,然后在内存中分别对这些子数据集进行排序。排序完成后,再逐步将这些有序的子数据集合并成最终的有序结果集。在这个过程中,如果内存不足以容纳所有的子数据集,MySQL 会借助磁盘临时表来存储中间结果,这就不可避免地会带来磁盘 I/O 开销。不过,归并排序具有良好的稳定性和时间复杂度特性,能够在处理大规模数据排序时保持相对高效的性能表现。
  2. 示例
    考虑如下查询:
SELECT * FROM employees ORDER BY RAND();

由于 ORDER BY RAND() 要求对数据进行随机排序,几乎不可能利用索引来实现,并且当 employees 表的数据量较大时,MySQL 就会采用归并排序进行文件排序。执行 EXPLAIN 命令查看该查询的执行计划:

EXPLAIN SELECT * FROM employees ORDER BY RAND();

EXPLAIN 结果中,Extra 列会显示 Using filesort。同时,在数据库服务器的资源监控中,我们可以明显观察到磁盘 I/O 活动的显著增加,这是因为归并排序过程中需要频繁地在磁盘临时表中写入和读取中间排序结果。

四、优化建议

  1. 合理创建索引:仔细分析查询语句中的 ORDER BY 子句以及其他过滤条件,创建合适的索引,尽量使 ORDER BY 字段能够与索引匹配,从而优先利用索引排序,减少文件排序的发生频率。
  2. 优化 sort_buffer_sizemax_length_for_sort_data:根据数据库服务器的内存配置以及实际业务需求,合理调整 sort_buffer_sizemax_length_for_sort_data 系统变量的值。对于内存较为充裕且经常进行大规模排序操作的场景,可以适当增大 sort_buffer_size;而对于内存有限且查询结果集列数据长度差异较大的情况,需要谨慎设置 max_length_for_sort_data,以平衡单路排序和双路排序的选择。
  3. 精简查询语句:在编写查询语句时,尽量减少不必要的列选择,只获取实际业务所需的数据列。这样可以降低数据量,不仅有助于文件排序的效率提升,还能减少网络传输开销和内存占用。
  4. 避免随机排序:尽量减少使用 ORDER BY RAND() 这类导致随机排序的操作,因为它几乎总是会引发大规模的文件排序,尤其是在数据量较大时,会严重影响查询性能。如果确实需要随机获取数据,可以考虑采用其他替代方案,如在应用层进行随机处理或者利用数据库的特定功能(如 MySQL 8.0 中的窗口函数等)来实现类似效果。

通过深入理解 MySQL 中的索引排序和文件排序机制,并依据上述优化建议对数据库结构和查询语句进行合理优化,能够有效地提升数据库查询的性能,为应用系统的高效稳定运行提供坚实的保障。

相关文章:

MySQL 中的排序:索引排序与文件排序

文章目录 MySQL 中的排序:索引排序与文件排序全解析一、引言二、索引排序(一)原理(二)示例 三、文件排序(一)单路排序(二)双路排序(三)归并排序 四…...

深入理解React Hooks:使用useState和useEffect

引言 React Hooks是React 16.8引入的一项强大功能,它使函数组件能够使用状态和其他React特性。本文将深入探讨两个最常用的Hooks:useState和useEffect,并通过实际代码示例展示它们的使用方法。 1. 什么是React Hooks? React Ho…...

AWS codebuild + jenkins + github 实践CI/CD

前文 本文使用 Jenkins 结合 CodeBuild, CodeDeploy 实现 Serverless 的 CI/CD 工作流,用于自动化发布已经部署 lambda 函数。 在 AWS 海外区,CI/CD 工作流可以用 codepipeline 这项产品来方便的实现, CICD 基本概念 持续集成( Continuous…...

Android PMS(Package Manager Service)源码介绍

文章目录 前言一、PMS 启动流程二、APK 安装流程三、APK 卸载流程四、权限管理静态权限动态权限 五、 数据存储与一致性六、 PMS 的安全性策略1、权限检查2、签名认证3、动态权限管理4、应用安装验证5、保护系统目录 七、PMS 调试方法总结 前言 PackageManagerService&#xf…...

运维面试整理总结

面试题可以参考:面试题总结 查看系统相关信息 查看系统登陆成功与失败记录 成功:last失败:lastb 查看二进制文件 hexdump查看进程端口或连接 netstat -nltp ss -nltp补充:pidof与lsof命令 pidof [进程名] #根据 进程名 查询进程id ls…...

图数据库 Cypher语言

图数据库 属性图 属性图(Property Graph)概述 属性图是一种广泛用于建模关系数据的图数据结构,它将**顶点(节点)和边(关系)**进行结构化存储,并为它们附加属性以提供丰富的语义信…...

阿里云oss转发上线-实现不出网钓鱼

本地实现阿里云oss转发上线,全部代码在文末,代码存在冗余 实战环境 被钓鱼机器不出网只可访问内部网络包含集团oss 实战思路 若将我们的shellcode文件上传到集团oss上仍无法上线,那么就利用oss做中转使用本地转发进行上线,先发送…...

Spring Boot 3.4.0 发行:革新与突破的里程碑

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,…...

【网络安全】

黑客入侵 什么是黑客入侵? “黑客”是一个外来词,是英语单词hacker的中文音译。最初,“黑客”只是一个褒义词,指的是那些尽力挖掘计算机程序最大潜力的点脑精英,他们讨论软件黑客的技巧和态度,以及共享文化…...

在SQLyog中导入和导出数据库

导入 假如我要导入一个xxx.sql,我就先创建一个叫做xxx的数据库。 然后右键点击导入、执行SQL脚本 选择要导入的数据库文件的位置,点击执行即可 注意: 导入之后记得刷新一下导出 选择你要导出的数据库 右键选择:备份/导出、…...

RabbitMQ简单应用

概念 RabbitMQ 是一种流行的开源消息代理(Message Broker)软件,它实现了高级消息队列协议(AMQP - Advanced Message Queuing Protocol)。RabbitMQ 通过高效的消息传递机制,主要应用于分布式系统中解耦应用…...

使用LUKS对Linux磁盘进行加密

前言 本实验用于日常学习用,如需对存有重要数据的磁盘进行操作,请做好数据备份工作。 此实验只是使用LUKS工具的冰山一角,后续还会有更多功能等待探索。 LUKS(Linux Unified Key Setup)是Linux系统中用于磁盘加密的一…...

戴尔电脑安装centos7系统遇到的问题

1,找不到启动盘(Operation System Loader signature found in SecureBoot exclusion database(‘dbx’).All bootable devices failed secure Boot Verification) 关闭 Secure Boot(推荐): 进入 BIOS/UEFI…...

3.4.SynchronousMethodHandler组件之ResponseHandler

前言 feign发送完请求后, 拿到返回结果, 那么这个返回结果肯定是需要经过框架进一步处理然后再返回到调用者的, 其中ResponseHandler就是用来处理这个返回结果的, 这也是符合正常思维的处理方式, 例如springmvc部分在调用在controller端点前后都会增加扩展点。 从图中可以看得…...

Linux 下进程的状态

操作系统中常见进程状态 在操作系统中有六种常见进程状态: 新建状态: 进程正在被创建. 此时操作系统会为进程分配资源, 如: 内存空间等, 进行初始化就绪状态: 进程已经准备好运行了, 只需要等待被调度, 获取 CPU 资源就可以执行了, 操作系统中可能同时存在多个进程处于就绪状…...

【计算机网络】核心部分复习

目录 交换机 v.s. 路由器OSI七层更实用的TCP/IP四层TCPUDP 交换机 v.s. 路由器 交换机-MAC地址 链接设备和设备 路由器- IP地址 链接局域网和局域网 OSI七层 物理层:传输设备。原始电信号比特流。数据链路层:代表是交换机。物理地址寻址,交…...

Spring Boot开发实战:从入门到构建高效应用

Spring Boot 是 Java 开发者构建微服务、Web 应用和后端服务的首选框架之一。其凭借开箱即用的特性、大量的自动化配置和灵活的扩展性,极大简化了开发流程。本文将以实战为核心,从基础到高级,全面探讨 Spring Boot 的应用开发。 一、Spring B…...

pyshark安装使用,ubuntu:20.04

1.容器创建 命令 docker run -d --name pyshark -v D:\src:/root/share ubuntu:2004 /bin/bash -c "while true;do sleep 1000;done" 用于创建并启动一个新的 Docker 容器。 docker run -d --name pyshark -v D:\src:/root/share ubuntu:2004 /bin/bash -c "w…...

基本功能实现

目录 1、环境搭建 2、按键控制灯&电机 LED 电机 垂直按键(机械按键) 3、串口调试功能 4、定时器延时和定时器中断 5、振动强弱调节 6、万年历 7、五方向按键 1、原理及分析 2、程序设计 1、环境搭建 需求: 搭建一个STM32F411CEU6工程 分析: C / C 宏定义栏…...

《那个让服务器“跳舞”的bug》

在程序的世界里,bug 就像隐藏在暗处的小怪兽,时不时跳出来捣乱。而在我的职业生涯中,有一个bug让我至今难忘,它不仅让项目差点夭折,还让我熬了无数个通宵。这个故事发生在一个风和日丽的下午,我们正在开发一…...

Python 网络爬虫进阶:动态网页爬取与反爬机制应对

在上一篇文章中,我们学习了如何使用 Python 构建一个基本的网络爬虫。然而,在实际应用中,许多网站使用动态内容加载或实现反爬机制来阻止未经授权的抓取。因此,本篇文章将深入探讨以下进阶主题: 如何处理动态加载的网…...

创建可直接用 root 用户 ssh 登陆的 Docker 镜像

有时候我们在 Mac OS X 或 Windows 平台下需要开发以 Linux 为运行时的应用,IDE 或可直接使用 Docker 容器,或 SSH 远程连接。本地命令行下操作虽然可以用 docker exec 连接正在运行的容器,但 IDE 远程连接的话 SSH 总是一种较为通用的连接方…...

wordpress 中添加图片放大功能

功能描述 使用 Fancybox 实现图片放大和灯箱效果。自动为文章内容中的图片添加链接,使其支持 Fancybox。修改了 header.php 和 footer.php 以引入必要的 CSS 和 JS 文件。在 functions.php 中通过过滤器自动为图片添加 data-fancybox 属性。 最终代码 1. 修改 hea…...

数据结构 (7)线性表的链式存储

前言 线性表是一种基本的数据结构,用于存储线性序列的元素。线性表的存储方式主要有两种:顺序存储和链式存储。链式存储,即链表,是一种非常灵活和高效的存储方式,特别适用于需要频繁插入和删除操作的场景。 链表的基本…...

库的操作.

创建、删除数据库 创建语法: CREATE DATABASE [IF NOT EXISTS] db_name[ ]是可选项,IF NOT EXISTS 是表明如果不存在才能创建数据库 //查看数据库,假设7行 show databases; //创建数据库 --- 本质在Linux创建一个目录 create database databa…...

Vue进阶之Vue CLI服务—@vue/cli-service Vuex

Vue CLI服务—vue/cli-service & Vuex vue/cli-service初识bin/vue-cli-service.js代码执行解读 Vuexgenerator/index.jsstore/index.js插件化的能力怎么引入呢? vue/cli-service 初识 第一块是上一个讲述的cli是把我们代码的配置项,各种各样的插件…...

导入100道注会cpa题的方法,导入试题,自己刷题

一、问题描述 复习备考的小伙伴们,往往希望能够利用零碎的时间和手上的试题,来复习和备考 用一个能够导入自己试题的刷题工具,既能加强练习又能利用好零碎时间,是一个不错的解决方案 目前市面上刷题工具存下这些问题 1、要收费…...

数据库操作、锁特性

1. DML、DDL和DQL是数据库操作语言的三种主要类型 1.1 DML(Data Manipulation Language)数据操纵语言 DML是用于检索、插入、更新和删除数据库中数据的SQL语句。 主要的DML语句包括: SELECT:用于查询数据库中的数据。 INSERT&a…...

学习笔记039——SpringBoot整合Redis

文章目录 1、Redis 基本操作Redis 默认有 16 个数据库,使用的是第 0 个,切换数据库添加数据/修改数据查询数据批量添加批量查询删除数据查询所有的 key清除当前数据库清除所有数据库查看 key 是否存在设置有效期查看有效期 2、Redis 数据类型String追加字…...

(笔记)简单了解ZYNQ

1、zynq首先是一个片上操作系统(Soc),结合了arm(PS)和fpga(PL)两部分组成 Zynq系统主要由两部分组成:PS(Processing System)和PL(Programmable L…...

wordpress 引入文件/抖音搜索优化

require_once(“nusoap-0.9.5/lib/nusoap.php”);//定义服务程序functionAdd($a,$b){return$a$b;}//初始化服务对象 , 这个对象是类 soap_server 的一个实例$soapnewsoap_server;//调用服务对象的 register 方法注册需要被客户端访问的程序。//只有注册过的程序,才能…...

恢复原来的网站/佛山百度关键词seo外包

《C#高级编程》(第七版) 读书心得。 也是看了汤姆大叔的书单,和各种书评才下决心认真读读这本经典,在读书过程中得到的心得记录下来,此文为索引方便以后查找,书很厚要慢慢更新。 1.C#高级编程 读书心得1--…...

设计的很好的网站/临沂网站建设

最近有空研究了一下基于Opencv的视频人数统计。总结了一下,视频人数统计系统的工作流程主要包括以下几个部分: 1.视频捕获 从视频源(摄像头或视频文件)获取到视频图像数据。 2.目标提取(背景建模、前景分析&#xff…...

做网站建设需要/信息流优化

这次的 JDK 10 只是一个小版本更新,不过还是引入了一些非常重要的改变,我就挑几个对一般开发者影响重大的特性说说吧。Java 10 引入了局部变量类型推断,现在我们可以使用 var 替换局部变量声明时的类型部分,从而避免耗费精力去写出…...

贵阳专用网站建设/郑州网站建设制作

文章目录Key is stored in legacy trusted.gpg keyring (/etc/apt/truste和apt update | upgrade; apt-key相关的配置文件都在目录/etc/apt下,共有以下内容:方法一:没成功,而且我的系统上显示采用的是第二种方式,没有用…...

番禺网站建设知乎/日本产品和韩国产品哪个好

网上解决办法都是用淘宝镜像,但我先切换了镜像,安装还是慢,最后发现了一个比较快的方案。 打开cmd 先装一个cnpm,指向淘宝npm仓库 npm install -g cnpm --registryhttps://registry.npm.taobao.org再安装vue cli npm install -g…...