【PostgreSQL】提高篇——公用表表达式(CTE)和窗口函数
在这篇文章中,我将详细介绍 PostgreSQL 中的公用表表达式(CTE)和窗口函数,帮助你理解如何使用它们进行复杂的数据分析。我将通过具体的示例来演示这些概念的实际应用,并在每个示例中提供详细的解释和注释。
1. 公用表表达式(CTE)
1.1 什么是 CTE?
公用表表达式(Common Table Expression,CTE)是一种在 SQL 查询中定义临时结果集的方式,可以在主查询中多次引用。
CTE 可以提高查询的可读性和结构性,尤其是在处理复杂的查询时。
使用 CTE,可以避免使用嵌套查询,从而使 SQL 代码更清晰。
1.2 CTE 的基本语法
CTE 的基本语法如下:
WITH cte_name AS (SELECT columnsFROM tableWHERE conditions
)
SELECT *
FROM cte_name;
WITH关键字用于定义 CTE。cte_name是 CTE 的名称,可以在后续查询中使用。- CTE 内部的
SELECT查询定义了临时结果集。
1.3 示例:使用 CTE 进行复杂查询
假设有一个名为 sales 的表,记录了销售数据,结构如下:
CREATE TABLE sales (id SERIAL PRIMARY KEY, -- 唯一标识每一条销售记录product_name VARCHAR(100), -- 产品名称sale_date DATE, -- 销售日期amount DECIMAL, -- 销售金额quantity INT -- 销售数量
);
插入一些示例数据:
INSERT INTO sales (product_name, sale_date, amount, quantity) VALUES
('Product A', '2023-01-01', 100.00, 1),
('Product B', '2023-01-02', 200.00, 2),
('Product A', '2023-01-03', 150.00, 1),
('Product C', '2023-01-04', 300.00, 3),
('Product B', '2023-01-05', 250.00, 1);
示例 1:计算每个产品的总销售额
想要计算每个产品的总销售额,可以使用 CTE 来先计算每个产品的销售额,然后再进行汇总。
WITH sales_summary AS (SELECTproduct_name, -- 选择产品名称SUM(amount) AS total_sales -- 计算每个产品的总销售额FROMsalesGROUP BYproduct_name -- 按产品名称分组
)
SELECTproduct_name,total_sales
FROMsales_summary -- 从 CTE 中查询结果
ORDER BYtotal_sales DESC; -- 按总销售额降序排列
注释:
- 在 CTE
sales_summary中,使用SUM(amount)来计算每个产品的总销售额,并使用GROUP BY子句按product_name进行分组。 - 主查询从 CTE 中获取结果,并根据
total_sales降序排列,以便查看销售额最高的产品。
1.4 CTE 的递归查询
CTE 还支持递归查询,适用于层级结构的数据(如组织结构、分类等)。
示例 2:递归 CTE 示例
假设有一个员工表 employees,结构如下:
CREATE TABLE employees (employee_id SERIAL PRIMARY KEY, -- 员工唯一标识employee_name VARCHAR(100), -- 员工姓名manager_id INT -- 上级员工的 ID
);
插入一些示例数据:
INSERT INTO employees (employee_name, manager_id) VALUES
('Alice', NULL), -- Alice 是顶层管理者,没有上级
('Bob', 1), -- Bob 是 Alice 的下属
('Charlie', 1), -- Charlie 也是 Alice 的下属
('David', 2), -- David 是 Bob 的下属
('Eve', 2); -- Eve 也是 Bob 的下属
想要查询所有员工及其上级,可以使用递归 CTE:
WITH RECURSIVE employee_hierarchy AS (SELECTemployee_id, -- 选择员工 IDemployee_name, -- 选择员工姓名manager_id, -- 选择上级员工 ID0 AS level -- 级别,顶层管理者的级别为 0FROMemployeesWHEREmanager_id IS NULL -- 从顶层管理者开始UNION ALLSELECTe.employee_id, -- 选择下属员工 IDe.employee_name, -- 选择下属员工姓名e.manager_id, -- 选择下属的上级员工 IDeh.level + 1 -- 级别加 1FROMemployees eJOINemployee_hierarchy eh ON e.manager_id = eh.employee_id -- 连接下属和上级
)
SELECTemployee_name,level
FROMemployee_hierarchy
ORDER BYlevel, employee_name; -- 按级别和姓名排序
注释:
- 递归 CTE
employee_hierarchy的第一部分选择顶层管理者(没有上级的员工),并初始化级别为 0。 - 第二部分通过
JOIN连接员工表和 CTE,以查找每个员工的下属,并将级别加 1。 - 最后,查询 CTE,返回员工姓名及其层级,并按层级和姓名排序。
2. 窗口函数
2.1 什么是窗口函数?
窗口函数是一种在结果集的每一行上执行计算的函数,它允许我们在不分组的情况下进行聚合计算。
窗口函数通常用于计算排名、移动平均、累计和等。
与普通的聚合函数不同,窗口函数不会减少结果集的行数。
2.2 窗口函数的基本语法
窗口函数的基本语法如下:
SELECT columns,window_function() OVER (PARTITION BY column ORDER BY column)
FROM table;
window_function()是要使用的窗口函数,如SUM(),RANK(),ROW_NUMBER()等。OVER子句定义了窗口的分区和排序方式。PARTITION BY用于将结果集分成不同的组(类似于 GROUP BY),而ORDER BY用于在每个组内排序。
2.3 示例:使用窗口函数进行数据分析
示例 3:计算每个产品的销售排名
可以使用窗口函数来计算每个产品的销售排名。
SELECTproduct_name,SUM(amount) AS total_sales, -- 计算每个产品的总销售额RANK() OVER (ORDER BY SUM(amount) DESC) AS sales_rank -- 计算销售排名
FROMsales
GROUP BYproduct_name
ORDER BYsales_rank; -- 按销售排名排序
注释:
- 在这个查询中,
SUM(amount)计算每个产品的总销售额,并使用RANK()函数为每个产品分配一个排名,排名基于总销售额的降序。 - 最后,结果按销售排名排序。
示例 4:计算累计销售额
还可以使用窗口函数计算累计销售额。
SELECTsale_date,product_name,amount,SUM(amount) OVER (ORDER BY sale_date) AS cumulative_sales -- 计算累计销售额
FROMsales
ORDER BYsale_date; -- 按销售日期排序
注释:
- 在这个查询中,
SUM(amount) OVER (ORDER BY sale_date)计算截至每个销售日期的累计销售额。 - 结果按销售日期排序,显示每个日期的销售额和累计销售额。
3. 综合示例:结合 CTE 和窗口函数
现在结合 CTE 和窗口函数进行一个更复杂的分析,计算每个产品的总销售额、排名以及累计销售额。
WITH sales_summary AS (SELECTproduct_name,SUM(amount) AS total_sales -- 计算每个产品的总销售额FROMsalesGROUP BYproduct_name -- 按产品名称分组
)
SELECTproduct_name,total_sales,RANK() OVER (ORDER BY total_sales DESC) AS sales_rank, -- 计算销售排名SUM(total_sales) OVER (ORDER BY total_sales DESC) AS cumulative_sales -- 计算累计销售额
FROMsales_summary
ORDER BYsales_rank; -- 按销售排名排序
注释:
- 在这个综合示例中,首先使用 CTE
sales_summary计算每个产品的总销售额。 - 然后在主查询中,使用窗口函数
RANK()计算销售排名,并使用SUM(total_sales) OVER (ORDER BY total_sales DESC)计算累计销售额。 - 最后,结果按销售排名排序,展示每个产品的总销售额、排名和累计销售额。
4. 总结
本文详细介绍了 PostgreSQL 中的公用表表达式(CTE)和窗口函数。通过具体的示例,实操展示了如何使用这些功能进行复杂的数据分析。
希望这篇文章能帮助你掌握 CTE 和窗口函数,可以帮助你编写更清晰、灵活的 SQL 查询,进行深入的数据分析。
相关文章:
【PostgreSQL】提高篇——公用表表达式(CTE)和窗口函数
在这篇文章中,我将详细介绍 PostgreSQL 中的公用表表达式(CTE)和窗口函数,帮助你理解如何使用它们进行复杂的数据分析。我将通过具体的示例来演示这些概念的实际应用,并在每个示例中提供详细的解释和注释。 1. 公用表…...
【min25筛】【CF2020F】Count Leaves
题目 定义 f ( n , 0 ) 1 f(n,0)1 f(n,0)1, f ( n , d ) ∑ k ∣ n f ( k , d − 1 ) f(n,d)\sum_{k|n}f(k,d-1) f(n,d)∑k∣nf(k,d−1) 给出 n , k , d n,k,d n,k,d,你需要求出: ∑ i 1 n f ( i k , d ) m o d ( 1 0 9 7 ) \sum_{i1}^n f(i^k…...
【d57】【sql】1661. 每台机器的进程平均运行时间
思路 一方面考察自连接,另一方面考察group by 这里主要说明 group by 用法: 1.在 SQL 查询中,GROUP BY 子句用于将结果集中的行分组,目的通常就是 对每个组应用聚合函数(如 SUM(), AVG(), MAX(), MIN(), COUNT() 等…...
ArcGIS共享数据的最佳方法(不丢可视化、标注等各类显示信息一样带)
今天我们介绍一下ArcGIS数据共享的几个小妙招 我们时常要把数据发给对方,特别是很多新手朋友要将shp发给对方时只是发送了shp后缀的文件,却把shp的必要组成文件dbf、shx等等给落下了。 还有很多朋友给图层做好了符号化标注,但是数据一发给别…...
小程序this.getOpenerEventChannel()当前页面与navigateTo页面之间数据通信
this.getOpenerEventChannel() 是微信小程序中获取页面打开它的页面事件通道的方法。但是,这个方法只在页面是被wx.navigateTo打开的情况下才能使用。如果页面是通过其他方式打开的,比如wx.redirectTo,那么就无法使用这个方法。 解决方案&…...
调用飞书接口导入供应商bug
1、业务背景 财务这边大部分系统都是供应商项目,由于供应商的研发人员没有飞书项目的权限,涉及到供应商系统需求 财务这边都是通过多维表格进行bug的生命周期管理如图: 但多维表格没有跟飞书项目直接关联,测试组做bug统计的时候无…...
《深度学习》OpenCV 角点检测、特征提取SIFT 原理及案例解析
目录 一、角点检测 1、什么是角点检测 2、检测流程 1)输入图像 2)图像预处理 3)特征提取 4)角点检测 5)角点定位和标记 6)角点筛选或后处理(可选) 7)输出结果 3、邻域…...
golang grpc初体验
grpc 是一个高性能、开源和通用的 RPC 框架,面向服务端和移动端,基于 HTTP/2 设计。目前支持c、java和go,分别是grpc、grpc-java、grpc-go,目前c版本支持c、c、node.js、ruby、python、objective-c、php和c#。grpc官网 grpc-go P…...
基于小程序+Vue + Spring Boot的进销存库存出库入库统计分析管理系统
目录 一、项目背景及需求分析 1. 项目背景 2. 需求分析 二、系统架构设计 1. 技术选型 2. 模块划分 三、数据库设计数据库表结构 四、前端实现 五、后端实现 1. RESTful API设计 2. 数据库操作 六、安全性和性能优化 1. 安全性 2. 性能优化 七、测试与部署 1. …...
【数据结构与算法】时间复杂度和空间复杂度例题
文章目录 时间复杂度常数阶时间O(1)对数阶时间O(logN)线性阶时间O(n)线性对数阶时间O(nlogN)平方阶时间O(n*n) 空间复杂度常量空间O(1)线性空间O(n)二维空间O(n*n)递归空间 时间复杂度 常数阶时间O(1) 代码在执行的时候,它消耗的时间并不随着某个变量的增长而增长…...
停止模式下USART为什么可以唤醒MCU?
在MCU的停止模式下,USART之类的外设时钟是关闭的,但是USART章节有描述到在停止模式下可以用USART来对MCU进行唤醒: 大家是否会好奇在外设的时钟被关闭的情况下,USART怎么能通过接收中断或者唤醒事件对MCU进行唤醒的呢࿱…...
Web安全 - 路径穿越(Path Traversal)
文章目录 OWASP 2023 TOP 10导图定义路径穿越的原理常见攻击目标防御措施输入验证和清理避免直接拼接用户输入最小化权限日志监控 ExampleCode漏洞代码:路径穿越攻击案例漏洞说明修复后的安全代码代码分析 其他不同文件系统下的路径穿越特性Windows系统类Unix系统&a…...
JSR303微服务校验
一.创建idea 二.向pom.xml添加依赖 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.0.7.RELEASE</version></parent><properties><java.vers…...
56. QTreeWidget的基本使用
1. 说明 在软件开发中会遇到将数据信息制作成一种树目录的形式进行展示,那么此时就可以借助QT提供的QTreeWidget控件来实现这种需求,本篇博客会做一个案例简要说明这个控件的基本使用方法,博客中代码能够实现的功能是将此项目代码所在文件夹中的内容展示出来,如下图所示:…...
领域偏移:协变量移位下的域自适应
现在我们将焦点转移到一种叫做协变量转移的扰动上。我们在一个分类或回归设置中工作,我们希望从x预测y,并假设p≈(y | x)和p∗(y | x)是相同的(标记函数在训练和测试之间不会改变) 假设 (Covariate Shift)。对于列车分布p~和检验分布p∗,我们…...
前端开发技术框架选型
一、引言 在前端开发领域,技术框架的选择对于项目的成功至关重要。一个优秀的前端框架不仅可以提高开发效率,还能确保项目的稳定性和可扩展性。而不同的框架具有不同的特点和优势,能够满足不同项目的需求。下面将对目前主流的前端开发技术框…...
/etc/init.d/mysql
Since you’ve installed MySQL from source, you’ll need to create a custom init script to manage the MySQL server (start, stop, status) similarly to a service. Here’s a simple init.d script template for MySQL that you can use. This script assumes MySQL is…...
Qt_线程介绍与使用
目录 1、QThread常用API 2、Qt线程安全 3、使用线程QThread 4、connect函数的第五个参数 5、Qt互斥锁 5.1 QMutexLocker 6、条件变量 7、信号量 结语 前言: 线程是应用程序开发非常重要的概念,在Qt中,用QThread类来实现多线程&a…...
通讯方面的数据,人工智能 机器学习的时候,因为数字都接近于一,数据归一化的一种方法,做了一个简化版本的Z-score标准化
这个表达式实现了一种形式的数据归一化,它将张量x中的每个元素除以x的标准差的估计值。这种处理方式可以使得变换后的数据具有单位标准差(假设数据已经是零均值或者在计算过程中考虑了均值)。具体来说,它是基于以下步骤进行的&…...
python itertools模块介绍
itertools 是 Python 内建的一个高效处理迭代器的模块,提供了创建复杂迭代器的函数工具。它包含一系列用于迭代、组合、排列、过滤等功能的迭代器构建工具,常用于数据处理和算法设计。下面是 itertools 模块中一些常见的函数介绍: 1. 无限迭…...
Docker 离线安装指南
参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性,不同版本的Docker对内核版本有不同要求。例如,Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本,Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...
Cursor实现用excel数据填充word模版的方法
cursor主页:https://www.cursor.com/ 任务目标:把excel格式的数据里的单元格,按照某一个固定模版填充到word中 文章目录 注意事项逐步生成程序1. 确定格式2. 调试程序 注意事项 直接给一个excel文件和最终呈现的word文件的示例,…...
Opencv中的addweighted函数
一.addweighted函数作用 addweighted()是OpenCV库中用于图像处理的函数,主要功能是将两个输入图像(尺寸和类型相同)按照指定的权重进行加权叠加(图像融合),并添加一个标量值&#x…...
【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力
引言: 在人工智能快速发展的浪潮中,快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型(LLM)。该模型代表着该领域的重大突破,通过独特方式融合思考与非思考…...
【JavaSE】绘图与事件入门学习笔记
-Java绘图坐标体系 坐标体系-介绍 坐标原点位于左上角,以像素为单位。 在Java坐标系中,第一个是x坐标,表示当前位置为水平方向,距离坐标原点x个像素;第二个是y坐标,表示当前位置为垂直方向,距离坐标原点y个像素。 坐标体系-像素 …...
Spring数据访问模块设计
前面我们已经完成了IoC和web模块的设计,聪明的码友立马就知道了,该到数据访问模块了,要不就这俩玩个6啊,查库势在必行,至此,它来了。 一、核心设计理念 1、痛点在哪 应用离不开数据(数据库、No…...
Java + Spring Boot + Mybatis 实现批量插入
在 Java 中使用 Spring Boot 和 MyBatis 实现批量插入可以通过以下步骤完成。这里提供两种常用方法:使用 MyBatis 的 <foreach> 标签和批处理模式(ExecutorType.BATCH)。 方法一:使用 XML 的 <foreach> 标签ÿ…...
【分享】推荐一些办公小工具
1、PDF 在线转换 https://smallpdf.com/cn/pdf-tools 推荐理由:大部分的转换软件需要收费,要么功能不齐全,而开会员又用不了几次浪费钱,借用别人的又不安全。 这个网站它不需要登录或下载安装。而且提供的免费功能就能满足日常…...
Go 语言并发编程基础:无缓冲与有缓冲通道
在上一章节中,我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道,它们在并发编程中各具特点和应用场景。 一、通道的基本分类 类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好࿰…...
推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材)
推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理 简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...
