当前位置：首页 > news >正文

Hive 的Stage如何划分？

news 2026/2/8 14:31:14

Hive 的Stage如何划分，也是Hive SQL需要优化的一个点，这个问题，我也是在实际的工作中遇到的。所以我查询了网络的解答并记录下来，以便日后复习。以下是主要内容，enjoy~~~

一个 Hive 任务会包含一个或多个 stage，不同的 stage 间会存在着依赖关系，越复杂的查询通常会引入越多的 stage (而 stage 越多就需要越多的时间时间来完成)。

用户提交的 Hive QL 经过词法、语法解析后得到 AST 。语义分析器遍历 AST 抽象出 QueryBlock 。逻辑计划生成器遍历 QueryBlock ，将它们翻译为 Operator（这些 Operator 就是 Hive 对计算抽象出来的算子）生成 OperatorTree 。逻辑计划优化器对 OperatorTree 进行变换，得到优化后的 OperatorTree （即重写了逻辑执行计划）。物理计划生成器遍历 OperatorTree ，翻译为用计算引擎作业任务描述的物理执行计划 TaskTree 。物理计划优化器再对 TaskTree 进行变换，生成最终物理执行计划，以提交给计算引擎执行。

stage 的划分发生在物理计划生成器将 OperatorTree 转化为 TaskTree 的阶段。基本上是按深度优先遍历 OperatorTree ，根据计算引擎的 Compiler 的规则，生成相应的 Task 。

一个 stage 可以是一个 MapReduce 任务(或者一个 Map Reduce Local Work)，也可以是一个抽样阶段，或者一个合并阶段，还可以是一个 limit 阶段，以及 Hive 需要的其他某个任务的一个阶段。默认情况下，Hive 会一次只执行一个 stage ，当然如果使用了并行执行，也可以同时执行几个没有依赖关系的 stage 。

并不是所有列在 explain 计划里的 stage 都会真正执行的，有些 stage 经过优化器优化后实际上是空的 stage 。观察执行日志，经常可以发现如 “Stage-3 is filtered out by condition resolver” 之类的记录。

参考执行计划输出设置：:
输出执行计划到日志需设置 set hive.log.explain.output=true (default false) 。
输出执行计划到 WebUI 需设置 set hive.server2.webui.explain.output=true (default false) 。
输出更有可读性的 Hive on Tez 执行计划需设置 set hive.explain.user=true (default false) 。
输出 Hive on Spark 执行计划到日志需设置 set hive.spark.explain.user=true (default false) 。

文章来源：https://paxinla.github.io/posts/2020/12/hive-ru-he-hua-fen-stage.html

Hive 的Stage如何划分？

Hive 的Stage如何划分，也是Hive SQL需要优化的一个点，这个问题，我也是在实际的工作中遇到的。所以我查询了网络的解答并记录下来，以便日后复习。以下是主要内容，enjoy~~~ 一个 Hive 任务会包含一个或多个 stage&#…...

编程日记 2023/2/28 2:47:09

《嵌入式应用开发》实验一、开发环境搭建与布局（上）

1. 搭建开发环境去官网（https://developer.android.google.cn/studio）下载 Android Studio。安装SDK（默认Android 7.0即可） 全局 gradle 镜像配置在用户主目录下的 .gradle 文件夹下面新建文件 init.gradle，内容为…...

编程日记 2023/2/28 2:46:00

电子科技大学软件工程期末复习笔记（五）：生产率和工作度量

目录前言重点一览软件产品度量测量软件生产率的两种方法基于LOC测量例题： 优点缺点基于功能点测量例题： 本章小结前言本复习笔记基于王玉林老师的课堂PPT与复习大纲，供自己期末复习与学弟学妹参考用。重点一览这一部分内…...

编程日记 2023/2/28 2:44:51

400G光模块知识大全

400G光模块是目前高速传输领域中的一种先进产品，被广泛应用于高性能数据中心、通信网络、大规模计算、云计算等领域。本文将从400G光模块的定义、技术、产品型号、应用场景以及未来发展方向进行详细介绍。一、什么是400G光模块？400G光模块是指传输速率达…...

编程日记 2023/2/28 2:43:38

【Linux】零成本在家搭建自己的私人服务器解决方案

我这个人自小时候以来就特喜欢永久且免费的东西，也因此被骗过（花巨款买了永久超级会员最后就十几天）。长大后骨子里也是喜欢永久且免费的东西，所以我不买服务器，用GitHubPage或者GiteePage搭建自己的静态私人博客&…...

编程日记 2023/2/28 2:42:26

Python 多线程、多进程和协程

一、多线程 threading 模块 threading 模块对象对象描述Thread表示一个执行线程的对象Lock锁原语对象（与 thread 模块中的锁一样）RLock可重入锁对象，使单一线程可以（再次）获得已持有的锁（递归锁&#x…...

编程日记 2023/2/28 2:41:18

Xml 注解

文章目录XmlRootElement(name"MyRootElement")XmlAccessorType(XmlAccessType.FIELD)XmlElementXmlAttributeXmlValueXmlElementRefXmlRootElement(name“MyRootElement”) XmlRootElement(name"MyRootElement") public class AccessorType {public Strin…...

编程日记 2023/2/28 2:40:05