Spark/Hive
Spark/Hive
- Hive 原理
- Spark with Hive
- SparkSession + Hive Metastore
- spark-sql CLI + Hive Metastore
- Beeline + Spark Thrift Server
- Hive on Spark
- Hive 擅长元数据管理
- Spark 擅长高效的分布式计算
Spark + Hive 集成 :
- Hive on Spark : Hive 用 Spark 作为底层的计算引擎时
- Spark with Hive : Spark 把 Hive 当元信息的管理工具
Hive 原理
Hive架构 , 可插拔的第 三方独立组件 :
- User Interface 提供 SQL 接入服务
- CLI 与 Web Interface 在本地接收 SQL 查询语句
- Hive Server 2 提供 JDBC/ODBC 客户端连接,从远程提交 SQL 查询请求

SQL 查询的工作过程 :
- 收到 SQL 后,Driver 先用 Parser ,将查询语句转化为 AST(Abstract Syntax Tree,查询语法树)
- Hive 从 Hive Metastore 拿表的元信息,如 : 表名、列名、字段类型、数据文件存储路径、文件格式
- Planner 根据 AST 生成执行计划
- Optimizer 优化执行计划
- Execution 提交执行计划
Spark with Hive
Spark with Hive 集成方式 :
- 创建 SparkSession,访问 Hive Metastore
- 通过 spark-sql CLI,访问本地 Hive Metastore
- 通过 Beeline,访问 Spark Thrift Server
SparkSession + Hive Metastore
启动 Hive Metastore
hive --service metastore
Spark 拿 Metastore 访问地址的两种办法 :
- 创建 SparkSession 时,通过 config 指定
hive.metastore.uris - 把Hive的
hive-site.xml拷到 Spark 的 conf 下
spark-shell 下写代码 :
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.DataFrameval hiveHost: String = _// 创建SparkSession实例
val spark = SparkSession.builder().config("hive.metastore.uris", s"thrift://hiveHost:9083").enableHiveSupport().getOrCreate()// 读取Hive表,创建DataFrame
val df: DataFrame = spark.sql(“select * from salaries”)
df.show/** 结果打印
+---+------+
| id|salary|
+---+------+
| 1| 26000|
| 2| 30000|
| 4| 25000|
| 3| 20000|
+---+------+
*/
SparkSession + Hive Metastore 集成方式 :
- Spark 只涉及 Hive 的 Metastore

spark-sql CLI + Hive Metastore
spark-sql CLI 与 Hive Metastore 要在同个节点
- spark-sql CLI 只能访问 本地 Hive Metastore
Beeline + Spark Thrift Server
用 Beeline 客户端,连接 Spark Thrift Server,从而完成 Hive 表的访问与处理
Hive Server 2 (Hive Thrift Server 2) 采用 Thrift RPC 协议框架
Beeline + Spark Thrift Server 集成 :
- Spark Thrift Server 与 Hive Server 2 的实现逻辑一样。最大区别:SQL 查询接入后的解析、规划、优化与执行

启动 Spark Thrift Server :
$SPARK_HOME/sbin/start-thriftserver.sh
Spark Thrift Server 启动后,在任意节点上通过 Beeline 就能访问该服务
beeline -u "jdbc:hive2://hostname:10000"
Hive on Spark
Hive on Spark :Hive 用 Spark 作为分布式执行引擎
- SQL 语句的解析、规划与优化都由 Hive 的 Driver 完成
- Hive on Spark 衔接的部分是 Spark Core
指定 Spark 执行引擎
set hive.execution.engine=spark
相关文章:
Spark/Hive
Spark/HiveHive 原理Spark with HiveSparkSession Hive Metastorespark-sql CLI Hive MetastoreBeeline Spark Thrift ServerHive on SparkHive 擅长元数据管理Spark 擅长高效的分布式计算 Spark Hive 集成 : Hive on Spark : Hive 用 Spark 作为底层的计算引擎时Spark w…...
HashMap底层的实现原理(JDK8)
目录一、知识点回顾二、HashMap 的 put() 和 get() 的实现2.1 map.put(k, v) 实现原理2.2 map.get(k) 实现原理三、HashMap 的常见面试题3.1 为何随机增删、查询效率都很高?3.2 为什么放在 HashMap 集合 key 部分的元素需要重写 equals 方法?3.3 HashMap 的 key 为…...
操作系统-整理
进程 介绍 进程是系统进行资源分配和调度的一个独立单位。每个进程都有自己的独立内存空间,不同进程通过进程间通信来通信。由于进程占据独立的内存,所以上下文进程间的切换开销(栈、寄存器、虚拟内存、文件句柄等)比较大&#…...
系统换行符的思考
各系统换行符 换行符,也即是回车换行,因为表示为Carriage-Return和Line-Feed。 回车用Return-Carrige表示,简写为CR,字符表示为\r。 换行用Line-Feed表示,简写为LF,字符表示为\n。 由于历史原因…...
Wwise集成到unreal
1、Wwise集成到Unreal 1.1 安装必要的软件 安装unreal 5.1;安装Audiokinetic Launcher;集成版本是Wwise 2021.1.12.7973。Audiokinetic Launcher下载地址: https://www.audiokinetic.com/zh/thank-you/launcher/windows/?refdownload&pl…...
前端秘籍之=>八股文经卷=>(原生Js篇)【持续更新中...】
大家好,最近想了想,打算总结归纳一版前端八股文经卷,给大家提供学习参考,如果帮助到大家,请大家,一键三连支持一下,你们的支持会激励我更加努力的更新更多有用的知识,博主先在这里谢…...
【Python安装配置教程】
Python由荷兰数学和计算机科学研究学会的吉多范罗苏姆于1990年代初设计,作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构,还能简单有效地面向对象编程。Python语法和动态类型,以及解释型语言的本质,使它成为多数平台…...
Spring-Retry失败重试
文章目录 重试的场景引入依赖启动类serviceController@Retryable参数@Recover注意事项重试的场景 1、网络波动需要,导致请求失败,需要重发。 2、发送消息失败,需要重发,重发失败要记录日志 … 引入依赖 <!-- spring-retry--> <dependency><groupId>or…...
【目标检测 DETR】通俗理解 End-to-End Object Detection with Transformers,值得一品。
文章目录DETR1. 亮点工作1.1 E to E1.2 self-attention1.3 引入位置嵌入向量1.4 消除了候选框生成阶段2. Set Prediction2.1 N个对象2.2 Hungarian algorithm3. 实例剖析4. 代码4.1 配置文件4.1.1 数据集的类别数4.1.2 训练集和验证集的路径4.1.3 图片的大小4.1.4 训练时的批量…...
项目ER图和资料
常用的数据类型 模型类 一对多 from app import db import datetimeclass BaseModel(db.Model):__abstract__ Truecreate_time db.Column(db.DateTime,defaultdatetime.datetime.now())update_time db.Column(db.DateTime,defaultdatetime.datetime.now())class Role(db.M…...
剑指 Offer 20. 表示数值的字符串(java+python)
请实现一个函数用来判断字符串是否表示数值(包括整数和小数)。 数值(按顺序)可以分成以下几个部分: 若干空格 一个 小数 或者 整数 (可选)一个 ‘e’ 或 ‘E’ ,后面跟着一个 整数…...
程序员的逆向思维
前要: 为什么你读不懂面试官提问的真实意图,导致很难把问题回答到面试官心坎上? 为什么在面试结束时,你只知道问薪资待遇,不知道如何高质量反问? 作为一名程序员,思维和技能是我们职场生涯中最重要的两个方面。有时候…...
吐血整理学习方法,2年多功能测试成功进阶自动化测试,月薪23k+......
目录:导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜)前言 测试进阶方向 测试进…...
mysql慢查询:pt-query-digest 分析
"某些SQL语句执行效率慢",这个问题总体上分为两类: 出现了慢查询语句某些查询语句没有使用索引 由于数据的写入量非常大,所以要想直接打开慢查询日志来查看到底哪些语句有问题几乎是不可能的,因为日志的刷新速度太快了…...
git的使用整合
git的下载和安装暂时不论述了,将git安装后会自动配置环境变量,所以环境变量也不需要配置。 一、初始化配置 打开git bash here(使用linux系统下运行的口令),弹出一个类似于cmd的窗口。 (1)配置属性 git config --glob…...
XCPC第九站———背包问题!
1.01背包问题 我们首先定义一个二维数组f,其中f[i][j]表示在前i个物品中取且总体积不超过j的取法中的最大价值。那么我们如何得到f[i][j]呢?我们运用递推的思想。由于第i个物品只有选和不选两种情况,当不选第i个物品时,f[i][j]f[i…...
【软考 系统架构设计师】论文范文④ 论基于构件的软件开发
>>回到总目录<< 文章目录 论基于构件的软件开发范文摘要正文论基于构件的软件开发 软件系统的复杂性不断增长、软件人员的频繁流动和软件行业的激烈竞争迫使软件企业提高软件质量、积累和固化知识财富,并尽可能地缩短软件产品的开发周期。 集软件复用、分布式对…...
spring-integration-redis中分布式锁RedisLockRegistry的使用
pom依赖:<!-- redis --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></dependency><dependency><groupId>org.springframework.integ…...
城市通电(prim算法)
acwing3728 蓝桥杯集训每日一题 平面上遍布着 n 座城市,编号 1∼n。 第 i 座城市的位置坐标为 (xi,yi) 不同城市的位置有可能重合。 现在要通过建立发电站和搭建电线的方式给每座城市都通电。 一个城市如果建有发电站,或者通过电线直接或间接的与建…...
【动态规划】
动态规划1引言题目509. 斐波那契数70. 爬楼梯746. 使用最小花费爬楼梯小结53. 最大子数组和结语引言 蓝桥杯快开始了啊,自从报名后还没认真学过算法有(>﹏<)′,临时抱一下佛脚,一起学学算法。 题目 509. 斐波那契数 斐波那契数 &am…...
完全背包问题(从暴力到一维,逐层剖析优化本质)
1. 从“无限拿”的困惑说起:完全背包问题到底是什么? 大家好,我是老张,一个在算法和工程里摸爬滚打了十来年的老码农。今天咱们不聊那些高大上的AI模型,就聊一个非常经典、面试必考、而且新手最容易懵的算法问题——完…...
恒压供水系统实战笔记:西门子全家桶开发实录
全套西门子恒压供水,图纸及程序 西门子plc,smart200触摸屏包含昆仑通泰触摸屏。 恒压供水全套图纸 三拖三全套程序 图纸功能:带超压,缺水保护,模拟量控制变频器最近刚做完一个三泵轮换的恒压供水项目,用到了西门子S…...
OpenClaw深度解析:开源AI数字员工如何实现7x24小时运行?小白程序员必看!收藏版
本文深入拆解了OpenClaw开源AI项目的火爆原因,核心在于其独特的架构设计,包括Agent Loop决策、Tools工具集和Gateway持续在线模块,实现了AI的7x24小时运行。文章强调开源带来的信任、生态和分发优势,对比Claude Code,指…...
线程控制--1
一、进程与线程的1.1 引子进程是房子,线程是房子里的人进程之间是独立的、解耦的(不同房子)线程属于同一个房子,共享房子里的资源1.2 共享 vs 独占线程独占的数据(不是绝对独占,只是当前分配给你࿰…...
图图的嗨丝造相-Z-Image-Turbo快速部署:Docker镜像开箱即用Gradio WebUI教程
图图的嗨丝造相-Z-Image-Turbo快速部署:Docker镜像开箱即用Gradio WebUI教程 想快速体验一个能生成特定风格图片的AI模型吗?今天给大家介绍一个开箱即用的Docker镜像——图图的嗨丝造相-Z-Image-Turbo。这个镜像基于Z-Image-Turbo模型,并集成…...
终极指南:如何用BluetoothKit快速构建iOS蓝牙应用
终极指南:如何用BluetoothKit快速构建iOS蓝牙应用 【免费下载链接】BluetoothKit 项目地址: https://gitcode.com/gh_mirrors/blu/BluetoothKit BluetoothKit是一款专为iOS平台设计的蓝牙开发框架,它极大简化了传统CoreBluetooth框架的复杂操作&…...
Nunchaku-flux-1-dev数据库应用:MySQL管理海量生成图像与元数据
Nunchaku-flux-1-dev数据库应用:MySQL管理海量生成图像与元数据 想象一下,你的团队每天用Nunchaku-flux-1-dev生成成千上万张产品图、营销素材或者设计稿。一开始,大家可能把图片随便存在电脑文件夹里,用Excel记一下生成参数。但…...
OpenBMC实战指南(一):obmc-console服务端与客户端的深度解析
1. 初识obmc-console:它到底是什么,能帮你做什么? 如果你刚开始接触OpenBMC,可能会被一堆服务名搞得晕头转向。今天咱们就来聊聊其中一个非常核心,但又常常被误解的组件:obmc-console。简单来说,…...
告别复杂配置:5分钟搞定ESXi上Ubuntu 22.04的SSH远程访问(含Cpolar固定TCP地址设置)
告别复杂配置:5分钟搞定ESXi上Ubuntu 22.04的SSH远程访问(含固定公网地址设置) 每次想快速搭建一个临时的开发环境或者测试服务器,你是不是都得花上大半天时间折腾网络配置、端口转发,甚至还得去研究路由器后台&#x…...
嵌入式灯光装置中的光机集成设计实践
1. 项目概述“伊洛玛丽的彩色灯光画”是一个以人像光影艺术表达为核心的嵌入式灯光装置项目。其核心目标并非实现复杂交互或高精度控制,而是通过硬件结构、光学路径与基础驱动电路的协同设计,在低成本前提下达成柔和、均匀、富有层次感的背光渲染效果。项…...
