当前位置：首页 > news >正文

SparkSQL与Hive交互

news 2026/2/8 16:10:50

SparkSQL与Hive交互

- 一、内嵌Hive应用
- 二、外部Hive应用
- 三、运行Spark SQL CLI
- 四、IDEA操作外部Hive

SparkSQL可以采用内嵌Hive，也可以采用外部Hive。企业开发中，通常采用外部Hive。

一、内嵌Hive应用

内嵌Hive，元数据存储在Derby数据库。
（1）如果使用Spark内嵌的Hive，则什么都不用做，直接使用即可。

[root@bigdata111 spark-local]$ bin/spark-shellscala> spark.sql("show tables").show

注意：执行完后，发现多了$SPARK_HOME/metastore_db和derby.log，用于存储元数据
（2）创建一个表

scala> spark.sql("create table user(id int, name string)")

注意：执行完后，发现多了$SPARK_HOME/spark-warehouse/user，用于存储数据库数据

（3）查看数据库

scala> spark.sql("show tables").show

（4）向表中插入数据

scala> spark.sql("insert into user values(1,'wgh')")

（5）查询数据

scala> spark.sql("select * from user").show

注意：然而在实际使用中，几乎没有任何人会使用内置的Hive，因为元数据存储在derby数据库，不支持多客户端访问。

二、外部Hive应用

如果Spark要接管Hive外部已经部署好的Hive，需要通过以下几个步骤：

（0）为了说明内嵌Hive和外部Hive区别：删除内嵌Hive的metastore_db和spark-warehouse

[root@bigdata111 spark-local]$ rm -rf metastore_db/ spark-warehouse/

（1）确定原有Hive是正常工作的

[root@bigdata111 hadoop-3.1.3]$ sbin/start-dfs.sh
[root@bigdata111 hadoop-3.1.3]$ sbin/start-yarn.sh[root@bigdata111 hive]$ bin/hive

（2）需要把hive-site.xml拷贝到spark的conf/目录下

[root@bigdata111 conf]$ cp hive-site.xml /opt/module/spark-local/conf/

（3）如果以前hive-site.xml文件中，配置过Tez相关信息，注释掉（不是必须）

（4）把MySQL的驱动copy到Spark的jars/目录下

[root@bigdata111 software]$ cp mysql-connector-java-5.1.48.jar /opt/module/spark-local/jars/

（5）需要提前启动hive服务，/opt/module/hive/bin/hiveservices.sh start（不是必须）

（6）如果访问不到HDFS，则需把core-site.xml和hdfs-site.xml拷贝到conf/目录（不是必须）

（7）启动 spark-shell

[root@bigdata111 spark-local]$ bin/spark-shell

（8）查询表

scala> spark.sql("show tables").show

（9）创建一个表

scala> spark.sql("create table student(id int, name string)")

（10）向表中插入数据

scala> spark.sql("insert into student values(1,'wgh')")

（11）查询数据

scala> spark.sql("select * from student").show

三、运行Spark SQL CLI

Spark SQL CLI可以很方便的在本地运行Hive元数据服务以及从命令行执行查询任务。在Spark目录下执行如下命令启动Spark SQL CLI，直接执行SQL语句，类似Hive窗口。

[root@bigdata111 spark-local]$ bin/spark-sqlspark-sql (default)> show tables;

四、IDEA操作外部Hive

（1）在pom中添加依赖

<dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId><version>3.0.0</version></dependency><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>5.1.27</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-hive_2.12</artifactId><version>3.0.0</version></dependency>
</dependencies>

（2）拷贝hive-site.xml到resources目录（如果需要操作Hadoop，需要拷贝hdfs-site.xml、core-site.xml、yarn-site.xml）

（3）代码实现

package com.wghu.sparksqlimport org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession/*** User: WGH* Date:2023-03-08** idea写代码连接外部hive* 1.导入pom依赖，spark-sql  mysql连接驱动，spark-hive* 2.将hive-site.xml放入到项目的类路径下* 3.代码里面获取外部hive的支持，在创建sparkSession对象是加入.enableHiveSupport()*/object SparkSQL12_Hive {def main(args: Array[String]): Unit = {System.setProperty("HADOOP_USER_NAME","root")//1.创建配置对象val conf : SparkConf = new SparkConf().setAppName("SparkSQLTest").setMaster("local[*]")//2.创建sparkSession对象val spark: SparkSession = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()//3.编写代码//连接hivespark.sql("show tables").show()spark.sql("create table bbb(id int,name string)").show()spark.sql("insert into bbb values(1,'wgh')").show()spark.sql("select * from bbb").show()//4.关闭scspark.stop()}}

SparkSQL与Hive交互

SparkSQL与Hive交互一、内嵌Hive应用二、外部Hive应用三、运行Spark SQL CLI四、IDEA操作外部HiveSparkSQL可以采用内嵌Hive，也可以采用外部Hive。企业开发中，通常采用外部Hive。一、内嵌Hive应用内嵌Hive，元数据存储在Derby数据库。 &am…...

编程日记 2023/4/25 6:55:27

「题解」日常遇到指针面试题

🐶博主主页：ᰔᩚ. 一怀明月ꦿ ❤️‍🔥专栏系列：线性代数，C初学者入门训练，题解C，C的使用文章 🔥座右铭：“不要等到什么都没有了，才下定决心去做” &#x1…...

编程日记 2023/4/25 6:55:19

实习生JAVA知识总结目录

一.JAVA基础学习 JAVA知识点全面总结1：零散知识 JAVA知识点全面总结2：面向对象 JAVA知识点全面总结3：String类的学习 JAVA知识点全面总结4：异常类学习 JAVA知识点全面总结5：IO流的学习 JAVA知识点全面总结6&…...

编程日记 2023/4/25 6:55:08

GMPC认证有哪些内容?

【GMPC认证有哪些内容?】GMP(GMP Good Manufacturing Practice)即良好生产规范，最早是美国国会为了规范药品生产而于1963年颁布的。这也是世界上第一部GMP。由于GMP在规范药品的生产，提高药品的质量，保证药品的安全方面效果非常明显&#xf…...

编程日记 2023/4/25 6:54:53

D2-Net: A Trainable CNN for Joint Description and Detection of Local Features精读

开源代码：D2-Net 1 摘要在这项工作中，我们解决了在困难的成像条件下寻找可靠的像素级对应的问题。我们提出了一种由单一卷积神经网络发挥双重作用的方法：它同时是一个密集的特征描述符和一个特征检测器。通过将检测推迟到后期阶段&#xf…...

编程日记 2023/4/25 18:46:48

Java基础面试题

目录一，Java基础 1.1.JDK和JRE有什么区别？ 1.2.JAVA中的几种基本类型，各占用多少字节？ 1.3.和equals的区别是什么？ 1.4.final,finally,finalied有什么区别? 1.15.Java 中操作字符串都有哪些类？它们…...

编程日记 2023/4/25 6:54:39

关系型数据库如MySQL和非关系型数据库MongoDB的对应关系：SQLMongoDBdatabasedatabasetablecollectionrowdocument or Bson documentcolumnfieldindexindextable joins$lookupprimary keyprimary key指定任何唯一的列或列组合作为主键主键会自动设置为_id字段aggrega…...

编程日记 2023/4/25 0:33:49

研究链表空间销毁问题

💯💯💯 1.研究链表空间销毁问题当链表使用完后，需要将链表销毁，那么该如何销毁呢？ void SLTDestroy(SLTNode* phead)//销毁单链表 {SLTNode* cur phead;while(cur){free(cur);cur cur->next;} }你…...

编程日记 2023/4/25 0:33:44

Linux面试总结

一.常用命令1.目录切换cd / 切换到根目录cd ../ 切换到上级目录cd ~ 切换到home目录2.查看目录ls 列出当前目录下所有的文件ls [路径]ls / 查看根目录 ls -l 相当于 ll 最常用的命令,用了表的方式列出当前目录的内容3.查看当前目录pwd-4.创建一组空文件touch5.显示文件内容cat6…...

编程日记 2023/4/25 0:33:39

anaconda的linux版本以及jupyter的安装和DataSpell连接linux的jupyter服务器

anaconda安装：官网：https://www.anaconda.com/拷贝下载网址后，在Linux里进行下载：wget https://repo.anaconda.com/archive/Anaconda3-2022.10-Linux-x86_64.sh执行sh：./Anaconda3-2022.10-Linux-x86_64.sh 安装完后&a…...

编程日记 2023/4/25 6:54:29

Zookeeper集群和Hadoop集群安装（保姆级教程）

1. HA HA（Heigh Available）高可用解决单点故障，保证企业服务 7*24 小时不宕机单点故障：某个节点宕机导致整个集群的宕机 Hadoop 的 HA NameNode 存在单点故障的可能，需要配置 HA 解决引入第二个 NameNode 作为备份同…...

编程日记 2023/4/25 6:54:10

利用matlab的newff构建BP神经网络来实现数据的逼近和拟合

假设P是原始数据向量； T是对应的目标向量； 现在需要通过神经网络来实现P->T的非线性映射。 net newff(minmax(P),[16,1],{tansig,purelin},trainlm); net.trainParam.epochs 2000; net.trainParam.goal 1e-5; net init(net); net train(n…...

编程日记 2023/4/25 6:53:54

【经验分享】电路板上电就挂？新手工程师该怎么检查PCB？

小伙伴们有没有经历过辛辛苦苦，加班加点设计的PCB，终于搞定下单制板。接下来焦急并且忐忑地等待PCB板到货，焊接，验证，一上电，结果直接挂了... 连忙赶紧排查，找问题。最终发现，是打过…...

编程日记 2023/4/24 13:48:09

运筹系列68：TSP问题Held-Karp下界的julia实现

1. 介绍 Held-Karp下界基于1tree下界，但是增加了点权重，如下图通过梯度下降的方法找到最优的π\piπ。这里用到的1tree有下面几种： 全部点用来生成最小生成树，再加上所有叶子结点第二短的边中数值最大的那个任意选一个点&…...

编程日记 2023/4/25 6:53:34

神经影像信号处理总成(EEG、SEEG、MRI、CT)

目录一. EEG(脑电图)1.1 脑波1.2 伪迹1.2.1 眼动伪迹1.2.2 肌电伪迹1.2.3 运动伪迹1.2.4 心电伪迹1.2.5 血管波伪迹1.2.6 50Hz和静电干扰1.3 伪迹去除方法1.3.1 避免伪迹产生法1.3.2 直接移除法1.3.3 伪迹消除法二. SEEG(立体脑电图)三. CT（计算机断层扫描&#xff…...

编程日记 2023/4/25 6:53:20

ZooKeeper 进阶：基本介绍

zppkeeper是什么 zookeeper是一个高性能、开源的分布式应用协调服务，它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如实现同步(分布式锁)、配置管理、集群管理。它被设计为易于编程，使用文件系统目录树作为数…...

编程日记 2023/4/25 6:53:17

CSS的常用元素属性,显示模式,盒模型,弹性布局

目录 1.常用元素属性 1.1字体属性设置字体设置大小字体粗细文字样式 1.2文本属性文字颜色文字对齐编辑文本装饰文本缩进编辑行高编辑1.3背景属性背景颜色背景位置背景尺寸 1.4圆角矩形 2.元素的显示模式 2.1块级元素(display:block) 2.…...

编程日记 2023/4/25 6:53:03

【20230308】串口接收数据分包问题处理（Linux）

1 问题背景一包数据可能由于某些传输原因，经常出现一包数据分成几包的情况。 2 解决方法 2.1 通过设定最小读取字符和读取超时时间可以使用termios结构体来控制终端设备的输入输出。可以通过VTIME和VMIN的值结合起来共同控制对输入的读取。此外，两…...

编程日记 2023/4/25 6:52:49

数据库复试问题总结

数据库复试问题由《数据库系统概论(第5版)》总结而来，用于本人研究生复试准备。也欢迎各位准研究生们学习使用。文章目录数据库复试问题1、三级模式结构及二级映射有什么优点？2、关系模型中的完整性约束是哪几类？3、SQL的特点？…...

编程日记 2023/4/25 6:52:28

Linux操作系统安装——服务控制

个人简介：云计算网络运维专业人员，了解运维知识，掌握TCP/IP协议，每天分享网络运维知识与技能。座右铭：海不辞水，故能成其大；山不辞石，故能成其高。个人主页：小李会科技的…...

编程日记 2023/4/25 6:52:11

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

一、变量声明设计：let 与 mut 的哲学解析 Rust 采用 let 声明变量并通过 mut 显式标记可变性，这种设计体现了语言的核心哲学。以下是深度解析： 1.1 设计理念剖析安全优先原则：默认不可变强制开发者明确声明意图 let x 5; …...

编程新知 2025/9/28 20:12:12

设计模式和设计原则回顾

设计模式和设计原则回顾 23种设计模式是设计原则的完美体现，设计原则设计原则是设计模式的理论基石，设计模式在经典的设计模式分类中（如《设计模式：可复用面向对象软件的基础》一书中），总共有23种设计模式，分为三大类：一、创建型模式（5种） 1. 单例模式（Sing…...

编程新知 2025/12/14 20:57:41

大话软工笔记—需求分析概述

需求分析，就是要对需求调研收集到的资料信息逐个地进行拆分、研究，从大量的不确定“需求”中确定出哪些需求最终要转换为确定的“功能需求”。需求分析的作用非常重要，后续设计的依据主要来自于需求分析的成果，包括: 项目的目的…...

编程新知 2026/1/28 10:58:50

3.3.1_1 检错编码（奇偶校验码）

从这节课开始，我们会探讨数据链路层的差错控制功能，差错控制功能的主要目标是要发现并且解决一个帧内部的位错误，我们需要使用特殊的编码技术去发现帧内部的位错误，当我们发现位错误之后，通常来说有两种解决方案。第一…...

编程新知 2026/1/30 3:28:14

MVC 数据库

MVC 数据库引言在软件开发领域，Model-View-Controller（MVC）是一种流行的软件架构模式，它将应用程序分为三个核心组件：模型（Model）、视图（View）和控制器（Controller）。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系，以…...

编程新知 2025/10/30 4:58:11

ffmpeg（四）：滤镜命令

FFmpeg 的滤镜命令是用于音视频处理中的强大工具，可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下： ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜： ffmpeg…...

编程新知 2026/2/4 23:47:47

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

编程新知 2025/11/26 13:15:57

SpringTask-03.入门案例

一.入门案例启动类： package com.sky;import lombok.extern.slf4j.Slf4j; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; import org.springframework.cache.annotation.EnableCach…...

编程新知 2026/2/2 0:35:08

初学 pytest 记录

安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...

编程新知 2026/1/21 19:46:26

使用Matplotlib创建炫酷的3D散点图：数据可视化的新维度

文章目录基础实现代码代码解析进阶技巧1. 自定义点的大小和颜色2. 添加图例和样式美化3. 真实数据应用示例实用技巧与注意事项完整示例（带样式）应用场景在数据科学和可视化领域，三维图形能为我们提供更丰富的数据洞察。本文将手把手教你如何使用Python的Matplotlib库创建引…...

编程新知 2026/1/28 8:25:28

SparkSQL与Hive交互

SparkSQL与Hive交互

一、内嵌Hive应用

二、外部Hive应用

三、运行Spark SQL CLI

四、IDEA操作外部Hive

相关文章：

SparkSQL与Hive交互

「题解」日常遇到指针面试题

实习生JAVA知识总结目录

GMPC认证有哪些内容?

D2-Net: A Trainable CNN for Joint Description and Detection of Local Features精读

Java基础面试题

SQL和MongoDB对比

研究链表空间销毁问题

Linux面试总结

anaconda的linux版本以及jupyter的安装和DataSpell连接linux的jupyter服务器

Zookeeper集群和Hadoop集群安装（保姆级教程）

利用matlab的newff构建BP神经网络来实现数据的逼近和拟合

【经验分享】电路板上电就挂？新手工程师该怎么检查PCB？

运筹系列68：TSP问题Held-Karp下界的julia实现

神经影像信号处理总成(EEG、SEEG、MRI、CT)

ZooKeeper 进阶：基本介绍

CSS的常用元素属性,显示模式,盒模型,弹性布局

【20230308】串口接收数据分包问题处理（Linux）

数据库复试问题总结

Linux操作系统安装——服务控制

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

设计模式和设计原则回顾

大话软工笔记—需求分析概述

3.3.1_1 检错编码（奇偶校验码）

MVC 数据库

ffmpeg（四）：滤镜命令

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

SpringTask-03.入门案例

初学 pytest 记录

使用Matplotlib创建炫酷的3D散点图：数据可视化的新维度