当前位置：首页 > news >正文

【大数据技术基础】课程第8章数据仓库Hive的安装和使用大数据基础编程、实验和案例教程（第2版）

news 2025/7/16 5:12:39

第8章数据仓库Hive的安装和使用

8.1 Hive的安装

8.1.1 下载安装文件

访问Hive官网（http://www.apache.org/dyn/closer.cgi/hive/）下载安装文件apache-hive-3.1.2-bin.tar.gz

下载完安装文件以后，需要对文件进行解压。按照Linux系统使用的默认规范，用户安装的软件一般都是存放在“/usr/local/”目录下。请在Linux系统中打开一个终端，执行如下命令：

sudo tar -zxvf ./apache-hive-3.1.2-bin.tar.gz -C /usr/local   # 解压到/usr/local中
cd /usr/local/
sudo mv apache-hive-3.1.2-bin hive       # 将文件夹名改为hive
sudo chown -R hadoop:hadoop hive          # 修改文件权限

8.1.2 配置环境变量

为了方便使用，可以把hive命令加入到环境变量PATH中，从而可以在任意目录下直接使用hive命令启动，请使用vim编辑器打开“~/.bashrc”文件进行编辑，命令如下：

vim ~/.bashrc

在该文件的最前面一行添加如下内容：

export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin

保存该文件并退出vim编辑器，然后，运行如下命令使得配置立即生效：

source ~/.bashrc

8.1.3 修改配置文件

将“/usr/local/hive/conf”目录下的hive-default.xml.template文件重命名为hive-default.xml，命令如下：

cd /usr/local/hive/conf
sudo mv hive-default.xml.template hive-default.xml

同时，使用vim编辑器新建一个文件hive-site.xml，命令如下：

cd /usr/local/hive/conf
vim hive-site.xml

在hive-site.xml中输入如下配置信息：

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value><description>JDBC connect string for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value><description>Driver class name for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value><description>username to use against metastore database</description></property><property><name>javax.jdo.option.ConnectionPassword</name><value>hive</value><description>password to use against metastore database</description></property>
</configuration>

8.1.4 安装并配置MySQL

1. 安装MySQL

这里采用MySQL数据库保存Hive的元数据，而不是采用Hive自带的derby来存储元数据，因此，需要安装MySQL数据库。可以参照“附录B：Linux系统中的MySQL安装及常用操作”，完成MySQL数据库的安装，这里不再赘述。

2. 下载MySQL JDBC驱动程序

为了让Hive能够连接到MySQL数据库，需要下载MySQL JDBC驱动程序。可以到MySQL官网（http://www.mysql.com/downloads/connector/j/）下载mysql-connector-java-5.1.40.tar.gz。

在Linux系统中打开一个终端，在终端中执行如下命令解压缩文件：

cd ~
tar -zxvf mysql-connector-java-5.1.40.tar.gz   #解压

下面将mysql-connector-java-5.1.40-bin.jar拷贝到/usr/local/hive/lib目录下

cp mysql-connector-java-5.1.40/mysql-connector-java-5.1.40-bin.jar  /usr/local/hive/lib

3. 启动MySQL

执行如下命令启动MySQL，并进入“mysql>”命令提示符状态：

service mysql start  #启动MySQL服务
mysql -u root -p   #登录MySQL数据库

4. 在MySQL中为Hive新建数据库

现在，需要在MySQL数据库中新建一个名称为hive的数据库，用来保存Hive的元数据。MySQL中的这个hive数据库，是与Hive的配置文件hive-site.xml中的“mysql://localhost:3306/hive”对应起来的，用来保存Hive元数据。在MySQL数据库中新建hive数据库的命令，需要在“mysql>”命令提示符下执行，具体如下：

create database hive;

5. 配置MySQL允许Hive接入

需要对MySQL进行权限配置，允许Hive连接到MySQL。

grant all on *.* to hive@localhost identified by 'hive'; 
flush privileges;

6. 启动Hive

Hive是基于Hadoop的数据仓库，会把用户输入的查询语句自动转换成为MapReduce任务来执行，并把结果返回给用户。因此，启动Hive之前，需要先启动Hadoop集群，命令如下：

cd /usr/local/hadoop
./sbin/start-dfs.sh

然后，再执行如下命令启动Hive：

cd /usr/local/hive
./bin/hive

8.2 Hive的数据类型

Hive的基本数据类型

类型

描述

示例

TINYINT

1个字节（8位）有符号整数

1

SMALLINT

2个字节（16位）有符号整数

1

INT

4个字节（32位）有符号整数

1

BIGINT

8个字节（64位）有符号整数

1

FLOAT

4个字节（32位）单精度浮点数

1.0

DOUBLE

8个字节（64位）双精度浮点数

1.0

BOOLEAN

布尔类型，true/false

true

STRING

字符串，可以指定字符集

“xmu”

TIMESTAMP

整数、浮点数或者字符串

1327882394（Unix新纪元秒）

BINARY

字节数组

[0,1,0,1,0,1,0,1]

Hive的集合数据类型

**Hive的基本数据类型**
类型	描述	示例
TINYINT	1个字节（8位）有符号整数	1
SMALLINT	2个字节（16位）有符号整数	1
INT	4个字节（32位）有符号整数	1
BIGINT	8个字节（64位）有符号整数	1
FLOAT	4个字节（32位）单精度浮点数	1.0
DOUBLE	8个字节（64位）双精度浮点数	1.0
BOOLEAN	布尔类型，true/false	true
STRING	字符串，可以指定字符集	“xmu”
TIMESTAMP	整数、浮点数或者字符串	1327882394（Unix新纪元秒）
BINARY	字节数组	[0,1,0,1,0,1,0,1]

8.3 Hive基本操作

8.3.1 创建数据库、表、视图

1. 创建数据库

创建数据库hive

hive> create database hive;

创建数据库hive，因为hive已经存在，所以会抛出异常，加上if not exists关键字，则不会抛出异常

hive> create database if not exists hive;

2. 创建表

在hive数据库中，创建表usr，含三个属性id，name，age

hive> use hive;

hive>create table if not exists usr(id bigint,name string,age int);

在hive数据库中，创建表usr，含三个属性id，name，age，存储路径为“/usr/local/hive/warehouse/hive/usr”

hive>create table if not exists hive.usr(id bigint,name string,age int)

>location ‘/usr/local/hive/warehouse/hive/usr’;

在hive数据库中，创建外部表usr，含三个属性id，name，age，可以读取路径“/usr/local/data”下以“，”分隔的数据。

hive>create external table if not exists hive.usr(id bigint,name string,age int)

>row format delimited fields terminated by ','

location ‘/usr/local/data’;

在hive数据库中，创建分区表usr，含三个属性id，name，age，还存在分区字段sex。

hive>create table hive.usr(id bigint,name string,age int) partition by(sex boolean);

在hive数据库中，创建分区表usr1，它通过复制表usr得到。

hive> use hive;

hive>create table if not exists usr1 like usr;

3. 创建视图

创建视图little_usr，只包含usr表中id，age属性

hive>create view little_usr as select id,age from usr;

8.3.2 删除数据库、表、视图

删除数据库

删除数据库hive，如果不存在会出现警告

hive> drop database hive;

删除数据库hive，因为有if exists关键字，即使不存在也不会抛出异常

hive>drop database if not exists hive;

删除数据库hive，加上cascade关键字，可以删除当前数据库和该数据库中的表

hive> drop database if not exists hive cascade;

删除表

删除表usr，如果是内部表，元数据和实际数据都会被删除；如果是外部表，只删除元数据，不删除实际数据

hive> drop table if exists usr;

删除视图

删除视图little_usr

hive> drop view if exists little_usr;

8.3.3 修改数据库、表、视图

修改数据库

为hive数据库设置dbproperties键值对属性值来描述数据库属性信息

hive> alter database hive set dbproperties(‘edited-by’=’lily’);

修改表

重命名表usr为user

hive> alter table usr rename to user;

为表usr增加新分区

hive> alter table usr add if not exists partition(age=10);

删除表usr中分区

hive> alter table usr drop if exists partition(age=10);

把表usr中列名name修改为username，并把该列置于age列后

hive>alter table usr change name username string after age;

在对表usr分区字段之前，增加一个新列sex

hive>alter table usr add columns(sex boolean);

删除表usr中所有字段并重新指定新字段newid，newname，newage

hive>alter table usr replace columns(newid bigint,newname string,newage int);

为usr表设置tblproperties键值对属性值来描述表的属性信息

hive> alter table usr set tabproperties(‘notes’=’the columns in usr may be null except id’);

修改视图

修改little_usr视图元数据中的tblproperties属性信息

hive> alter view little_usr set tabproperties(‘create_at’=’refer to timestamp’);

8.3.4 查看数据库、表、视图

查看数据库

查看Hive中包含的所有数据库

hive> show databases;

查看Hive中以h开头的所有数据库

hive>show databases like ‘h.*’;

查看表和视图

查看数据库hive中所有表和视图

hive> use hive;

hive> show tables;

查看数据库hive中以u开头的所有表和视图

hive> show tables in hive like ‘u.*’;

8.3.5 描述数据库、表、视图

描述数据库

查看数据库hive的基本信息，包括数据库中文件位置信息等

hive> describe database hive;

查看数据库hive的详细信息，包括数据库的基本信息及属性信息等

hive>describe database extended hive;

描述表和视图

查看表usr和视图little_usr的基本信息，包括列信息等

hive> describe hive.usr/ hive.little_usr;

查看表usr和视图little_usr的详细信息，包括列信息、位置信息、属性信息等

hive> describe extended hive.usr/ hive.little_usr;

查看表usr中列id的信息

hive> describe extended hive.usr.id;

8.3.6 向表中装载数据

把目录’/usr/local/data‘下的数据文件中的数据装载进usr表并覆盖原有数据

hive> load data local inpath ‘/usr/local/data’ overwrite into table usr;

把目录’/usr/local/data‘下的数据文件中的数据装载进usr表不覆盖原有数据

hive> load data local inpath ‘/usr/local/data’ into table usr;

把分布式文件系统目录’hdfs://master_srever/usr/local/data‘下的数据文件数据装载进usr表并覆盖原有数据

hive> load data inpath ‘hdfs://master_srever/usr/local/data’

>overwrite into table usr;

8.3.7 查询表中数据

该命令和SQL语句完全相同这里不再赘述。

8.3.8 向表中插入数据或从表中导出数据

向表usr1中插入来自usr表的数据并覆盖原有数据

hive> insert overwrite table usr1

> select * from usr where age=10;

向表usr1中插入来自usr表的数据并追加在原有数据后

hive> insert into table usr1

> select * from usr

> where age=10;

8.4 Hive应用实例：WordCount

现在我们通过一个实例——词频统计，来深入学习一下Hive的具体使用。首先，需要创建一个需要分析的输入数据文件，然后编写HiveQL语句实现WordCount算法，在Unix下实现步骤如下：

（1）创建input目录，其中input为输入目录。命令如下：

cd /usr/local/hadoopmkdir input

（2）在input文件夹中创建两个测试文件file1.txt和file2.txt，命令如下：

cd  /usr/local/hadoop/inputecho "hello world" > file1.txtecho "hello hadoop" > file2.txt

（3）进入hive命令行界面，编写HiveQL语句实现WordCount算法，命令如下：

hive

hive> create table docs(line string);

hive> load data inpath 'input' overwrite into table docs;

hive>create table word_count as

select word, count(1) as count from

(select explode(split(line,' '))as word from docs) w

group by word

order by word;

执行完成后，用select语句查看运行结果如下：

8.5 Hive编程的优势

词频统计算法是最能体现MapReduce思想的算法之一，接下来，我们将比较WordCount算法在MapReduce中的编程实现和Hive中编程实现的主要不同点：

1. 采用Hive实现WordCount算法需要编写较少的代码量

在MapReduce中，wordcount类由63行Java代码编写而成代码位置：%HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar；

而在Hive中只需要编写7行代码

2. 在MapReduce的实现中，需要进行编译生成jar文件来执行算法，而在Hive中不需要。

HiveQL语句的最终实现需要转换为MapReduce任务来执行，这都是由Hive框架自动完成的，用户不需要了解具体实现细节。

8.6 本章小结

Hive是一个构建于Hadoop顶层的数据仓库工具，主要用于对存储在 Hadoop 文件中的数据集进行数据整理、特殊查询和分析处理。Hive在某种程度上可以看作是用户编程接口，本身不存储和处理数据，依赖HDFS存储数据，依赖MapReduce处理数据。

本章介绍了Hive的安装方法，包括下载安装文件、配置环境变量、修改配置文件、安装并配置MySQL等。Hive支持关系数据库中的大多数基本数据类型，同时Hive还支持关系数据库中不常出现的的3种集合数据类型。Hive提供了类似SQL的语句——HiveQL，可以很方便地对Hive进行操作，包括创建、修改、删除数据库、表、视图等。Hive的一大突出优点是，可以把查询语句自动转化成相应的MapReduce任务去执行得到结果，这样就可以大大节省用户的编程工作量，本章最后通过一个WordCount应用实例，充分展示了Hive的这一优点。

【大数据技术基础】课程第8章数据仓库Hive的安装和使用大数据基础编程、实验和案例教程（第2版）

第8章数据仓库Hive的安装和使用 8.1 Hive的安装 8.1.1 下载安装文件访问Hive官网（http://www.apache.org/dyn/closer.cgi/hive/）下载安装文件apache-hive-3.1.2-bin.tar.gz 下载完安装文件以后，需要对文件进行解压。按照Linux系统使用的…...

编程日记 2024/11/27 16:50:22

BERT 详解

BERT简介 BERT（Bidirectional Encoder Representations from Transformers）是由 Google 在 2018 年提出的一种预训练语言模型。BERT 在自然语言处理（NLP）领域取得了重大突破，因为它能够有效地捕捉文本的上下文信息&am…...

编程日记 2024/11/27 16:48:20

使用 MySQL 的 REPLACE() 函数轻松替换表中字段

前言在数据库操作中，经常需要对存储的数据进行一些处理和修改，替换字段中的部分信息。MySQL 提供了多种字符串函数来帮助开发者完成这些任务。其中一个非常实用的函数就是 REPLACE()。 REPLACE() 函数简介 REPLACE() 函数用于在字符串中查找指定的子…...

编程日记 2024/11/27 16:46:17

Http 响应协议

HTTP的响应协议响应数据格式响应行响应数据的第一行，包括协议、状态码、描述响应头从响应数据格式的第二行开始，也是以key:value的格式响应体和响应头之间有一个空行，是响应数据格式的最后一部分，用于存放响应的数据常见响…...

编程日记 2024/11/27 16:45:16

TCP/IP 协议：网络世界的基石（2/10）

一、引言在当今数字化时代，互联网已经成为人们生活中不可或缺的一部分。而在互联网的背后，TCP/IP 协议扮演着至关重要的角色，堪称互联网的基石。 TCP/IP 协议是一组用于数据通信的协议集合，它的名字来源于其中最重要的两个协议…...

编程日记 2024/11/27 16:42:10

Lua--1.基础知识

Lua基础知识变量简单的4种变量类型复杂的4种变量类型type函数字符串操作长度获取--#多行打印字符串拼接别的类型转字符串-- tostring()字符串提供的公共方法运算符算术运算符-- - * / % ^条件运算符-- > < > < ~(不等于是 ~)逻辑运算符-- and or not位运算、…...

编程日记 2024/11/27 16:39:06

【GPT】力量训练的底层原理？

详细解读力量训练的每一个底层原理力量训练之所以有效，是因为它利用了肌肉、神经系统和生物化学反应的基本机制。以下逐一详细解析，并解释相关概念。 1. 应力-恢复-适应理论概念解析应力（Stress）：指训练带来的负…...

编程日记 2024/11/27 16:32:57

各种排序算法

前置知识排序: 按照递增或者递减的顺序把数据排列好稳定性: 值相等的元素在排序之后前后顺序是否发生了改变内部排序: 数据放在内存上外部排序: 数据放在磁盘上内部排序基于比较的排序几大排序算法 1. 堆排序特点: 思想: 1. 创建大根堆,把所有元素放在大根堆里…...

编程日记 2024/11/27 16:29:53

源码解读笔记：协程的 ViewModel.viewModelScope和LifecycleOwner.lifecycleScope

分析下ViewModel.viewModelScope public val ViewModel.viewModelScope: CoroutineScopeget() {val scope: CoroutineScope? this.getTag(JOB_KEY)if (scope ! null) {return scope}return setTagIfAbsent(JOB_KEY,CloseableCoroutineScope(SupervisorJob() Dispatchers.Ma…...

编程日记 2024/11/27 16:27:51

第8章 数据仓库Hive的安装和使用

8.1 Hive的安装

8.1.1 下载安装文件

8.1.2 配置环境变量

8.1.3 修改配置文件

8.1.4 安装并配置MySQL

8.2 Hive的数据类型

8.3 Hive基本操作

8.3.1 创建数据库、表、视图

8.3.2 删除数据库、表、视图

8.3.3 修改数据库、表、视图

8.3.4 查看数据库、表、视图

8.3.5 描述数据库、表、视图

8.3.6 向表中装载数据

8.3.7 查询表中数据

8.3.8 向表中插入数据或从表中导出数据

8.4 Hive应用实例：WordCount

8.5 Hive编程的优势

8.6 本章小结

相关文章：

第8章数据仓库Hive的安装和使用