当前位置：首页 > news >正文

hive建分区表，分桶表，内部表，外部表

news 2025/12/17 14:34:17

hive建分区表，分桶表，内部表，外部表

一、概念介绍

Hive是基于Hadoop的一个工具，用来帮助不熟悉 MapReduce的人使用SQL对存储在Hadoop中的大规模数据进行数据提取、转化、加载。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表（hive表对应着hdfs文件），并提供SQL查询功能，Hive能将SQL语句转变成MapReduce任务来执行。

分区表，分桶表，内部表，外部表的概念:
hive表由存储的数据和描述表数据形式的元数据组成。
内部表(默认):建表时没有用EXTERNAL关键字,状态下hive表会维护数据,将数据移入仓库目录(warehouse),表被删除时会同步删除元数据和数据
外部表（external table）建表时使用了EXTERNAL关键字,删除表时仅仅删除hive中的元数据，不会去删除数据。
内部表和外部表的区别表现在LOAD和DROP命令的不同上。LOAD 内部表会把数据移动到仓库目录(warehouse)外部表不会移动数据,只是记录数据路径信息,甚至不会检查路径是否存在DROP 内部表会将元数据和数据一起删除外部表只删除元数据
分区表:分区只是表目录下的子目录。比如按天分区，这样同一天的记录会被保存在同一分区（目录），优点在于查询特定日期的时候特别高效。分区是在创建表时使用 PARTITIONED BY子句定义的,分区列不在数据文件中。create table logs(ts INT,line STRING)PARTITIONED by(dt STRING);分区表加载数据时需要指定分区值load data local inpath ‘/home/public_train/part.txt’ into table logs  PARTITION (dt=’2023-01-01’);使用show partitions logs;查看logs下的分区
分桶表:使用CLUSTERED BY子句指定划分通的列和桶的个数。每个桶是表(或分区)目录里的一个文件。create table bucketed_user(id INT,name STRING)CLUSTERED BY (id) into 4 BUCKETS;桶中的数据库可以进行排序:create table bucketed_users(id INT,name STRING)CLUSTERED BY (id) SORTED BY (id ASC) into 4 BUCKETS;查看分桶文件hdfs dfs -ls /user/hive/warehouse/bucketed_users分桶的优点在于快速取样和在表连接的时候提高效率。

下面我们使用hive建分区表，分桶表，内部表，外部表来熟悉hive的建表操作。

二、 hive建表实操

${HIVE_HOME}/bin/hive启动hive客户端

-- 准备工作, 创建数据文件,这里字段分割符是Tab键,对应着表定义中的'\t'
vi stu.txt
1	xiapi
2	xiaoxue
3	qingqin
4	lisi
--上传文件到hdfs
hdfs dfs -mkdir -p /hive/stu
hdfs dfs -put -f stu.txt hdfs://192.168.129.130:8020/hive/stu/stu.txt

下面使用${HIVE_HOME}/bin/hive启动hive客户端进行演示:

1. 创建表并将数据文件导入表中

建hive表（默认为内部表）会在数据仓库(hdfs默认/user/hive/warehouse)中创建同名表目录,load数据文件会将文件移动到表目录下。

-- drop table test;
-- 建hive表对应的是数据仓库warehouse中的hdfs文件,所以需要指定文件中的字段分隔符和行分隔符
create table test (
id int,
name string 
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';-- 查看表字段
desc test;
-- 查看建表语句
show create table test;
show tables;
-- 查看表文件
$ hdfs dfs -ls hdfs://192.168.129.130:8020/user/hive/warehouse/public_train.db/test-- 导入数据的语法为
-- LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE]  
-- INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]-- 导入本地数据,需要加上LOCAL
load data LOCAL inpath '/home/public_train/stu.txt' INTO TABLE test;
select * from test;-- 导入HDFS数据, 会将HDFS文件移动到hive数据仓库
load data inpath 'hdfs://192.168.129.130:8020/hive/stu/stu.txt' INTO TABLE test;
select * from test;
-- 查看表文件,增加了1个文件
$ hdfs dfs -ls hdfs://192.168.129.130:8020/user/hive/warehouse/public_train.db/test
-- hdfs文件已经不见了(被移动到hive数据仓库了)
$ hdfs dfs -ls hdfs://192.168.129.130:8020/hive/stu/stu.txt-- OVERWRITE覆盖导入HDFS数据 
load data inpath 'hdfs://192.168.129.130:8020/hive/stu/stu.txt' OVERWRITE INTO TABLE test;
select * from test;
-- 查看表文件,只剩下一个文件
$ hdfs dfs -ls hdfs://192.168.129.130:8020/user/hive/warehouse/public_train.db/test

2. 基于现有表，创建新表

create table test_copy as select * from test;

3. 创建内部表和外部表,分别load和drop后查看数据文件观察区别。

内部表会维护数据文件即load时移动文件,drop时删除数据文件;
外部表hive不会维护数据文件, drop时不会删除数据文件,仅仅删除表定义;

-- 内部表使用上面的test表即可-- 建外部表使用external关键字
create external table stu (
id int,
name string 
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
location 'hdfs://192.168.129.130:8020/hive/stu'  ;-- 查看建表语句
show create table stu;
select * from stu;$ hdfs dfs -put -f stu.txt hdfs://192.168.129.130:8020/hive/stu/stu.txt
$ hdfs dfs -ls hdfs://192.168.129.130:8020/hive/stu;
select * from stu;
-- 删除外部表后,数据文件还在
drop table stu;
$ hdfs dfs -ls hdfs://192.168.129.130:8020/hive/stu;create external table stu (
id int,
name string 
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'
location 'hdfs://192.168.129.130:8020/hive/stu'  ;
select * from stu;

4. 创建分区表,并导入分区数据

分区是表目录下的子目录。分区字段值就是子目录名，分区字段不存在于数据文件中。
分区是表的水平拆分,查询特定分区的时候特别高效,只需要读取分区子目录下的文件。

-- PARTITIONED  by指定分区字段
create table logs(ts INT,line STRING) 
PARTITIONED by(dt STRING) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';-- 加载数据
load data local inpath '/home/public_train/stu.txt' into table logs  PARTITION (dt='2023-01-01');
-- 查看分区 
show partitions logs;
-- 查看表文件(子目录名称即是分区)
dfs -ls /user/hive/warehouse/public_train.db/logs
select * from logs where dt='2023-01-01';-- 动态分区, 根据分区字段的值自动创建分区set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;insert into logs partition (dt) values (8,'auto','2024-01-01');dfs -ls /user/hive/warehouse/public_train.db/logsshow partitions logs;

5. 建表分桶

单个分桶是表或分区下的单个表文件。
分桶可以将原本的单个表文件拆分为多个表文件，好处在于快速取样和表jion时的效率提升。

-- 强制分区及设置reduces数目为分区数
set hive.enforce.bucketing = true;
set mapreduce.job.reduces=4;create table bucketed_users (id INT,name STRING) CLUSTERED BY (id) into 4 BUCKETSROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';insert  into  table bucketed_users  select ts, line from  logs;dfs -ls /user/hive/warehouse/public_train.db/bucketed_users;

在这里插入图片描述

三、hive原理及架构

Hive 实质就是一款基于 HDFS 的 MapReduce 计算框架，对存储在 HDFS 中的数据进行分析和管理。下图简要说明Hive如何将SQL语句转换成MapReduce的实现原理。
在这里插入图片描述

基本概念：
底层数据是存储在 HDFS 上
元数据存储在元数据库中
Hive的本质是将 SQL 语句转换为 MapReduce 任务运行
使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离线的批量数据计算。

Hive的架构及常用端口
在这里插入图片描述

hive建分区表，分桶表，内部表，外部表

hive建分区表，分桶表，内部表，外部表一、概念介绍 Hive是基于Hadoop的一个工具，用来帮助不熟悉 MapReduce的人使用SQL对存储在Hadoop中的大规模数据进行数据提取、转化、加载。Hive数据仓库工具能将结构化的数据文件映射为一张数…...

编程日记 2023/2/27 20:08:47

【分享】灌溉制度设计小程序VB源代码

说明根据作物需水特性和当地气候、土壤、农业技术及灌水技术等因素制定的灌水方案。主要内容包括灌水次数、灌水时间、灌水定额和灌溉定额。灌溉制度是规划、设计灌溉工程和进行灌区运行管理的基本资料，是编制和执行灌区用水计划的重要依据。 1—计划湿润土层允…...

编程日记 2023/2/27 20:07:39

PR9268/300-000库存现货振动传感器雄霸工控PR9268/300-000库存现货振动传感器雄霸工控SDM010PR9670/110-100PR9670/010-100PR9670/003-000PR9670/002-000PR9670/001-000PR9670/000-000PR9600/014-000PR9600/011-000PR9376/010-021PR9376/010-011PR9376/010-011PR9376/010-001…...

编程日记 2023/2/27 20:06:33

浅谈模型评估选择及重要性

作者：王同学来源：投稿编辑：学姐模型评估作为机器学习领域一项不可分割的部分，却常常被大家忽略，其实在机器学习领域中重要的不仅仅是模型结构和参数量，对模型的评估也是至关重要的，只有选择那…...

编程日记 2023/2/27 20:05:28

多线程的初识和创建

✨个人主页：bit me👇 ✨当前专栏：Java EE初阶👇 ✨每日一语：知不足而奋进，望远山而前行。目录💤一. 认识线程（Thread）🍎1. 线程的引入🍏2. 线程…...

编程日记 2023/2/27 20:04:22

一句话设计模式3:工厂模式

工厂模式:new多种对象的简单方式。文章目录工厂模式:new多种对象的简单方式。前言一、两种工厂模式二、如何实现工厂模式1. 简单工厂2. 抽象工厂总结前言工厂模式可以说比较常见的设计模式,仔细观察在很多源码中都有此种模式的应用;用来解决创建对象的创建问题; 一、两种工…...

编程日记 2023/2/27 20:03:16

【Codeforces Round #853 (Div. 2)】C. Serval and Toxel‘s Arrays【题解】

题目 Toxel likes arrays. Before traveling to the Paldea region, Serval gave him an array aaa as a gift. This array has nnn pairwise distinct elements. In order to get more arrays, Toxel performed mmm operations with the initial array. In the iii-th opera…...

编程日记 2023/2/27 20:02:11

100天精通Python（数据可视化篇）——第77天：数据可视化入门基础大全（万字总结+含常用图表动图展示）

文章目录1. 什么是数据可视化？2. 为什么会用数据可视化？3. 数据可视化的好处？4. 如何使用数据可视化？5. Python数据可视化常用工具1）Matplotlib绘图2）Seaborn绘图3）Bokeh绘图6. 常用图表介绍及其…...

编程日记 2023/2/27 20:01:04

PMP考前冲刺2.27 | 2023新征程，一举拿证

题目1-2：1.在产品开发过程中，项目发起人向项目团队推荐了一种新材料，新材料比现有的材料更便宜而且性能更好。如果团队采用新材料，不但有利于提升产品质量，而且可以显著降低成本。项目经理应该怎么办?A.采用新材料&am…...

编程日记 2023/2/27 19:59:58

【C++】map和set的封装（红黑树）

map和set的封装一、介绍二、stl源码剖析三、仿函数获取数值四、红黑树的迭代器五、map的[]5.1 普通迭代器转const迭代器六、set源码七、map源码八、红黑树源码一、介绍首先要知道map和set的底层都是用红黑树实现的【数据结构】红黑树 set只需要一个key，但是map既…...

编程日记 2023/2/27 19:58:53

【批处理脚本】-1.14-移动文件(夹)命令move

"><--点击返回「批处理BAT从入门到精通」总目录--> 共10页精讲（列举了所有move的用法，图文并茂，通俗易懂）在从事“嵌入式软件开发”和“Autosar工具开发软件”过程中，经常会在其集成开发环境IDE（CodeWarrior，S32K DS，Davinci，EB Tresos，ETAS…）中，…...

编程日记 2023/2/27 19:57:49

逻辑地址和物理地址转换

在操作系统的学习中，很多抵挡都会涉及虚拟地址转换为物理地址的计算，本篇就简单介绍一下在分页存储管理、分段存储管理、磁盘存储管理中涉及的地址转换问题。虚拟地址与物理地址编程一般只有可能和逻辑地址打交道，比如在 C 语言中&#x…...

编程日记 2023/2/27 19:56:44

HyperGBM用4记组合拳提升AutoML模型泛化能力

本文作者：杨健，九章云极 DataCanvas 主任架构师如何有效提高模型的泛化能力，始终是机器学习领域的重要课题。经过大量的实践证明比较有效的方式包括： 利用Early Stopping防止过拟合通过正则化降低模型的复杂度使用更多的训练数…...

编程日记 2023/2/27 19:55:41

P6软件中的前锋线设置

卷首语所谓前锋线，是指从评估时刻的时标点出发，用点划线一次连接各项活动的实际进展位置所形成的的线段，其通常为折线。关键路径法前锋线比较法，是通过在进度计划中绘制实际进度前锋线以判断活动实际进度与计划进度的偏差&a…...

编程日记 2023/2/27 19:54:37

Spring Boot + Vue3 前后端分离实战 wiki 知识库系统＜二＞---后端架构完善与接口开发

数据库准备： 在上一次Spring Boot Vue3 前后端分离实战 wiki 知识库系统<一>---Spring Boot项目搭建已经将SpringBoot相关的配置环境给搭建好了，接下来则需要为咱们的项目创建一个数据库。 1、mysql的安装： 关于mysql的安装这里就…...

编程日记 2023/2/27 19:53:33

如何在logback.xml中自定义动态属性

原文地址：http://blog.jboost.cn/trick-logback-prop.html 当使用logback来记录Web应用的日志时，我们通过在logback.xml中配置appender来指定日志输出格式及输出文件路径，这在一台主机或一个文件系统上部署单个实例没有问题，但是…...

编程日记 2023/2/27 19:52:28

嵌入式系统硬件设计与实践（第一步下载eda软件）

编程日记 2023/2/27 19:51:23

Portraiture4免费磨皮插件支持PS/LR

Portraiture 4免去了繁琐的手工劳动，选择性的屏蔽和由像素的平滑，以帮助您实现卓越的肖像润色。智能平滑，并删除不完善之处，同时保持皮肤的纹理和其他重要肖像的细节，如头发，眉毛，睫毛等。一键…...

编程日记 2023/2/27 19:50:18

Python学习笔记202302

1、numpy.empty 作用：根据给定的维度和数值类型返回一个新的数组，其元素不进行初始化。用法：numpy.empty(shape, dtypefloat, order‘C’) 2、logging.debug 作用：Python 的日志记录工具，这个模块为应用与库实现了灵…...

编程日记 2023/2/27 19:49:13

2023年大数据面试开胃菜

1、kafka的message包括哪些信息一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成，header部分由一个字节的magic(文件格式)和四个字节的CRC32(用于判断body消息体是否正常)构成。当magic的值为1的时候，会在magic和crc32之间多一个字节…...

编程日记 2023/2/27 19:48:06

OpenLayers 可视化之热力图

注：当前使用的是 ol 5.3.0 版本，天地图使用的key请到天地图官网申请，并替换为自己的key 热力图（Heatmap）又叫热点图，是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...

编程新知 2025/12/9 21:15:58

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

下面我将详细介绍如何使用HarmonyOS SDK在HarmonyOS 5中实现类似抖音的点赞功能，包括动画效果、数据同步和交互优化。 1. 基础点赞功能实现 1.1 创建数据模型 // VideoModel.ets export class VideoModel {id: string "";title: string ""…...

编程新知 2025/11/14 9:31:35

【C语言练习】080. 使用C语言实现简单的数据库操作

080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码：使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出：5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作在…...

编程新知 2025/9/22 21:37:01

UR 协作机器人「三剑客」：精密轻量担当（UR7e）、全能协作主力（UR12e）、重型任务专家（UR15）

UR协作机器人正以其卓越性能在现代制造业自动化中扮演重要角色。UR7e、UR12e和UR15通过创新技术和精准设计满足了不同行业的多样化需求。其中，UR15以其速度、精度及人工智能准备能力成为自动化领域的重要突破。UR7e和UR12e则在负载规格和市场定位上不断优化&#xf…...

编程新知 2025/12/17 2:34:49

QT： `long long` 类型转换为 `QString` 2025.6.5

在 Qt 中，将 long long 类型转换为 QString 可以通过以下两种常用方法实现： 方法 1：使用 QString::number() 直接调用 QString 的静态方法 number()，将数值转换为字符串： long long value 1234567890123456789LL; …...

编程新知 2025/12/14 4:20:34

OpenLayers 分屏对比(地图联动)

注：当前使用的是 ol 5.3.0 版本，天地图使用的key请到天地图官网申请，并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能，和卷帘图层不一样的是，分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...

编程新知 2025/9/30 5:23:30

sipsak：SIP瑞士军刀！全参数详细教程！Kali Linux教程！

简介 sipsak 是一个面向会话初始协议 (SIP) 应用程序开发人员和管理员的小型命令行工具。它可以用于对 SIP 应用程序和设备进行一些简单的测试。 sipsak 是一款 SIP 压力和诊断实用程序。它通过 sip-uri 向服务器发送 SIP 请求，并检查收到的响应。它以以下模式之一…...

编程新知 2025/12/10 8:12:54

虚拟电厂发展三大趋势：市场化、技术主导、车网互联

市场化：从政策驱动到多元盈利政策全面赋能 2025年4月，国家发改委、能源局发布《关于加快推进虚拟电厂发展的指导意见》，首次明确虚拟电厂为“独立市场主体”，提出硬性目标：2027年全国调节能力≥2000万千瓦&#xff0…...

编程新知 2025/8/3 1:06:36

tomcat指定使用的jdk版本

说明有时候需要对tomcat配置指定的jdk版本号，此时，我们可以通过以下方式进行配置设置方式找到tomcat的bin目录中的setclasspath.bat。如果是linux系统则是setclasspath.sh set JAVA_HOMEC:\Program Files\Java\jdk8 set JRE_HOMEC:\Program Files…...

编程新知 2025/6/10 21:11:28

Leetcode33（搜索旋转排序数组）

题目表述整数数组 nums 按升序排列，数组中的值互不相同。在传递给函数之前，nums 在预先未知的某个下标 k（0 < k < nums.length）上进行了旋转，使数组变为 [nums[k], nums[k1], …, nums[n-1], nums[0], nu…...

编程新知 2025/11/29 0:44:34

hive建分区表，分桶表，内部表，外部表

一、概念介绍

二、 hive建表实操

1. 创建表并将数据文件导入表中

2. 基于现有表，创建新表

3. 创建内部表和外部表,分别load和drop后查看数据文件观察区别。

4. 创建分区表,并导入分区数据

5. 建表分桶

三、hive原理及架构

相关文章：