当前位置：首页 > news >正文

hive复杂数据类型Array Map Struct 炸裂函数explode

news 2026/4/30 17:01:14

1、Array的使用

create table tableName(
......
colName array<基本类型>
......
)

说明：下标从0开始，越界不报错，以null代替

arr1.txtzhangsan	78,89,92,96
lisi	67,75,83,94
王五	23,12

新建表：

create table arr1(name string,scores array<int>
)
row format delimited
fields terminated by '\t'
collection items terminated by ',';

加载数据：

load data local inpath '/home/hivedata/arr1.txt' into table arr1;hive (yhdb)> select * from arr1;
OK
arr1.name       arr1.scores
zhangsan        [78,89,92,96]
lisi    [67,75,83,94]
王五    [23,12]
Time taken: 0.32 seconds, Fetched: 3 row(s)

需求：

1、查询每一个学生的第一个成绩
select name,scores[0] from arr1;
name    _c1
zhangsan        78
lisi    67
王五    23
2、查询拥有三科成绩的学生的第二科成绩
select name,scores[1] from arr1 where size(scores) >=3;3、查询所有学生的总成绩
select name,scores[0]+scores[1]+nvl(scores[2],0)+nvl(scores[3],0) from arr1;以上写法有局限性，因为你不知道有多少科成绩，假如知道了，这样写也太Low

2、展开函数的使用 explode

为什么学这个，因为我们想把数据，变为如下格式

zhangsan        78
zhangsan        89
zhangsan        92
zhangsan        96
lisi	67
lisi	75
lisi	83
lisi	94
王五	23
王五	12

explode 专门用于炸集合。

select explode(scores) from arr1;col
78
89
92
96
67
75
83
94
23
12

想当然的以为加上name 就OK ，错误！
hive (yhdb)> select name,explode(scores) from arr1;
FAILED: SemanticException [Error 10081]: UDTF's are not supported outside the SELECT clause, nor nested in expressions

-- lateral view:虚拟表。

会将UDTF函数生成的结果放到一个虚拟表中，然后这个虚拟表会和输入行进行join来达到数据聚合的目的。

具体使用：

select name,cj from arr1 lateral view explode(scores) mytable as cj;解释一下：
lateral view explode(scores) 形成一张虚拟的表，表名需要自己起
里面的列有几列，就起几个别名，其他的就跟正常的虚拟表一样了。name    cj
zhangsan        78
zhangsan        89
zhangsan        92
zhangsan        96
lisi    67
lisi    75
lisi    83
lisi    94
王五    23
王五    12select name,sum(cj) from arr1 lateral view explode(scores) mytable as cj group by name;
等同于如下写法：
select name,sum(score) from(select name,score from arr1 lateral view explode(scores) myscore as score ) t group by name;

需求4：查询每个人的最后一科的成绩
select name,scores[size(scores)-1] from arr1;

3、Map的使用

语法格式：

create table tableName(
.......
colName map<T,T>
......
)

上案例：

zhangsan	chinese:90,math:87,english:63,nature:76
lisi	chinese:60,math:30,english:78,nature:0
wangwu	chinese:89,math:25

建表：

create table map1(name string,scores map<string,int>
)
row format delimited
fields terminated by '\t'
collection items terminated by ','
map keys terminated by ':';

加载数据：

load data local inpath '/home/hivedata/map1.txt' into table map1;

需求：

需求一：
#查询数学大于35分的学生的英语和自然成绩
select name,scores['english'],scores['nature'] from map1
where scores['math'] > 35;需求二：-- 查看每个人的前两科的成绩总和
select name,scores['chinese']+scores['math'] from map1;OK
name    _c1
zhangsan        177
lisi    90
wangwu  114
Time taken: 0.272 seconds, Fetched: 3 row(s)需求三：将数据展示为：
-- 展开效果
zhangsan	chinese		90
zhangsan	math	87
zhangsan	english 	63
zhangsan	nature		76select name,subject,cj   from map1 lateral view explode(scores) mytable as subject,cj ;name    subject cj
zhangsan        chinese 90
zhangsan        math    87
zhangsan        english 63
zhangsan        nature  76
lisi    chinese 60
lisi    math    30
lisi    english 78
lisi    nature  0
wangwu  chinese 89
wangwu  math    25需求四：统计每个人的总成绩
select name,sum(cj)   from map1 lateral view explode(scores) mytable as subject,cj  group by name;
假如根据总成绩降序排序，不能在order by 中使用虚拟表的别名
select name,sum(score) sumScore from map1 lateral view explode(scores) myscore as subject,score group by name order by sumScore desc;

行转列

需求5：
-- 将下面的数据格式
zhangsan        chinese 90
zhangsan        math    87
zhangsan        english 63
zhangsan        nature  76
lisi    chinese 60
lisi    math    30
lisi    english 78
lisi    nature  0
wangwu  chinese 89
wangwu  math    25
wangwu  english 81
wangwu  nature  9
-- 转成：
zhangsan chinese:90,math:87,english:63,nature:76
lisi chinese:60,math:30,english:78,nature:0
wangwu chinese:89,math:25,english:81,nature:9

造一些数据（新建表）：

create table map_temp as
select name,subject,cj   from map1 lateral view explode(scores) mytable as subject,cj ;

第一步，先将学科和成绩形成一个kv对，其实就是字符串拼接


学习一下 concat的用法：
hive (yhdb)> select concat('hello','world');
OK
_c0
helloworld
Time taken: 0.333 seconds, Fetched: 1 row(s)
hive (yhdb)> select concat('hello','->','world');
OK
_c0
hello->world
Time taken: 0.347 seconds, Fetched: 1 row(s)实战一下：
select name,concat(subject,":",cj) from map_temp;结果：
name    _c1
zhangsan        chinese:90
zhangsan        math:87
zhangsan        english:63
zhangsan        nature:76
lisi    chinese:60
lisi    math:30
lisi    english:78
lisi    nature:0
wangwu  chinese:89
wangwu  math:25以上这个结果再合并：
select name,collect_set(concat(subject,":",cj)) from map_temp
group by name;lisi    ["nature:0","english:78","math:30","chinese:60"]
wangwu  ["math:25","chinese:89"]
zhangsan        ["nature:76","english:63","math:87","chinese:90"]
将集合中的元素通过逗号进行拼接：
select name,concat_ws(",",collect_set(concat(subject,":",cj))) from map_temp group by name;结果：
zhangsan chinese:90,math:87,english:63,nature:76
lisi chinese:60,math:30,english:78,nature:0
wangwu chinese:89,math:25,english:81,nature:9学习到了三个函数：
concat 进行字符串拼接
collect_set() 将分组的数据变成一个set集合。里面的元素是不可重复的。
collect_list(): 里面是可以重复的。
concat_ws(分隔符,集合) : 将集合中的所有元素通过分隔符变为字符串。

想将数据变为：

lisi    {"chinese":"60","math":"30","english":"78","nature":"0"}
wangwu  {"chinese":"89","math":"25"}
zhangsan        {"chinese":"90","math":"87","english":"63","nature":"76"}

4、Struct结构体

create table tableName(
........
colName struct<subName1:Type,subName2:Type,........>
........
)有点类似于java类
调用的时候直接.
colName.subName

数据准备：

zhangsan	90,87,63,76
lisi	60,30,78,0
wangwu	89,25,81,9

创建表：

create table if not exists struct1(
name string,
score struct<chinese:int,math:int,english:int,natrue:int>
)
row format delimited 
fields terminated by '\t'
collection items terminated by ',';

加载数据：

load data local inpath '/home/hivedata/struct1.txt' into table struct1;

查看数据，有点像map:

hive (yhdb)> select * from struct1;
OK
struct1.name    struct1.score
zhangsan        {"chinese":90,"math":87,"english":63,"natrue":76}
lisi    {"chinese":60,"math":30,"english":78,"natrue":0}
wangwu  {"chinese":89,"math":25,"english":81,"natrue":9}
Time taken: 0.272 seconds, Fetched: 3 row(s)

查询数学大于35分的学生的英语和语文成绩select name, score.english,score.chinese from struct1 where score.math > 35;这个看着和map很像，所以我认为map里 也可以使用 xxx.xxx或者说我这里也可以使用[]
经过尝试：不可以。

hive复杂数据类型Array Map Struct 炸裂函数explode

1、Array的使用 create table tableName( ...... colName array<基本类型> ...... ) 说明：下标从0开始，越界不报错，以null代替 arr1.txtzhangsan 78,89,92,96 lisi 67,75,83,94 王五 23,12 新建表： create table arr1(n…...

编程日记 2024/11/19 9:30:04

FIFO架构专题-FIFO是什么

目录简介： FIFO参数： 1.宽度WIDTH（一次位数） 2.深度DEEPTH（存多少次） FIFO的分类： 同步FIFO 异步FIFO 读写位宽不同的FIFO FIFO信号介绍写时钟写数据写使能读时钟读数据读…...

编程日记 2024/11/19 9:29:00

Pythony——多线程简单爬虫实现

简单爬虫实现 import requests from bs4 import BeautifulSoup# 生成要爬取的网页地址列表，这里是博客园的分页地址，从第1页到第50页 urls [f"https://www.cnblogs.com/#p{i}" for i in range(1, 50 1)]# 生产者函数——负责下载网页内容 d…...

编程日记 2024/11/19 9:27:59

如何修改 a 链接的样式

在CSS中，你可以使用选择器来针对HTML中的特定元素（例如<a>标签，也就是链接）进行修改样式。以下是一些常见的修改<a>链接样式的方法： 移除下划线： a { text-decoration: none; } 修改链接的…...

编程日记 2024/11/19 9:24:56

第6章详细设计-6.5 软硬件接口文档设计

6.5 软硬件接口文档设计一般的产品都包含硬件和软件两部分，产品设计阶段需要确保硬件开发人员和软件开发的沟通准确、高效。所以需要一份书面的文档来承载软件和硬件之间的沟通细节。以下面的细水雾除尘设备为例进行讲解，涉及软件和硬件的接口&#xff…...

编程日记 2024/11/19 9:22:54

【pyspark学习从入门到精通14】MLlib_1

目录包的概览加载和转换数据在前文中，我们学习了如何为建模准备数据。在本文中，我们将实际使用这些知识，使用 PySpark 的 MLlib 包构建一个分类模型。 MLlib 代表机器学习库。尽管 MLlib 现在处于维护模式，即它不再积极开发…...

编程日记 2024/11/19 9:20:52

C++全局构造和初始化

片段摘自程序员的自我修养—链接、装载与库.pdf 11.4 程序在进入main之前，需要对全局对象进行构造初始化。 glibc全局对象进行构造初始化 gibc启动程序时会经过.init段，退出程序时会经过.finit段。这两个段中的代码最终拼接成_init()和_finit(),这两个…...

编程日记 2024/11/19 9:18:49

安全见闻-泷羽sec课程笔记

编程语言 C语言：一种通用的、面向过程的编程语言，广泛应用于系统软件和嵌入式开发。 C:在C语言基础上发展而来，支持面向对象编程，常用于尊戏开发、高性能计算等领域。 Java:一种广泛使用的面问对象编程语言，具有跨平台…...

编程日记 2024/11/19 9:16:47

游戏引擎学习第17天

视频参考:https://www.bilibili.com/video/BV1LPUpYJEXE/ 回顾上一天的内容 1. 整体目标： 处理键盘输入：将键盘输入的处理逻辑从平台特定的代码中分离出来，放入更独立的函数中以便管理。优化消息循环：确保消息循环能够有效处理 …...

编程日记 2024/11/19 9:14:44

【FFmpeg】FFmpeg 内存结构 ③ ( AVPacket 函数简介 | av_packet_ref 函数 | av_packet_clone 函数 )

文章目录一、av_packet_ref 函数1、函数原型2、函数源码分析3、函数使用代码示例二、av_packet_clone 函数1、函数原型2、函数源码分析 FFmpeg 4.0 版本源码地址 : GitHub : https://github.com/FFmpeg/FFmpeg/tree/release/4.0GitCode : https://gitcode.com/gh_mirrors/ff…...

编程日记 2024/11/19 9:13:43

【学习笔记】量化概述

Quantize量化概念与技术细节题外话，在七八年前，一些关于表征的研究，会去做表征的压缩，比如二进制嵌入这种事情，其实做得很简单，无非是找个阈值，然后将浮点数划归为零一值，现在的Qu…...

编程日记 2024/11/19 9:12:42

同步互斥相关习题10道附详解

PV操作 2016 某系统允许最多10个进程同时读文件F，当同时读文件F的进程不满10个时，欲读该文件的其他文件可立即读，当已有10个进程在读文件F时读，其他欲读文件F的进程必须等待，直至有进程读完后退出方可去读在实现管…...

编程日记 2024/11/19 9:11:41

【Python · PyTorch】卷积神经网络 CNN（LeNet-5网络）

【Python PyTorch】卷积神经网络 CNN（LeNet-5网络） 1. LeNet-5网络※ LeNet-5网络结构 2. 读取数据2.1 Torchvision读取数据2.2 MNIST & FashionMNIST 下载解包读取数据 2. Mnist※ 训练 LeNet5 预测分类 3. EMnist※ 训练 LeNet5 预测分类 4. Fash…...

编程日记 2024/11/19 9:10:40

Git 拉取指定分支创建项目

一背景因为项目过大，只需要部分分支的代码即可。二实现方法一：使用 --single-branch 参数 git clone 支持只拉取指定分支，而不是整个库的所有分支： git clone --branch <branch_name> --single-branch <reposi…...

编程日记 2024/11/19 9:08:38

CF862B Mahmoud and Ehab and the bipartiteness(二分图的性质）

思路：一个二分图是由两个集合组成的，同一个集合中的节点间不能连边，所以一个二分图最多有cnt[1]*cnt[2]条边，题目给出一个树的n-1条边，要我们添加最多的边数使他成为二分图，添加的边数就是cnt[1]*cnt[2]-n1…...

编程日记 2024/11/19 9:07:37

React Native 全栈开发实战班：数据管理与状态之React Hooks 基础

在 React Native 应用中，数据管理与状态管理是构建复杂用户界面的关键。React 提供了多种工具和模式来处理数据流和状态管理，包括 React Hooks、Context API 以及第三方状态管理库（如 Redux）。本章节将详细介绍 React Hooks 的基础…...

编程日记 2024/11/19 9:06:35

传奇996_22——自动挂机

登录钩子函数中执行 callscript(actor, "../QuestDiary/主界面基础按钮/主界面基础按钮QM", "基础按钮QM")基础按钮QM执行了已下代码 #IF Equal <$CLIENTFLAG> 1 #ACT goto PC端面板加载#IF Equal <$CLIENTFLAG> 2 #ACT goto 移动端面板加载…...

编程日记 2024/11/19 9:04:33

faiss 提供了多种索引类型

faiss 多种索引类型在 faiss 中，IndexFlatL2 是一个简单的基于 L2 距离（欧几里得距离）进行索引的索引类型，但实际上，faiss 提供了多种索引类型，支持不同的度量方式和性能优化，您可以根据需求选…...

编程日记 2024/11/19 9:01:31

比rsync更强大的文件同步工具rclone

背景多个复制，拷贝，同步文件场景，最大规模的是每次几千万规模的小文件需要从云上对象存储中拉取到本地。其他的诸如定期数据备份，单次性数据备份。 rsync是单线程的，开源的mrsync是多线程的，但适用范围没…...

编程日记 2024/11/19 9:00:30

《业务流程--穿越从概念到实践的丛林》读后感一：什么是业务流程

1.1 流程和业务流程概念辨析业务流程建模标准（BPMN）对于业务流程的定义：一个业务流程由为了配合一个组织性或技术环境而一系列活动组成。这些活动共同实现一个业务目标。业务流程再造最有名的倡导者托马斯.H.达文波特对于流程和业务流程的定义：流程是一组结构化且可度量的…...

编程日记 2024/11/19 8:59:28

从零到一：Jenkins Pipeline实战，手把手教你搭建企业级CICD流水线（含完整脚本）

从零到一：Jenkins Pipeline实战，手把手教你搭建企业级CICD流水线（含完整脚本） 当团队规模扩张到10人以上时，每天手动部署5次以上的频率会让技术负责人开始思考：如何让代码从提交到上线的时间从2小时缩短到1…...

编程新知 2026/4/30 16:34:43

并发编程AQS之ReentrantLock/Semaphore/CountDownLatch/CyclicBarrier

一、管程——Java线程同步的设计思想管程：指的是管理共享变量以及对共享变量的操作过程，让他们支持并发。互斥：同一时刻只允许一个线程访问共享资源；同步：线程之间如何通信、协作。MESA模型在管程的发展史上&#xff0…...

编程新知 2026/4/30 16:11:13

香料香精行业：全球市场格局与中国发展机遇

一、行业概述：从原料到终端的“隐形冠军”香料香精是食品、日化、医药等行业的核心原料，虽用量微小，却直接决定产品的风味与品质。根据功能差异，香料（香原料）作为基础有机化合物，可通过调配形成…...

编程新知 2026/4/30 14:53:08

AI聊天机器人不再“假异步”：PHP 9.0原生协程+非阻塞LLM调用+实时Token流渲染架构图（内部泄露版·仅限今日）

更多请点击： https://intelliparadigm.com 第一章：AI聊天机器人不再“假异步”：PHP 9.0原生协程非阻塞LLM调用实时Token流渲染架构图（内部泄露版仅限今日） PHP 9.0 引入了真正的轻量级原生协程（Native Cor…...

编程新知 2026/4/30 14:36:52

【缺陷检测】基于k-means分割Otsu阈值检测水果和蔬菜缺陷（外部和内部缺陷）附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室👇 关注我领取海量matlab电子书和…...

编程新知 2026/4/30 13:09:59

程序员接私活的正确方式：报价、合同、交付、收款全流程指南

程序员接私活的正确方式：报价、合同、交付、收款全流程指南从第一单到稳定接单，这篇帮你避开我踩过的所有坑先说我自己的经历。第一次接私活，是前同事介绍的。一个小程序，对方说“很简单，两三天就能搞定”。我没报价&…...

编程新知 2026/4/30 12:53:17

达梦DCA认证通关后，我总结的这12个高频考点操作命令（附脚本）

达梦DCA认证通关秘籍：12个高频考点命令与实战脚本全解析 1. 环境准备与基础配置备考达梦DCA认证的第一步是确保环境配置正确。考试环境通常基于麒麟10操作系统，通过VNC远程连接操作。以下是关键的环境准备步骤：创建专用用户考试要求创建dmd…...

编程新知 2026/4/30 12:51:11

2025终极身份验证指南：双因素认证如何保护80%账户免遭入侵

2025终极身份验证指南：双因素认证如何保护80%账户免遭入侵【免费下载链接】Back-End-Developer-Interview-Questions A list of back-end related questions you can be inspired from to interview potential candidates, test yourself or completely ignore 项…...

编程新知 2026/4/30 10:53:35

【AI面试临阵磨枪-32】如何提升工具调用（Function Call）准确率？常见失败场景与解决方法

一、面试题目请你说明如何提升大模型 Function Call（工具调用） 准确率？常见的失败场景有哪些？分别怎么解决？ 二、知识储备 1. 核心结论（面试必背） 提升 Function Call 准确率，本…...

编程新知 2026/4/30 9:31:40

用STM32F103和VS1053B手搓一个MP3播放器：从SD卡读取到OLED显示的完整流程

用STM32F103和VS1053B打造高保真MP3播放器：从硬件搭建到软件优化的全流程解析在嵌入式音频开发领域，DIY一个具备完整功能的MP3播放器始终是检验开发者系统设计能力的经典项目。本文将基于STM32F103微控制器与VS1053B解码芯片的组合，深入剖析…...

编程新知 2026/4/30 9:14:22

1、Array的使用

2、展开函数的使用 explode

3、Map的使用

4、Struct结构体

相关文章：