当前位置: 首页 > news >正文

hive sql 处理多层 json 数组

1. 背景

json 字符串值数据示例:

{"score": 1,"submitTime": 1712491933,"answerFlag": 1,"groupId": 1755547960,"answers": [{"value": "[1, 2, 3]","ids": [4,5,6],"isPic": 0,"duration": 22314,"status": 1,"tid": 1},{"value": "aabbcc","lessons": [44,55,66],"isPic": 0,"duration": 22314,"status": 2,"tid": 2}],"questionType": 65
}

现在这个 json 字符串形式的字段值在 hive 表的某个字段中,我需要获取到 “answers” 这个 json 数组,然后将其按照数组长度,列转行到多行数据,每行数据一个子 json ,并且从中获取到每个子 json 的 “tid” 和 “status” 值,理想情况下,我需要这行数据处理完之后,结果如下表所示。

tidstatus
11
22

2. 常见方案

通过 ge_json_object 函数,先获取到 “answers” 对应的 json 数组字符串,然后通过正则替换掉 [] 符号,之后将 },{ 符号替换为 }我是分隔符{,最后将 我是分隔符 作为 split 函数的分隔符号,将字符串分割,再通过 lateral view explode() 语法,将数组放到多行。多行数据,都是处理好的 json 对象,之后通过 get_json_object 函数后取需要的字段值即可。具体代码示例如下。

  1. 获取 “answers” 对应的 json 数组。

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"isPic":0,"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select get_json_object(col, '$.answers') as answers
    from table1
    

    结果如下所示,正常获取到 “answers” 下的 json 数组,结果为字符串。

    answers
    [{“value”:“[1, 2, 3]”,“ids”:[4,5,6],“isPic”:0,“duration”:22314,“status”:1,“tid”:1},{“value”:“aabbcc”,“lessons”:[44,55,66],“isPic”:0,“duration”:22314,“status”:2,“tid”:2}]
  2. 将最外层的 [] 符号去掉

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"isPic":0,"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select regexp_replace(answers, '\\[|\\]', '') as answers
    from (select get_json_object(col, '$.answers') as answersfrom table1) as a
    

    结果如下所示。

    answers
    {“value”:“1, 2, 3”,“ids”:4,5,6,“isPic”:0,“duration”:22314,“status”:1,“tid”:1},{“value”:“aabbcc”,“lessons”:44,55,66,“isPic”:0,“duration”:22314,“status”:2,“tid”:2}

    由于第一步处理的结果最外层是 json 数组,左右有 [] 符号,但是由于内层还有子 json 数组,这种直接全局替换的方式,会将内层子 json 数组的 [] 符号也一并去掉,可以查看下面的结果,"ids":4,5,6,,就是因为全局替换,造成整个 json 结构被破坏,之后将无法使用 get_json_object() 函数来获取想要的 key 对应的值了。

由此可见,这种方式只适合于 “answers” 下的 json 数组内的每个 json 对象中都只包含 json 对象才行,不能再包含 json 数组,否则就会造成处理错误,拿不到想要的数据。

3. 推荐方案

3.1 具体步骤

  1. 获取 “answers” 对应的 json 数组。

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"isPic":0,"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select get_json_object(col, '$.answers') as answers
    from table1
    

    结果如下所示,正常获取到 “answers” 下的 json 数组,结果为字符串。

    answers
    [{“value”:“[1, 2, 3]”,“ids”:[4,5,6],“isPic”:0,“duration”:22314,“status”:1,“tid”:1},{“value”:“aabbcc”,“lessons”:[44,55,66],“isPic”:0,“duration”:22314,“status”:2,“tid”:2}]
  2. 通过字符串截取的方式,将第一步的结果最前面和最后面的 [] 符号去掉

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"isPic":0,"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select substring(answers, 2, length(answers) - 2) as answers
    from (select get_json_object(col, '$.answers') as answersfrom table1) as a
    

    结果如下所示,最前面和最后面的 [] 符号已经被去掉。

    answers
    {“value”:“[1, 2, 3]”,“ids”:[4,5,6],“isPic”:0,“duration”:22314,“status”:1,“tid”:1},{“value”:“aabbcc”,“lessons”:[44,55,66],“isPic”:0,“duration”:22314,“status”:2,“tid”:2}
  3. 最重要的一步:通过正则替换,只要匹配到 [.*] 内容,就直接替换为数字 0。

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"isPic":0,"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select substring(answers, 1, length(answers) - 3) as answers
    from (select get_json_object(col, '$.answers') as answersfrom table1) as a
    

    结果如下所示,字符串中所有 [.*] 的部分,都已经被替换为数字 0

    answers
    {“value”:“0”,“ids”:0,“isPic”:0,“duration”:22314,“status”:1,“tid”:1},{“value”:“aabbcc”,“lessons”:0,“isPic”:0,“duration”:22314,“status”:2,“tid”:2}

    将 json 数字替换为数字 0,是为了兼容 "[.*]"[.*] 两种情况,不管 json 数组是不是被英文双引号包围,替换为数字 0,都是没问题的,都可以保证 json 的格式不被破坏。

  4. 由于已经去掉了所有的子 json 数组,之后就可以按照传统的方式,将 },{ 替换为 }我是分隔符号{

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select regexp_replace(a.answers, '\\}\\,\\{', '\\}我是分隔符号{') as answers
    from (select regexp_replace(answers, '\\[.*\\]', '0') as answersfrom (select substring(answers, 2, length(answers) - 2) as answersfrom (select get_json_object(col, '$.answers') as answersfrom table1) as a) as a) as a
    
    answers
    {“value”:“0”,“ids”:0,“isPic”:0,“duration”:22314,“status”:1,“tid”:1}我是分隔符号{“value”:“aabbcc”,“lessons”:0,“isPic”:0,“duration”:22314,“status”:2,“tid”:2}
  5. 通过 我是分隔符号 切换字符串,再通过 lateral view explode() 语法将 json 数组展开,最后通过 get_json_object() 函数,获取需要的值即可。

    with table1 as (select '{"score":1,"submitTime":1712491933,"answerFlag":1,"groupId":1755547960,"answers":[{"value":"[1, 2, 3]","ids":[4,5,6],"duration":22314,"status":1,"tid":1},{"value":"aabbcc","lessons":[44,55,66],"isPic":0,"duration":22314,"status":2,"tid":2}],"questionType":65}' as col
    )select get_json_object(b.answer, '$.tid') as tid, get_json_object(b.answer, '$.status') as status
    from (select regexp_replace(a.answers, '\\}\\,\\{', '\\}我是分隔符号{') as answersfrom (select regexp_replace(answers, '\\[.*\\]', '0') as answersfrom (select substring(answers, 2, length(answers) - 2) as answersfrom (select get_json_object(col, '$.answers') as answersfrom table1) as a) as a) as a) as a
    lateral view explode(split(regexp_replace(a.answers, '\\}\\,\\{', '\\}我是分隔符号{'), '我是分隔符号')) b as answer
    

    结果如下,可以看到,数据处理结果符合预期

    tidstatus
    11
    22

3.2 注意事项

上面的步骤 3,只适用于你想要展开最外层的这个 json 数组,并且完全不需要内部嵌套的子 json 数组才行,否则将内部的子 json 数组全部替换为数字 0 之后,你就获取不到子 json 数组数据了。

如果还想要内部的子 json 数组,单纯的 sql 应该是实现不了的,需要去自定义 udf,然后通过 java 代码一层一层解析了。

相关文章:

hive sql 处理多层 json 数组

1. 背景 json 字符串值数据示例: {"score": 1,"submitTime": 1712491933,"answerFlag": 1,"groupId": 1755547960,"answers": [{"value": "[1, 2, 3]","ids": [4,5,6],"is…...

Dom 元素转换 Image 图片 (截图)

Dom 元素转换 Image 图片 (截图) dom-to-image dom-to-image NPM 官网文档 参考文章码上行舟 dom-to-image 是如何将 html 转换成图片的(文章参考) 安装 npm install dom-to-image --save 使用 /* in ES 6 */ import domtoimage from "dom-to-image"; /* in ES 5 *…...

零售业务产品系统应用架构设计(二)

ETC信用结算系统根据《加快推进高速公路电子不停车快捷收费应用服务实施方案》(发改基础〔2019〕935号),拓宽ETC发行服务渠道。推动建立全网协同服务模式,完善服务规则,鼓励银行业金融机构、非银行支付机构和互联网企业等服务机构紧密合作。允许ETC绑定既有银行账户和支付…...

Linux速成入门教程——从零基础开始快速入门,一文了解Linux用户管理与权限

2.1 用户与组管理 用户与组的基本概念 在Linux系统中,用户和组是管理权限和资源访问的基本单元。每个用户都有一个唯一的用户ID(UID),每个组都有一个唯一的组ID(GID)。用户可以属于一个或多个组&#xff…...

网工内推 | 宁德时代IT运维,晋升空间大,带薪年假,包吃包住

01 宁德时代 🔷招聘岗位:IT运维服务 🔷任职要求 1、大专及以上学历专业不限,应届毕业生或计算机、网络维护等相关专业优先; 2、具备较强的服务意识和良好的语言表达能力、沟通能力、记忆能力、心理承受能力和学习能力…...

Linux---系统安全

文章目录 系统安全系统账号清理密码安全控制命令历史限制终端自动注销如设置时间短的处理方式 使用su命令切换用户用途及用法密码验证限制使用su命令的用户查看su操作记录限制使用su命令的用户查看su操作记录su命令的安全隐患 PAM(Pluggable Authentication Modules)可插拔式认…...

手写数字识别实战

全部代码: import matplotlib.pyplot import torch from torch import nn # nn是完成神经网络相关的一些工作 from torch.nn import functional as F # functional是常用的一些函数 from torch import optim # 优化的工具包import torchvision from matplotlib …...

二叉树遍历

二叉树的遍历是二叉树操作中的一个基本且重要的概念,它指的是按照一定的规则访问二叉树中的每个节点,并且每个节点仅被访问一次。常见的二叉树遍历方式有四种:前序遍历(Pre-order Traversal)、中序遍历(In-…...

uni app 调用前置摄像头

uniapp开发app并没有相关Api调用前置摄像头。只能使用5app的api 调用前置摄像头拍照 plus.camera.getCamera(index) 获取需要操作的摄像头对象,如果要进行拍照或摄像操作,需先通过此方法获取摄像头对象 index指定要获取摄像头的索引值,1表…...

哈工大李治军老师OS课程笔记(4)——内存管理

一 内存使用与分段(实验六) 内存是如何用起来的? 内存使用:将程序放在内存中,PC指向开始地址 重定位:修改程序中的地址(是相对地址) 什么时候完成重定位? 编译时加基址…...

代码随想录算法训练营第43天:动态规划part10:子序列问题

300.最长递增子序列 力扣题目链接(opens new window) 给你一个整数数组 nums ,找到其中最长严格递增子序列的长度。 子序列是由数组派生而来的序列,删除(或不删除)数组中的元素而不改变其余元素的顺序。例如,[3,6,2…...

传智教育引通义灵码进课堂,为技术人才教育学习提效

7 月 17 日,阿里云与传智教育在阿里巴巴云谷园区签署合作协议,双方将基于阿里云智能编程助手通义灵码在课程共建、品牌合作及产教融合等多个领域展开合作,共同推进 AI 教育及相关业务的发展,致力于培养适应未来社会需求的高素质技…...

企业信息化建设搞得好了叫系统工程,搞不好叫面子工程

2024-06-13 09:26贝格前端工场...

程序员如何平衡日常编码工作与提升式学习?

在快速变化的编程领域中,平衡日常编码工作与个人成长确实是一个重要且富有挑战性的议题。以下是我对这一问题的看法和建议: 1. 认识到平衡的重要性 首先,理解两者之间的平衡并非零和游戏,而是相辅相成的。高效的编码工作能够为个…...

Linux---文件系统和日志分析

文章目录 文件系统和日志分析inode和block概述inode包含文件的元信息用stat命令可以查看某个文件的inode信息Linux系统文件三个主要的时间属性 目录文件的结构用户通过文件名打开文件时,系统内部的过程查看inode号码的方法硬盘分区后的结构访问文件的简单流程inode的…...

MySQL 体系架构

文章目录 一. MySQL 分支与变种1. Drizzle2. MariaDB3. Percona Server 二. MySQL的替代1. Postgre SQL2. SQLite 三. MySQL 体系架构1.连接层2 Server层(SQL处理层)3. 存储引擎层1)MySQL官方存储引擎概要2)第三方引擎3&#xff0…...

跨站脚本攻击漏洞

1.JavaScript JavaScript 是一种脚本,一门编程语言,它可以在网页上实现复杂的功能,网页展现给你的不再是简单的静态信息,而是实时的内容更新,交互式的地图,2D/3D动画,滚动播放的视频等等。 &a…...

RabbitMQ入门与进阶

RabbitMQ入门与进阶 基础篇1. 为什么需要消息队列?2. 什么是消息队列?3. RabbitMQ体系结构介绍4. RabbitMQ安装5. HelloWorld6. RabbitMQ经典用法(工作模式)7. Work Queues8. Publish/Subscribe9. Routing10. Topics 进阶篇1. RabbitMQ整合SpringBoot2. 消息可靠性投递故障情…...

Unity新输入系统 之 InputActions(输入配置文件)

本文仅作笔记学习和分享,不用做任何商业用途 本文包括但不限于unity官方手册,unity唐老狮等教程知识,如有不足还请斧正​ 首先你应该了解新输入系统的基本单位Unity新输入系统 之 InputAction(输入配置文件最基本的单位&#xff0…...

Linux运维篇-误删/bin,/sbin目录怎么修复系统

这里写自定义目录标题 前言实例挂载镜像,重启系统进入救援模式拷贝镜像系统中的/bin和/sbin目录到原系统重启系统 总结 前言 当你看到这篇文章的时候,你的系统可能已经无法登录,或者正在处于登录状态但是不能执行任何常规的命令,…...

Vim 调用外部命令学习笔记

Vim 外部命令集成完全指南 文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比 常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令 范围操作示例指定行范围处理复合命令示例 实用技…...

使用VSCode开发Django指南

使用VSCode开发Django指南 一、概述 Django 是一个高级 Python 框架,专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。 本文将创建一个简单的 Django 应用,其中包含三个使用通用基本模板的页面。在此…...

label-studio的使用教程(导入本地路径)

文章目录 1. 准备环境2. 脚本启动2.1 Windows2.2 Linux 3. 安装label-studio机器学习后端3.1 pip安装(推荐)3.2 GitHub仓库安装 4. 后端配置4.1 yolo环境4.2 引入后端模型4.3 修改脚本4.4 启动后端 5. 标注工程5.1 创建工程5.2 配置图片路径5.3 配置工程类型标签5.4 配置模型5.…...

【论文笔记】若干矿井粉尘检测算法概述

总的来说,传统机器学习、传统机器学习与深度学习的结合、LSTM等算法所需要的数据集来源于矿井传感器测量的粉尘浓度,通过建立回归模型来预测未来矿井的粉尘浓度。传统机器学习算法性能易受数据中极端值的影响。YOLO等计算机视觉算法所需要的数据集来源于…...

生成 Git SSH 证书

🔑 1. ​​生成 SSH 密钥对​​ 在终端(Windows 使用 Git Bash,Mac/Linux 使用 Terminal)执行命令: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" ​​参数说明​​: -t rsa&#x…...

如何将联系人从 iPhone 转移到 Android

从 iPhone 换到 Android 手机时,你可能需要保留重要的数据,例如通讯录。好在,将通讯录从 iPhone 转移到 Android 手机非常简单,你可以从本文中学习 6 种可靠的方法,确保随时保持连接,不错过任何信息。 第 1…...

【JavaSE】多线程基础学习笔记

多线程基础 -线程相关概念 程序(Program) 是为完成特定任务、用某种语言编写的一组指令的集合简单的说:就是我们写的代码 进程 进程是指运行中的程序,比如我们使用QQ,就启动了一个进程,操作系统就会为该进程分配内存…...

Windows安装Miniconda

一、下载 https://www.anaconda.com/download/success 二、安装 三、配置镜像源 Anaconda/Miniconda pip 配置清华镜像源_anaconda配置清华源-CSDN博客 四、常用操作命令 Anaconda/Miniconda 基本操作命令_miniconda创建环境命令-CSDN博客...

Elastic 获得 AWS 教育 ISV 合作伙伴资质,进一步增强教育解决方案产品组合

作者:来自 Elastic Udayasimha Theepireddy (Uday), Brian Bergholm, Marianna Jonsdottir 通过搜索 AI 和云创新推动教育领域的数字化转型。 我们非常高兴地宣布,Elastic 已获得 AWS 教育 ISV 合作伙伴资质。这一重要认证表明,Elastic 作为 …...

TCP/IP 网络编程 | 服务端 客户端的封装

设计模式 文章目录 设计模式一、socket.h 接口(interface)二、socket.cpp 实现(implementation)三、server.cpp 使用封装(main 函数)四、client.cpp 使用封装(main 函数)五、退出方法…...