当前位置: 首页 > news >正文

Hive 基础知识

目录

  • 1.基础概念
    • 1.1 定义
    • 1.2 组件
    • 1.3 元数据
    • 1.4 内部表和外部表
  • 2. Hive与关系型数据库的对比
  • 3. Hive 数据存储
  • 4. 参考文献

1.基础概念

1.1 定义

Hive是一个基于Hadoop的数据仓库基础设施工具,它可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。Hive可以将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储。

1.2 组件

HiveQL:Hive Query Language(HiveQL)是Hive的查询语言,它类似于SQL。HiveQL允许开发人员使用SQL语法来查询和分析数据,包括SELECT、JOIN、GROUP BY、ORDER BY等操作。

元数据存储:Hive使用元数据来描述和存储数据的结构和属性。元数据存储可以使用不同的后端,如Derby、MySQL等。元数据包括表的定义、分区信息、列的数据类型等。

执行引擎:Hive支持多种执行引擎,包括MapReduce、Tez和Spark。这些执行引擎用于执行HiveQL查询,并将其转化为底层任务进行数据处理和计算。

数据存储:Hive使用Hadoop分布式文件系统(HDFS)作为底层数据存储。它支持将数据以表的形式组织起来,可以在表上定义分区、分桶等数据组织方式。

用户定义函数(UDF):Hive允许开发人员编写自定义函数来扩展HiveQL的功能。这些用户定义函数可以使用Java、Python等编程语言编写,并在Hive查询中使用。

数据导入和导出:Hive提供了用于将数据导入到Hive表中和从Hive表中导出数据的机制。可以使用Hive自带的命令或工具,或者通过外部工具和技术,如Sqoop和Flume,进行数据导入和导出操作。

1.3 元数据

Hive中的元数据是指描述和管理数据表的数据,包括表的结构、分区方式、存储路径、表的基本信息等。元数据描述了数据的存储、表结构、分区信息等,使得Hive可以更好地管理和访问数据。

在Hive中,元数据通常存储在关系型数据库中,例如MySQL、PostgreSQL等,由Hive Metastore进行管理。元数据的存储结构可以由用户自定义,也可以使用默认的存储结构。

除了描述表的基本信息,元数据还记录了表的分区信息、数据存储路径等,这些信息可以帮助Hive更好地执行查询和优化性能。在Hive中,元数据是进行SQL查询优化和提高查询性能的重要依据。

1.4 内部表和外部表

内部表(Managed Table):Hive的内部表是指由Hive管理的表,这些表的数据存储在Hive的数据仓库中,删除内部表时,Hive不仅会删除表的元数据,还会删除表的数据。

外部表(External Table):Hive的外部表是指那些存储在Hive数据仓库之外的数据表,例如存储在HDFS或其他文件系统中的表。对于外部表,Hive只负责提供元数据,而不管理实际的数据。当删除外部表时,Hive只会删除表的元数据,而不会删除表数据。需要注意的是,外部表中的数据无法被Hive直接管理,因此不能在Hive中对外部表执行如DML操作或创建索引等操作。

2. Hive与关系型数据库的对比

HiveRDBMS
查询语言HQLSQL
数据存储HDFS分布式文件系统原始设备或本地文件
执行引擎MapReduceExcutor
执行延迟
数据规模大规模小规模
索引没有索引复杂索引

总的来说,Hive更适合大规模分布式数据处理和分析场景,而传统关系型数据库则更适合处理小型、结构化的事务性应用程序。

友情提示:本小节借鉴的是参考文献1

3. Hive 数据存储

Hive的数据存储基于Hadoop文件系统(HDFS),表中的数据在HDFS中都有相应的目录用来存储数据,每个表在HDFS中都有自己的目录,表的数据都存放在这个目录中。例如,如果有一个表temp_hive,那么在HDFS中会创建/user/hive/warehouse/temp_hive目录(这里假定hive.metastore.warehouse.dir配置为/user/hive/warehouse),temp_hive表所有的数据都存放在这个目录中。

Hive的存储结构主要包括数据库、文件、表、视图等,可以直接接入文本文件(.txt)中,在创建表的时候指定Hive数据的列分隔符和行分隔符。Hive的表和关系型数据库中的表在概念上很类似,每个表在HDFS中都有相应的目录用来存储表的数据。

4. 参考文献

1.Hive基础知识

相关文章:

Hive 基础知识

目录 1.基础概念1.1 定义1.2 组件1.3 元数据1.4 内部表和外部表 2. Hive与关系型数据库的对比3. Hive 数据存储4. 参考文献 1.基础概念 1.1 定义 Hive是一个基于Hadoop的数据仓库基础设施工具,它可以将结构化的数据文件映射为一张数据库表,并提供类SQL查…...

【数据结构】树的基础知识及三种存储结构

💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃个人主页 :阿然成长日记 …...

ABB 3BHB003688R0101接口模块

通信接口:接口模块通常具有多种通信接口,如以太网、串行通信、Modbus、Profibus等,以便与其他设备和系统进行数据交换。 协议支持:它们支持各种通信协议,确保与不同制造商的设备和控制系统兼容。 数据转换和适配&…...

精简 jre 涉坑记录

主要参考:https://zhuanlan.zhihu.com/p/91496457 主要问题: 1)jre 中有 client 和 server 之分。参考:关于JDK的Server和Client模式的切换_jacksonary的博客-CSDN博客 2)对 copy 出来的 rt 进行打 zip 包时&#x…...

Java程序员学习算法路线规划总结

文章目录 前言:必须清楚得基本数据结构:1.需掌握哪些算法?2.学习步骤以及路线 前言:必须清楚得基本数据结构: 数组(Array) 链表(Linked List) 栈(Stack&…...

火山引擎 ByteHouse:两个关键技术,揭秘 OLAP 引擎中的数据导入技术

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 数据导入是衡量 OLAP 引擎性能及易用性的重要标准之一,高效的数据导入能力能够加速数据实时处理和分析的效率。 作为一款 OLAP 引擎,火山引…...

深挖“范围经济”穿越产业周期:TCL电子持续繁荣的密码

作者 | 曾响铃 文 | 响铃说 1878年,爱迪生创立了爱迪生电灯公司,14年后,摩根将该公司与另外两家合并成通用电气公司(GE)。 从一个小小的碳丝直流电灯泡开始,历经数次改弦更张,穿越两次世界大…...

Elasticsearch:使用 ESRE 和生成式 AI 了解 TLS 日志错误

作者:DAVID HOPE 本博客介绍了 Elasticsearch 相关性引擎 (ESRE​​) 及其 Elastic Learned Sparse Encoder 功能的新颖应用,特别是在日志分析中。 最近发布的 Elasticsearch Relevance Engine™ (ESRE™) 包含一系列重要功能,可增强搜索能力…...

Swing程序设计(3)JDialog窗体

文章目录 前言一、JDialog窗体的介绍二、JDialog窗体的使用 1.JDialog的常用构造方法2.实例展示及分析总结 前言 JDialog窗体是窗体中的另一种类型的窗体,指对话框窗体。与JFrame窗体类似,绝大部分对于JFrame窗体使用的方法,对于JDialog窗体也…...

类和对象(1)

文章目录 1.面向过程和面向对象初步认识2.类的引入3.类的定义4.类的访问限定符和封装4.1访问限定符4.2封装 5.类的作用域6.类的实例化6.2结构体内存对齐规则 7.this指针7.2this指针的特性 封装(补充) 1.面向过程和面向对象初步认识 C面向对象但不纯面向…...

学会用命令行创建uni-app项目并用vscode开放项目

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,请留下您的足迹) 目录 创建 uni-app 项目 命令行创建 uni-app 项目 编译和运行 uni-app 项目: 用 VS Code 开发 uni…...

java.lang.ClassCastException: android.os.BinderProxy cannot be cast to ...

项目开发遇到下面这个报错了! 问题原因 直接说原因,就是因为进程间不能直接传递对象,应该传递该Binder对象的映射(代理对象),所以类型转换就出错了。如果在同一个进程中,直接传递对象没有关系&a…...

AIGC(生成式AI)试用 3 -- 专业主题

何为专业? 主要研究某种学业或从事某种事业 我的理解可能是在某个方向、某个行业,专业的更靠谱、说了更算、表达的更晰,结果更有说服力 本次提问:你我的专业 生成式AI知道你我的专业吗?生成式AI如何诠释你…...

rsyslog-日志管理 logrotate-日志轮转

日志的管理的方式,以及怎么自己写一个管理日志的小脚本,其实也不能算脚本 管理日志的进程 rsyslogd:绝大部分日志记录,和系统操作有关,安全,认证sshd,su,计划任务at,cron… httpd/nginx/mysql: …...

类和对象续

目录 包 自定义包 包的访问权限控制 常见的包 Static成员 静态成员变量 静态成员方法 代码块 构造块 静态块 重写 继承 继承是啥? 父类成员访问 子类中访问父类成员变量 两者不同名 两者同名 子类中访问父类对的成员方法 super 子类构造方法 …...

SpringCloud:Feign实现微服务之间相互请求

文章目录 🎉欢迎来到Java学习路线专栏~SpringCloud:Feign实现微服务之间相互请求 ☆* o(≧▽≦)o *☆嗨~我是IT陈寒🍹✨博客主页:IT陈寒的博客🎈该系列文章专栏:Java学习路线📜其他专栏&#xf…...

LeetCode 1359. Count All Valid Pickup and Delivery Options【动态规划,组合数学】1722

本文属于「征服LeetCode」系列文章之一,这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁,本系列将至少持续到刷完所有无锁题之日为止;由于LeetCode还在不断地创建新题,本系列的终止日期可能是永远。在这一系列刷题文章…...

[杂谈]-从硬件角度理解二进制数

从硬件角度理解二进制数 文章目录 从硬件角度理解二进制数1、概述2、模拟电路3、数字电路4、逻辑电平5、TTL 器件的电压水平6、总结 1、概述 二进制数以 2 为基数系统表示,该系统只有两 (2) 个不同的数值,即 0 和 1。就像最常见的那样,十进制…...

Fast-DDS 服务发现简要概述

阅读本文章需要对DDS基础概念有一些了解,一些内容来自Fast-DDS官方文档,一些是工作中踩过的坑。 1. 服务发现阶段 满足OMG标准的DDS服务发现分为两部分,分别是: PDP(Participant Discovery Protocol 参与者发现协议):参与者确认…...

基于spingboot的websocket订阅、广播、多人聊天室示例

概述 基于spingboot的websocket多人聊天系统。包括订阅,广播、点对点单人聊天,多人聊天室功能。 详细 一、运行效果 简单示例 广播 单人聊天 多人聊天室 二、相关代码 websocket配置 package com.iamgpj.demowebsocket.config;import com.iamgpj.d…...

Linux mac Windows三系统 局域网文件共享方法

主要工具: Samba是一个开源的软件套件,允许Linux系统与Windows系统之间共享文件和打印机。 一、首先是Linux共享的设置 ①安装 sudo apt-get install samba ②创建共享文件夹 sudo mkdir /home/share ③配置用户 sudo smbpasswd -a kequan ④修改…...

Java——比较器

引入的背景 我们知道基本数据类型的数据(除boolean类型外)需要比较大小的话,直接使用比较运算符即可,但是引用数据类型是不能直接使用比较运算符来比较大小的。那么,如何解决这个问题呢? 在Java中经常会涉…...

【数据结构】初识泛型

文章目录 一般的类和方法,只能使用具体的类型: 要么是基本类型,要么是自定义的类。这种限制对代码的束缚就会很大。所以我们引入了泛型。泛型,泛顾名思义就是广泛的意思。就是适用于许多许多类型。从代码上讲,就是对类型实现了参数…...

代码随想录--哈希--有效的字母异位词

给定两个字符串 s 和 t ,编写一个函数来判断 t 是否是 s 的字母异位词。 示例 1: 输入: s "anagram", t "nagaram" 输出: true 示例 2: 输入: s "rat", t "car" 输出: false 说明: 你可以假设字符串只包含小写字母。…...

MySQL——数据的增删改

2023.9.12 本章开始学习DML (数据操纵语言) 语言。相关学习笔记如下: #DML语言 /* 数据操作语言: 插入:insert 修改:update 删除:delete */#一、插入语句 #方式一:经典的插入 /* 语法: insert …...

云服务器与http服务器

如何与http服务器建立连接(客户端)? http请求设计格式: 例子: 发送http请求 http数据响应格式: 接收http服务器返回的数据需要进一步进行字符串处理操作,提取有用的数据。...

golang教程 beego框架笔记一

安装beego 安装bee工具 beego文档 # windos 推荐使用 go install github.com/beego/bee/v2master go get -u github.com/beego/bee/v2masterwindows使用安装bee工具时碰到的问题; 环境配置都没有问题,但是执行官网的命令:go get -u github…...

【深度学习】Mini-Batch梯度下降法

Mini-Batch梯度下降法 在开始Mini-Batch算法开始之前,请确保你已经掌握梯度下降的最优化算法。 在训练神经网络时,使用向量化是加速训练速度的一个重要手段,它可以避免使用显式的for循环,并且调用经过大量优化的矩阵计算函数库。…...

AI项目六:WEB端部署YOLOv5

若该文为原创文章,转载请注明原文出处。 一、介绍 最近接触网页大屏,所以就想把YOLOV5部署到WEB端,通过了解,知道了两个方法: 1、基于Flask部署YOLOv5目标检测模型。 2、基于Streamlit部署YOLOv5目标检测。 代码在…...

敲代码常用快捷键

1、代码拖动 PyCharm:按住 shiftalt鼠标选中某一区域来拖动,即可实现拖动这一区域至指定区域。Visual Studio Code (VSCode): - Windows/Linux:Alt 鼠标左键拖动 - MacOS:Option 鼠标左键拖动 IntelliJ IDEA: - Win…...

外贸wordpress主题/app推广平台排行榜

燕山大学计算机组成原理硕士研究生入学考试大纲 燕山大学计算机组成原理硕士研究生入学考试大纲 考研加油站收集整理 http://doc.xuehai.net《计算机组成原理 》考研复习教学大纲【指定教学参考书】:计算机组成原理;哈尔滨工业大学:唐朔飞编著…...

开服网站建设/厦门seo计费

题目: 给定 n 个非负整数 a1,a2,...,an,每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线,垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。找出其中的两条线,使得它们与 x 轴共同构成…...

做拆分盘网站/免费推广的方式

原文链接 http-server 是一个简单的零配置命令行HTTP服务器, 基于 nodeJs. 如果你不想重复的写 nodeJs 的 web-server.js, 则可以使用这个. 安装 (全局安装加 -g) : npm install http-server Windows 下使用: 在站点目录下开启命令行输入 http-server 访问: http://localhost…...

罗湖网站设计价格/发外链软件

Java局部变量和成员变量区别从JAVA中定义方式,和位置,以及现在定义类中属性来进行区分 定义: 局部变量:在方法内定义的变量称为“局部变量”或“临时变量”,方法结束后局部变量占用的内存将被释放。 成员变量&#xf…...

做网站的属于什么专业/网站管理

文|曾响铃 来源|科技向令说(xiangling0815) 7月9日,2013年年初成立、交易额已经累计325亿元的钱爸爸,一下子变成了“囧爸爸”。“经侦部门介入调查”这一幕又开始频繁发生在P2P领域,看客们用“爆雷”来形容自然贴切&a…...

如何建设公司的网站/网站排名

请确保具备以下条件: Internet 连接。 计算机C盘大于6 GB 的可用空间用于下载。 8GB的U盘。建议使用空白U盘,因为其中的任何内容都将被删除。重要信息 建议在运行 Windows7 或Windows8.1 的电脑上使用介质创建工具。如果你在运行Windows10 的电脑上运行此…...