【入门篇】ClickHouse 数据类型
文章目录
- 1. 引言
- 2. ClickHouse 数据类型
- 2.1 基本数据类型
- 2.1.1 整型
- 2.1.2 浮点型
- 2.1.3 字符串型
- 2.2 复合数据类型
- 2.2.1 数组
- 2.2.2 枚举类型
- 2.2.3 元组
- 2.2.4 Map
- 2.2.5 Nullable
- 2.3 特殊数据类型
- 2.3.1 日期和时间类型
- 2.3.2 UUID
- 2.3.3 IP 地址
- 2.3.4 AggregateFunction
- 2.4 数据类型的选择和使用
- 2.4.1 如何选择合适的数据类型
- 2.4.2 数据类型转换
- 3. 相似数据类型区别
- 4. 其他数字类型
- 4.1. ClickHouse地理位置数据类型
- 4.2. ClickHouse空值和非空值
- 4.3. ClickHouse数据类型转换
- 4.4. ClickHouse数据类型的性能考虑
- 1. 存储空间影响:
- 2. 查询性能影响:

1. 引言
ClickHouse 数据库系统支持多种数据类型,以及复杂的表结构设计。以下是一篇可能的博文的详细目录,这篇博文将介绍 ClickHouse 的数据类型和表的结构设计。
2. ClickHouse 数据类型
数据类型 | 定义 | 使用场景 | 示例 |
---|---|---|---|
基本数据类型 | |||
整型(Int8, Int16, Int32, Int64) | 存储整数值,支持正负整数 | 存储年龄、统计数量等整数场景 | 年龄:25,浏览次数:1000 |
浮点型(Float32, Float64) | 存储小数值,支持不同精度的小数 | 存储价格、评分等需要精确到小数的数据 | 价格:23.5,评分:4.3 |
字符串型(String, FixedString) | 存储文本数据,支持可变长度和固定长度的字符串 | 存储名字、地址、描述等文本信息 | 姓名:“张三”,地址:“北京市” |
复合数据类型 | |||
数组(Array) | 存储同一类型的多个值 | 存储一篇文章的多个标签、一个订单的多个商品等 | 标签:[“科技”, “教育”] |
枚举类型(Enum) | 存储预定义的一组值,将字符串映射为整数 | 存储性别、订单状态等有限且固定的值 | 性别:男,订单状态:已支付 |
元组(Tuple) | 存储固定长度的有序列表,每个元素可以是任意类型 | 存储经纬度、RGB 颜色值等固定长度的组合数据 | 经纬度:(116.4, 39.9) |
Map | 存储键值对 | 存储用户的属性、商品的元数据等 | 用户属性:{“age”: 25, “city”: “北京”} |
Nullable | 存储可能为空的值,为任意类型的数据添加一个表示是否为空的标记 | 存储可能为空的字段,如用户的昵称、商品的优惠价格等 | 昵称:Nullable(“张三”) |
特殊数据类型 | |||
日期和时间类型(Date, DateTime) | 存储日期和时间 | 存储用户的注册时间、订单的创建时间等 | 注册时间:2021-08-01 |
UUID | 存储唯一标识符,生成全局唯一的随机字符串 | 存储用户的唯一 ID、订单的唯一 ID 等 | 用户ID:550e8400-e29b-41d4-a716-446655440000 |
IP 地址(IPv4, IPv6) | 存储 IP 地址 | 存储用户的 IP 地址、服务器的 IP 地址等 | 用户IP:192.168.1.1 |
AggregateFunction | 存储聚合函数的状态 | 统计用户的平均活跃时长、计算商品的销售总额等 | 平均活跃时长:5.5 小时 |
2.1 基本数据类型
2.1.1 整型
整型是整数形式的数据类型,支持正负整数的存储。ClickHouse 支持多种整型,如 Int8, Int16, Int32, Int64 等,每种类型分别支持的数据范围不同。例如,Int8 支持 -128 到 127 的整数,而 Int32 支持 -2147483648 到 2147483647 的整数。根据你的数据大小和需求来选择合适的整数类型。
使用场景:存储年龄、统计数量等整数场景。
2.1.2 浮点型
浮点型是小数形式的数据类型。ClickHouse 提供 Float32 和 Float64 两种浮点数类型,用于存储小数。Float32 支持约 7 位精度的小数,而 Float64 支持约 15 位精度的小数。
使用场景:存储价格、评分等需要精确到小数的数据。
2.1.3 字符串型
字符串型用于存储文本数据。ClickHouse 中的字符串类型包括 String 和 FixedString。String 用于存储可变长度的字符串,FixedString 用于存储固定长度的字符串。
使用场景:存储名字、地址、描述等文本信息。
2.2 复合数据类型
2.2.1 数组
Array 类型用于存储同一类型的多个值。它可以存储任意类型的数据,包括基本类型和复合类型。
使用场景:存储一篇文章的多个标签、一个订单的多个商品等。
2.2.2 枚举类型
Enum 类型用于存储预定义的一组值。它可以将字符串映射为整数,从而节省存储空间,并提高查询效率。
使用场景:存储性别、订单状态等有限且固定的值。
2.2.3 元组
Tuple 类型用于存储固定长度的有序列表。元组中的每个元素可以是任意类型。
使用场景:存储经纬度、RGB 颜色值等固定长度的组合数据。
2.2.4 Map
Map 类型用于存储键值对。它可以方便地查询和更新数据。
使用场景:存储用户的属性、商品的元数据等。
2.2.5 Nullable
Nullable 类型用于存储可能为空的值。它可以为任意类型的数据添加一个表示是否为空的标记。
使用场景:存储可能为空的字段,如用户的昵称、商品的优惠价格等。
2.3 特殊数据类型
2.3.1 日期和时间类型
ClickHouse 提供 Date 和 DateTime 类型,用于存储日期和时间。Date 类型用于存储日期(年月日),DateTime 类型用于存储日期和时间。
使用场景:存储用户的注册时间、订单的创建时间等。
2.3.2 UUID
UUID 类型用于存储唯一标识符。它可以生成全局唯一的随机字符串。
使用场景:存储用户的唯一 ID、订单的唯一 ID 等。
2.3.3 IP 地址
ClickHouse 提供 IPv4 和 IPv6 类型,用于存储 IP 地址。
使用场景:存储用户的 IP 地址、服务器的 IP 地址等。
2.3.4 AggregateFunction
AggregateFunction 类型用于存储聚合函数的状态。它可以方便地进行聚合查询。
使用场景:统计用户的平均活跃时长、计算商品的销售总额等。
2.4 数据类型的选择和使用
2.4.1 如何选择合适的数据类型
选择数据类型时,需要考虑数据的性质、业务的需求和查询的效率等因素。例如,如果数据可能为空,则应该选择 Nullable 类型;如果数据有限并且固定,则可以考虑使用 Enum 类型。
2.4.2 数据类型转换
ClickHouse 提供了一系列的函数,可以在不同的数据类型之间进行转换。例如,可以使用 toString 函数将数字转换为字符串,使用 toInt32 函数将字符串转换为整数。
3. 相似数据类型区别
-
Int和UInt的差别:Int类型的整数可以是负数,而UInt类型的整数只能是非负的。
-
Float32和Float64的差别:Float32是单精度浮点数,Float64是双精度浮点数。
-
String和FixedString的差别:String类型可以存储任意长度的字符串,而FixedString类型则需要在定义时指定字符串的长度。
-
Date, DateTime, DateTime64的差别:Date类型用于表示日期,DateTime用于表示日期和时间,而DateTime64则提供了更高的时间精度。
-
Enum8和Enum16的差别:Enum8可以存储最多256个枚举值,而Enum16可以存储最多65536个枚举值。
-
Tuple和Nested的定义和使用:Tuple类型可以存储一组不同类型的值,而Nested类型则可以存储一组结构相同的数据。
4. 其他数字类型
4.1. ClickHouse地理位置数据类型
- Point、LineString、Polygon等类型的定义和使用:
Point:用于表示地球表面上一个点的地理位置。例如:Point(经度, 纬度)
如 Point(30.5, 50.2)
。
LineString:表示一系列连接的线段,由多个Point构成。例如:LineString(Point(30.5, 50.2), Point(31.5, 51.2), Point(32.5, 52.2))
。
Polygon:表示一个多边形区域,由多个点组成的环状结构。例如:Polygon((30.5, 50.2), (31.5, 51.2), (32.5, 52.2), (30.5, 50.2))
,注意首尾点需相同。
地理位置数据类型的使用场景:适用于存储和查询地理空间信息,例如地图应用、物流、出行等需要进行地理位置分析的场景。
4.2. ClickHouse空值和非空值
- Null和NotNull的定义和使用:
Null:表示数据的缺失或未知值,可以在表定义时将某一列指定为 Nullable 类型,例如 Nullable(String)
。
NotNull:表示不允许存储空值,即数据必须有值。默认情况下,大多数数据类型都是 NotNull。
空值和非空值的使用场景:在某些情况下,数据可能不完整或者不能获取某些字段,可以使用 Nullable 类型存储数据。如果某一列数据总是存在,可以使用 NotNull 类型,这样可以提高查询性能。
4.3. ClickHouse数据类型转换
-
如何在不同的数据类型之间进行转换:可以使用
CAST
函数进行类型转换。例如,将String类型转为Int32类型:CAST('123' AS Int32)
。 -
数据类型转换的注意事项:在进行类型转换时,需要确保原数据能够成功转换为目标类型,否则可能会导致数据丢失或者转换错误。
4.4. ClickHouse数据类型的性能考虑
ClickHouse的数据类型选择对于存储空间和查询性能都有重要影响。在设计数据库架构时,考虑以下性能因素可以优化系统的性能:
1. 存储空间影响:
- 数据类型大小:不同的数据类型在存储上占据的空间大小不同。选择较小的数据类型可以节省存储空间。例如,使用Int8代替Int32可以将整数存储空间减少为1/4。
- 压缩:ClickHouse具有强大的数据压缩功能,可以显著减少数据存储的大小。根据数据类型的特性,选择合适的压缩算法和设置可以进一步减少存储空间占用。
2. 查询性能影响:
- 数据类型的计算复杂度:某些数据类型的计算和操作可能比其他类型更复杂。例如,字符串类型的比较和模式匹配通常比整数类型更耗时。选择计算复杂度较低的数据类型可以提高查询性能。
- 索引和过滤效率:索引和过滤是查询性能的关键。某些数据类型支持更高效的索引和过滤操作。例如,使用日期类型而不是字符串类型可以更快地进行时间范围查询。
- 数据类型的顺序性:ClickHouse是一个列式数据库,数据按列存储。某些数据类型具有更好的顺序性,可以提高查询性能。例如,有序的整数类型比无序的字符串类型更易于压缩和查询。
在选择数据类型时,需要综合考虑存储空间、查询性能和数据语义的要求。需要根据具体的应用场景和数据特点进行权衡和测试,以获得最佳的性能和存储效率。
同时,还要注意避免过度优化。在某些情况下,微小的存储空间节省或查询性能提升可能并不值得引入复杂性和额外的开发成本。因此,评估和测试在真实场景下的综合性能表现是十分重要的。
数据类型 | 存储空间占用 |
---|---|
UInt8 | 1字节 |
Int8 | 1字节 |
UInt16 | 2字节 |
Int16 | 2字节 |
UInt32 | 4字节 |
Int32 | 4字节 |
UInt64 | 8字节 |
Int64 | 8字节 |
Float32 | 4字节 |
Float64 | 8字节 |
Decimal(M, D) | 取决于精度和规模(M+D+1) |
String | 根据字符串长度和编码方式 |
FixedString(N) | N字节 |
Date | 4字节 |
DateTime | 8字节 |
Enum8 | 1字节 |
Enum16 | 2字节 |
Array(T) | 根据元素类型和元素数量进行计算 |
Tuple(T1, T2,…) | 根据元素类型和元素数量进行计算 |
Nullable(T) | 根据基本类型和null值标志位进行计算 |
UUID | 16字节 |
IPv4 | 4字节 |
IPv6 | 16字节 |
Nested | 根据嵌套结构和各个字段的数据类型进行计算 |
以上是一些常见的ClickHouse数据类型及其在存储空间方面的一般影响。需要注意的是,实际存储空间可能会受到数据压缩、列引擎的特定设置以及其他因素的影响。因此,在具体应用中,最好进行实际测试和评估,以获取准确的存储空间占用情况。
相关文章:

【入门篇】ClickHouse 数据类型
文章目录 1. 引言2. ClickHouse 数据类型2.1 基本数据类型2.1.1 整型2.1.2 浮点型2.1.3 字符串型 2.2 复合数据类型2.2.1 数组2.2.2 枚举类型2.2.3 元组2.2.4 Map2.2.5 Nullable 2.3 特殊数据类型2.3.1 日期和时间类型2.3.2 UUID2.3.3 IP 地址2.3.4 AggregateFunction 2.4 数据…...

关于Python数据分析,这里有一条高效的学习路径
无处不在的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人…...
基于 json-server 工具,模拟实现后端接口服务环境
文章目录 本地配置后端接口一、安装json-server1、安装 JSON 服务器 安装 JSON 服务器2、创建一个db.json包含一些数据的文件(重点)3、启动 JSON 服务器 启动 JSON 服务器4、现在如果你访问http://localhost:3000/posts/1,你会得到 本地配置后…...

想要精通算法和SQL的成长之路 - 课程表II
想要精通算法和SQL的成长之路 - 课程表 前言一. 课程表II (拓扑排序)1.1 拓扑排序1.2 题解 前言 想要精通算法和SQL的成长之路 - 系列导航 一. 课程表II (拓扑排序) 原题链接 1.1 拓扑排序 核心知识: 拓扑排序是专…...
【sgGoogleTranslate】自定义组件:基于Vue.js用谷歌Google Translate翻译插件实现网站多国语言开发
sgGoogleTranslate源码 <template><div :id"$options.name"> </div> </template> <script> export default {name: "sgGoogleTranslate",props: ["languages", "currentLanguage"],data() {return {//…...

论文总结《A Closer Look at Few-shot Classification Again》
原文链接 A Closer Look at Few-shot Classification Again 摘要 这篇文章主要探讨了在少样本图像分类问题中,training algorithm 和 adaptation algorithm的相关性问题。给出了training algorithm和adaptation algorithm是完全不想关的,这意味着我们…...

Postman使用_参数设置和获取
文章目录 参数引用内置动态参数手动添加参数脚本设置参数脚本获取参数 参数就像变量一样,它可以是固定的值,也可以是变化的值,比如:会根据一些条件或其他参数进行变化。我们如果要使用该参数就需要引用它。 参数引用 引用动态参数…...
【SQL】优化SQL查询方法
优化SQK查询 一、避免全表扫描 1、where条件中少使用! 或 <>操作符,引擎会放弃索引,进行全表扫描 2、in \or ,用between 或 exist 代替in 3、where 对字段进行为空判断 4、where like ‘%条件’ 前置百分号 5、where …...
Linux-相关操作
2.2.2 Linux目录结构 /:根目录,一般根目录下只存放目录,在Linux下有且只有一个根目录。所有的东西都是从这里开始。当你在终端里输入“/home”,你其实是在告诉电脑,先从/(根目录)开始…...

二十、MySQL多表关系
1、概述 在项目开发中,在进行数据库表结构设计时,会根据业务需求以及业务模块之间的关系,分析并设计表结构,由于业务之间相互关联,所以各个表结构之间也存在着各种对应关系 2、多表关系分类 (1࿰…...

HarmonyOS/OpenHarmony应用开发-DevEco Studio新建项目的整体说明
一、文件-新建-新建项目 二、传统应用形态与IDE自带的模板可供选用与免安装的元服与IDE中自带模板的选择 三、以元服务,远程模拟器为例说明IDE整体结构 1区是工程目录结构,是最基本的配置与开发路径等的认知。 2区是代码开发与修改区,是开发…...

去耦电路设计应用指南(三)磁珠/电感的噪声抑制
(三)磁珠/电感的噪声抑制 1. 电感1.1 电感频率特性 2. 铁氧体磁珠3. LC 型和 PI 型滤波 当去耦电容器不足以抑制电源噪声时,电感器&磁珠/ LC 滤波器的结合使用是很有效的。扼流线圈与铁氧体磁珠 是用于电源去耦电路很常见的电感器。 1. …...
Spring Bean的获取方式
参考https://juejin.cn/post/7251780545972994108?searchId2023091105493913AF7C1E3479BB943C80#heading-12 记录并补充 1.通过BeanFactoryAware package com.toryxu.demo1.beans;import org.springframework.beans.BeansException; import org.springframework.beans.facto…...

4795-2023 船用舱底水处理装置 学习记录
声明 本文是学习GB-T 4795-2023 船用舱底水处理装置. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围 本文件规定了船用舱底水处理装置(以下简称处理装置)中舱底水分离器(以下简称分离器)和舱底 水报警装置(以下简称报警装置)的要求、试验方法…...

[框架设计之道(二)]设备、任务设置及业务流程
[框架设计之道(二)]设备、任务设置及业务流程 说明 此文档是开发中对设备设置项的管理。因为硬件在使用的过程中涉及大量设置项,因此需要单独开一篇文档说明设备的设置和任务的设置。 一、设备设置 1.基础接口 /// <summary> /// 配置…...
Nuxt3+Vite批量引入图片
通过计算属性获取images文件夹所有层级下所有静态资源 <script name"MarketplaceHeader" setup lang"ts"> //批量导入静态资源图片 const importImage: any computed(() > (name: string, type png, folder images) > {const glob: Record…...

采用nodejs + socket.io实现简易聊天室功能(群聊 + 私聊)
项目演示 支持群聊以及私聊 项目代码 index.html <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport…...

消息队列(一):需求分析
为什么要做这样一个项目? 首先,我们在之前学习的时候,就认识了一下 生产者消费者模式,这样一个模式有两大好处: 解耦合 本来有个分布式系统,A服务器 调⽤ B服务器(A给B发请求,B给A…...

ImageViewer技术实现细节
第1章 ImageViewer工具使用方法 1.1. 图像加载 1.1.1. 单图像加载 左上角菜单,“File”->“单图像”,或者Ctrl-S,弹出文件对话框,选择图像文件,当前支持bmp,png,jpg格式。 结果如下图所示: 1.1.2. 多图像加载 左上角菜单,“File”->“多图像”,或者Ctrl-M…...
MFC多文档程序,从菜单关闭一个文档和直接点击右上角的x效果不同
MFC多文档程序,从菜单关闭一个文档和直接点击右上角的x效果不同 若文档内容有修改,则前者会询问用户,是否保存修改;后者不保存修改直接关闭。 原因在于,从菜单关闭时,调用OnClose,一定会调用Sa…...

【入坑系列】TiDB 强制索引在不同库下不生效问题
文章目录 背景SQL 优化情况线上SQL运行情况分析怀疑1:执行计划绑定问题?尝试:SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景 项目中使用 TiDB 数据库,并对 SQL 进行优化了,添加了强制索引。 UAT 环境已经生效,但 PROD 环境强制索…...

抖音增长新引擎:品融电商,一站式全案代运营领跑者
抖音增长新引擎:品融电商,一站式全案代运营领跑者 在抖音这个日活超7亿的流量汪洋中,品牌如何破浪前行?自建团队成本高、效果难控;碎片化运营又难成合力——这正是许多企业面临的增长困局。品融电商以「抖音全案代运营…...

ArcGIS Pro制作水平横向图例+多级标注
今天介绍下载ArcGIS Pro中如何设置水平横向图例。 之前我们介绍了ArcGIS的横向图例制作:ArcGIS横向、多列图例、顺序重排、符号居中、批量更改图例符号等等(ArcGIS出图图例8大技巧),那这次我们看看ArcGIS Pro如何更加快捷的操作。…...
稳定币的深度剖析与展望
一、引言 在当今数字化浪潮席卷全球的时代,加密货币作为一种新兴的金融现象,正以前所未有的速度改变着我们对传统货币和金融体系的认知。然而,加密货币市场的高度波动性却成为了其广泛应用和普及的一大障碍。在这样的背景下,稳定…...

Xela矩阵三轴触觉传感器的工作原理解析与应用场景
Xela矩阵三轴触觉传感器通过先进技术模拟人类触觉感知,帮助设备实现精确的力测量与位移监测。其核心功能基于磁性三维力测量与空间位移测量,能够捕捉多维触觉信息。该传感器的设计不仅提升了触觉感知的精度,还为机器人、医疗设备和制造业的智…...

MySQL的pymysql操作
本章是MySQL的最后一章,MySQL到此完结,下一站Hadoop!!! 这章很简单,完整代码在最后,详细讲解之前python课程里面也有,感兴趣的可以往前找一下 一、查询操作 我们需要打开pycharm …...

从物理机到云原生:全面解析计算虚拟化技术的演进与应用
前言:我的虚拟化技术探索之旅 我最早接触"虚拟机"的概念是从Java开始的——JVM(Java Virtual Machine)让"一次编写,到处运行"成为可能。这个软件层面的虚拟化让我着迷,但直到后来接触VMware和Doc…...

【Linux】Linux安装并配置RabbitMQ
目录 1. 安装 Erlang 2. 安装 RabbitMQ 2.1.添加 RabbitMQ 仓库 2.2.安装 RabbitMQ 3.配置 3.1.启动和管理服务 4. 访问管理界面 5.安装问题 6.修改密码 7.修改端口 7.1.找到文件 7.2.修改文件 1. 安装 Erlang 由于 RabbitMQ 是用 Erlang 编写的,需要先安…...

企业大模型服务合规指南:深度解析备案与登记制度
伴随AI技术的爆炸式发展,尤其是大模型(LLM)在各行各业的深度应用和整合,企业利用AI技术提升效率、创新服务的步伐不断加快。无论是像DeepSeek这样的前沿技术提供者,还是积极拥抱AI转型的传统企业,在面向公众…...

高端性能封装正在突破性能壁垒,其芯片集成技术助力人工智能革命。
2024 年,高端封装市场规模为 80 亿美元,预计到 2030 年将超过 280 亿美元,2024-2030 年复合年增长率为 23%。 细分到各个终端市场,最大的高端性能封装市场是“电信和基础设施”,2024 年该市场创造了超过 67% 的收入。…...