当前位置：首页 > news >正文

Hive的小文件问题

news 文章来源：https://blog.csdn.net/SHWAITME/article/details/136108785 2024/9/21 0:40:56

一、小文件产生的原因

二、小文件的危害

三、小文件的解决方案

3.1 小文件的预防

3.1.1 减少Map数量

3.1.2 减少Reduce的数量

3.2 已存在的小文件合并

3.2.1 方式一：insert overwrite (推荐)

3.2.2 方式二：concatenate

3.2.3 方式三：使用hive的archive归档

3.2.4 方式四：hadoop getmerge

一、小文件产生的原因

数据源本身就包含大量的小文件，例如api,kafka消息管道等。
动态分区插入数据的时候，会产生大量的小文件，从而导致map数量剧增；；
reduce 数量越多，小文件也越多，小文件数量=ReduceTask数量*分区数；
hive中的小文件是向 hive 表中导入数据时产生；

向 hive 中导入数据的几种方式:

（1）直接向表中插入数据

insert into table t_order2 values (1,'zhangsan',88),(2,'lisi',61);

这种方式每次插入时都会产生一个小文件，多次插入少量数据就会出现多个小文件，故这种方式生产环境基本不使用；

（2）通过load方式加载数据

-- 导入文件
load data local inpath "/opt/module/hive_data/t_order.txt" overwrite into table t_order;
-- 导入文件夹
load data local inpath "/opt/module/hive_data/t_order" overwrite into table t_order;

使用 load方式可以导入文件或文件夹，当导入一个文件时，hive表就有一个文件，当导入文件夹时，hive表的文件数量为文件夹下所有文件的数量；

（3）通过查询方式加载数据

insert overwrite t_order  select oid,uid from t_order2

这种方式是生产环境中经常用的，也是最容易产生小文件的方式。insert 导入数据时会启动MR任务，MR-reduce的个数与输出文件个数一致。

因此，hdfs的文件数量= reduceTask数量* 分区数，有些fetch本地抓取任务（例如：简单的 select * from tableA）仅有map阶段，那此时文件个数 = mapTask数量*分区数

二、小文件的危害

小文件通常是指文件大小要比HDFS块大小（一般是128M）还要小很多的文件。

NameNode在内存中维护整个文件系统的元数据镜像、其中每个HDFS文件元数据信息（位置、大小、分块等）对象约占150字节，如果小文件过多会占用大量内存，会直接影响NameNode性能。相对的，HDFS读写小文件也会更加耗时，因为每次都需要从NameNode获取元信息，并与对应的DataNode建立pipeline连接。
从 Hive 角度看，一个小文件会开启一个 MapTask，一个 MapTask开一个 JVM 去执行，这些任务的启动及初始化，会浪费大量的资源，严重影响性能。

三、小文件的解决方案

小文件的解决思路主要有两个方向：1.小文件的预防；2.已存在的小文件合并

3.1 小文件的预防

通过调整参数进行合并，在 hive 中执行 insert overwrite tableA select xx from tableB 之前设置如下合并参数，即可自动合并小文件。

3.1.1 减少Map数量

设置map输入时的合并参数：

#执行Map前进行小文件合并
#CombineHiveInputFormat底层是 Hadoop的 CombineFileInputFormat 方法
#此方法是在mapper中将多个文件合成一个split切片作为输入
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; -- 默认#每个Map最大的输入大小(这个值决定了合并后文件的数量)
set mapred.max.split.size=256*1000*100;   -- 256M
#一个节点上split的至少的大小(这个值决定了多个DataNode上的文件是否需要合并)
set mapred.min.split.size.per.node=100*100*100;  -- 100M
#一个交换机下split的至少的大小(这个值决定了多个交换机上的文件是否需要合并)
set mapred.min.split.size.per.rack=100*100*100; -- 100M

设置map输出时和reduce输出时的合并参数：

#设置map端输出进行合并，默认为true
set hive.merge.mapfiles = true;
#设置reduce端输出进行合并，默认为false
set hive.merge.mapredfiles = true;
#设置合并文件的大小
set hive.merge.size.per.task = 256*1000*1000;   -- 256M
#当输出文件的平均大小小于该值时，启动一个独立的MapReduce任务进行文件merge
set hive.merge.smallfiles.avgsize=16000000;   -- 16M

启用压缩（小文件合并后，也可以选择启用压缩）

# hive的查询结果输出是否进行压缩
set hive.exec.compress.output=true;
# MapReduce Job的结果输出是否使用压缩
set mapreduce.output.fileoutputformat.compress=true;
#设置压缩方式是snappy
set parquet.compression = snappy;

3.1.2 减少Reduce的数量

#reduce的个数决定了输出的文件的个数，所以可以调整reduce的个数控制hive表的文件数量，
#通过设置reduce的数量，利用distribute by使得数据均衡的进入每个reduce。
#设置reduce的数量有两种方式，第一种是直接设置reduce个数
set mapreduce.job.reduces=10;#第二种是设置每个reduceTask的大小，Hive会根据数据总大小猜测确定一个reduce个数
set hive.exec.reducers.bytes.per.reducer=512*1000*1000; -- 默认是1G，这里为设置为5G#执行以下语句，将数据均衡的分配到reduce中
set mapreduce.job.reduces=10;insert overwrite table A partition(dt)
select * from B
distribute by  cast(rand()*10 as int);解释：如设置reduce数量为10，则使用cast(rand()*10 as int)，生成0-10之间的随机整数，根据【随机整数 % 10】计算分区编号，这样数据就会均衡的分发到各reduce中，防止出现有的文件过大或过小

3.2 已存在的小文件合并

对集群上已存在的小文件进行定时或实时的合并操作，定时操作可在访问低峰期操作，如凌晨2点，合并操作主要有以下几种方式：

3.2.1 方式一：insert overwrite (推荐)

执行流程总体如下：

（1）创建备份表（创建备份表时需和原表的表结构一致）

create table test.table_hive_back like test.table_hive ;

（2）设置合并文件相关参数，并使用insert overwrite 语句读取原表，再插入备份表

设置合并文件相关参数

使用 hive的merger合并参数，在正式 insert overwrite 之前做一个合并，合并的时候注意设置好压缩，不然文件会比较大。

合并文件至备份表中，执行前保证没有数据写入原表

#如果有多级分区，将分区名放到partition中
insert overwrite table test.table_hive_back partition(batch_date) 
select * from test.table_hive;

ps：insert overwrite table test.table_hive_back 备份表的时候，可以使用distribute by 命令设置合并后的batch_date分区下的文件数据量

insert overwrite table 目标表 [partition(hour=...)] select * from 目标表 
distribute by cast( rand() * 具体最后落地生成多少个文件数 as int);

insert overwrite：会重写数据，先进行删除后插入（不用担心如果overwrite失败，数据没了，这里面是有事务保障的）;

distribute by分区：能控制数据从map端发往到哪个reduceTask中，distribute by的分区规则：分区字段的hashcode值对reduce 个数取模后，余数相同的数据会分发到同一个reduceTask中。

rand()函数：生成0-1的随机小数，控制最终输出多少个文件。

# 使用distribute by rand()将数据随机分配给reduce,这样可以使得每个reduce处理的数据大体一致。 避免出现有的文件特别大, 有的文件特别小，例如：控制dt分区目录下生成100个文件，那么hsql如下：
insert overwrite table A partition(dt)select * from B
distribute by cast(rand()*100 as int);#cast(rand()*100 as int) 可以生成0-100的随机整数

如果合并之后的文件竟然还变大了，可能是 select from的原数据是被压缩的，但是insert overwrite目标表的时候，没有设置输出文件压缩功能，解决方案：

# hive的查询结果输出是否进行压缩
set hive.exec.compress.output=true;
# MapReduce Job的结果输出是否使用压缩
set mapreduce.output.fileoutputformat.compress=true;
#设置压缩方式是snappy
set parquet.compression = snappy;

（3）确认表数据一致后，将原表修改名称为临时表tmp，将备份表修改名称为原表

先查看原表和备份表数据量，确保表数据一致

#查看原表和备份表数据量
set hive.compute.query.using.stats=false ;
set hive.fetch.task.conversion=none;
SELECT count(*) FROM test.table_hive;
SELECT count(*) FROM test.table_hive_back ;

将原表修改名称为临时表tmp，将备份表修改名称为原表

alter table test.table_hive rename to test.table_hive_tmp;
alter table test.table_hive_back rename to test.table_hive ;

（4）查看合并后的分区数和小文件数量

正常情况下：hdfs文件系统上的table_hive表的分区数量没有改变，但是每个分区的几个小文件已经合并为一个文件。

#统计合并后的分区数
[atguigu@bigdata102 ~]$ hdfs dfs -ls /user/hive/warehouse/test/table_hive
#统计合并后的分区数下的文件数
[atguigu@bigdata102 ~]$ hdfs dfs -ls /user/hive/warehouse/test/table_hive/batch_date=20210608

例如：

（5）观察一段时间后再删除临时表

drop  table test.table_hive_tmp ;

ps：注意修改hive表名的时候，对应表的存储路径会发生变化，如果有新的任务上传数据到具体路径，需要注意可能需要修改。

3.2.2 方式二：concatenate

对于orc文件，可以使用hive自带的 concatenate 命令，自动合并小文件

#对于非分区表
alter table test concatenate;#对于分区表
alter table test [partition(...)] concatenate
#例如：alter table test partition(dt='2021-05-07',hr='12') concatenate;

注意：

concatenate 命令只支持 rcfile和 orc文件类型。
concatenate命令合并小文件时不能指定合并后的文件数量，但可以多次执行该命令。
当多次使用concatenate后文件数量不变化，这个跟参数 mapreduce.input.fileinputformat.split.minsize=256mb 的设置有关，可设定每个文件的最小size。

3.2.3 方式三：使用hive的archive归档

每日定时脚本，对于已经产生小文件的hive表使用har归档，然后已归档的分区不能insert overwrite ，必须先unarchive

#用来控制归档是否可用
set hive.archive.enabled=true;#通知Hive在创建归档时是否可以设置父目录
set hive.archive.har.parentdir.settable=true;#控制需要归档文件的大小
set har.partfile.size=256000000;#对表的某个分区进行归档
alter table test_rownumber2 archive partition(dt='20230324');#对已归档的分区恢复为原文件
alter table test_rownumber2 unarchive partition(dt='20230324');

3.2.4 方式四：hadoop getmerge

对于txt格式的文件可以使用hadoop getmerge命令来合并小文件。使用 getmerge 命令先合并数据到本地，再通过put命令回传数据到hdfs。

将hdfs上分区为pdate=20220815，文件路径为 /user/hive/warehouse/xxxx.db/xxxx/pdate=20220815/* 下载到linux 本地进行合并文件，本地路径为：/home/hadoop/pdate/20220815

hadoop fs -getmerge /user/hive/warehouse/xxxx.db/xxxx/pdate=20220815/* /home/hadoop/pdate/20220815;

将hdfs源分区数据删除

hadoop fs -rm /user/hive/warehouse/xxxx.db/xxxx/pdate=20220815/*

在hdfs上新建分区

hadoop fs -mkdir -p /user/hive/warehouse/xxxx.db/xxxx/pdate=20220815

将本地合并后的文件回传到hdfs上

hadoop fs -put /home/hadoop/pdate/20220815 /user/hive/warehouse/xxxx.db/xxxx/pdate=20220815/*

参考文章：

HIVE中小文件问题_hive小文件产生的原因-CSDN博客

Hive教程（09）- 彻底解决小文件的问题-阿里云开发者社区

0704-5.16.2-如何使用Hive合并小文件-腾讯云开发者社区-腾讯云

Hive的小文件问题

目录一、小文件产生的原因二、小文件的危害三、小文件的解决方案 3.1 小文件的预防 3.1.1 减少Map数量 3.1.2 减少Reduce的数量 3.2 已存在的小文件合并 3.2.1 方式一：insert overwrite (推荐) 3.2.2 方式二：concatenate 3.2.3 方式三&#xff…...

编程日记 2024/2/14 5:10:53

攻防世界——re2-cpp-is-awesome

64位我先用虚拟机跑了一下这个程序，结果输出一串字符串flag ——没用 IDA打开后 F5也没有什么可看的那我们就F12查看字符串找可疑信息这里一下就看见了 __int64 __fastcall main(int a1, char **a2, char **a3) {char *v3; // rbx__int64 v4; // rax__int64 v…...

编程日记 2024/2/14 5:02:46

问山海——天涯海角——桃花渊boss攻击顺序

文章目录桃花渊代码代码解读代码执行结果攻击顺序示意图桃花渊规划击杀各个boss顺序。副本持续时间为30分钟，每个地方的boss被打死后，需要一定时间才能重新刷新。只考虑其中两种boss，龟将和龟龙。各有四个。其中我从一个boss地点到…...

编程日记 2024/2/14 4:56:40

springboot181基于springboot的乐享田园系统

简介【毕设源码推荐 javaweb 项目】基于springbootvue 的适用于计算机类毕业设计，课程设计参考与学习用途。仅供学习参考， 不得用于商业或者非法用途，否则，一切后果请用户自负。看运行截图看第五章第四章获取资料方式 **项…...

编程日记 2024/2/14 4:52:36

Dubbo集成Zookeeper embbed模式

为了简化应用支持服务方便的分合，使用Zookeeper embbed模式。集成Zookeeper比较容易，使用starter或自己写代码都可以。但是由于集成了Dubbo，每次启动时都会发现zookeeper没有启动就开始报错退出，但是确是已经集成了。于是只能翻…...

编程日记 2024/2/14 4:50:34

156基于Matlab的光纤陀螺随机噪声和信号

基于Matlab的光纤陀螺随机噪声和信号，利用固定步长和可调步长的LMS自适应滤波、最小二乘法、滑动均值三种方法进行降噪处理，最后用阿兰方差评价降噪效果。程序已调通，可直接运行。 156 信号处理自适应滤波降噪效果评估 (xiaohongshu.com)...

编程日记 2024/2/14 4:32:15

秋招上岸大厂，分享一下经验

文章目录秋招过程学习过程项目经验简历经验面试经验offer选择总结秋招过程今天是除夕，秋招已经正式结束了，等春节过完就到了春招的时间点了。运气比较好，能在秋招的末尾进入一家大厂，拿到20k的sp offer。从九月份十月份就开…...

编程日记 2024/2/14 4:31:14

使用 C++23 从零实现 RISC-V 模拟器

👉🏻 文章汇总「从零实现模拟器、操作系统、数据库、编译器…」：https://okaitserrj.feishu.cn/docx/R4tCdkEbsoFGnuxbho4cgW2Yntc 使用 C23 从零实现 RISC-V 模拟器使用 C23 从零实现的 RISC-V 模拟器，最终的模拟器可以运行 x…...

编程日记 2024/2/14 4:29:11

Hugging Face 刚刚推出了一款开源的 AI 助手制造工具，直接向 OpenAI 的定制 GPT 挑战

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领…...

编程日记 2024/2/14 4:27:09

powershell 雅地关闭UDP监听器

在PowerShell中优雅地关闭UDP监听器意味着你需要一种机制来安全地停止正在运行的UdpClient实例。由于UdpClient类本身没有提供直接的停止或关闭方法，你需要通过其他方式来实现这一点。通常，这涉及到在监听循环中添加一个检查点，以便在接收到停…...

编程日记 2024/2/14 4:26:07

Google Cloud 2024 年报告重点介绍了关键的网络威胁和防御

Google Cloud 的 2024 年威胁范围报告预测了云安全的主要风险，并提出了加强防御的策略。该报告由 Google 安全专家撰写，为寻求预测和应对不断变化的网络安全威胁的云客户提供了宝贵的资源。该报告强调，凭证滥用、加密货币挖矿、勒索软件和…...

编程日记 2024/2/14 4:23:04

【算法题】102. 二叉树的层序遍历

题目给你二叉树的根节点 root ，返回其节点值的层序遍历。 （即逐层地，从左到右访问所有节点）。示例 1： 输入：root [3,9,20,null,null,15,7] 输出：[[3],[9,20],[15,7]] 示例 2：…...

编程日记 2024/2/14 4:21:01

【龙年大礼】| 2023中国开源年度报告！

【中国开源年度报告】由开源社从 2015 年发起，是国内首个结合多个开源社区、高校、媒体、风投、企业与个人，以纯志愿、非营利的理念和开源社区协作的模式，携手共创完成的开源研究报告。后来由于一些因素暂停，在 2018 年重启了这个…...

编程日记 2024/2/14 4:19:58

本地搭建three.js官方文档

因为three.js官网文档是国外的网站，所以你没有魔法的情况下打开会很慢，这时我们需要在本地搭建一个官方文档便于我们学习查看。第一步：首先我们先访问GitHub地址 GitHub - mrdoob/three.js: JavaScript 3D Library. 下载不下来的小伙伴们私…...

编程日记 2024/2/14 4:18:57

【seata自动化治愈数据库问题解决方案】

wu-database-lazy-seata-cure-plus-starter 描述针对saas 数据库隔离情况下，每次版本迭代都需要重新修改对应的数据库，对于升级与运维存在一定的难度，那么这个数据库治愈框架来了，使用场景如下 1.数据库不存在自动创建数据库 …...

编程日记 2024/2/14 4:13:37

Node.js之npm单独与批量升级依赖包的方式

Node.js之npm单独与批量升级依赖包的方式文章目录 Node.js之npm单独与批量升级依赖包的方式npm查看与升级依赖包1. 单独安装或升级最新版本2. 查看依赖但不升级1. npm outdated2. npm update 3. 批量升级新版本4. npm-check-updates1. 全局安装2. ncu查看可升级的版本3. 升级依…...

编程日记 2024/2/14 4:08:33

66.加一

66. 加一给定一个由整数组成的非空数组所表示的非负整数，在该数的基础上加一。最高位数字存放在数组的首位， 数组中每个元素只存储单个数字。你可以假设除了整数 0 之外，这个整数不会以零开头。示例 1： 输入&#xff…...

编程日记 2024/2/14 4:07:32

UI自动化之Poco常用断言方式

实际上用到的几种写断言的方式： 1.验证UI界面（断言图片是否存在，UI页面不稳定情况下，图片识别效率不高） assert_exists assert_not_exists 2.验证数值（断言传入的两个值(数字或者string)是否相等&#xff…...

编程日记 2024/2/14 4:06:31

c语言_实现类class的功能实例

c语言_实现类class的功能实例 1.需求与背景2.实例1.类的头文件 class_A.h2.类的实现 class_A.c3.引用4.编译与运行 3.总结 1.需求与背景使用C , python语言久了, 发现类 class写代码逻辑更方便, 简洁. 封装的API更加易用; 内核代码中, 也经常看到类似类的封装. 自己尝试实现…...

编程日记 2024/2/14 4:00:24

[2024]常用的pip指令

[2024]常用的pip指令 HI，这里是肆十二，好久不见，大家！ 新年好！ pip是Python的包管理工具，它可以用来安装、升级、卸载Python包。以下是一些常用的pip指令： 安装包： bash复制代码…...

编程日记 2024/2/14 3:55:17

【Java EE初阶十二】网络编程TCP/IP协议（二）

1. 关于TCP 1.1 TCP 的socket api tcp的socket api和U大片的socket api差异很大，但是和前面所讲的文件操作很密切的联系下面主要讲解两个关键的类： 1、ServerSocket：给服务器使用的类，使用这个类来绑定端口号 2、Socket&#xf…...

编程日记 2024/2/14 3:51:14

Idea Git Review插件

idea git plugin 添加了一些常用的小插件可以右键打开git bash窗口可以右键选中文字点击baidu fanyi 可以通过搜索git用户名指定开始时间查询某个版本自己提交的所有代码文件可以通过点击蓝色行数，跳转到指定的改动代码块资源地址： git-pl…...

编程日记 2024/2/14 3:48:11

import turtle as t t.color(purple) t.right(10) t.fd(100) t1 t.Turtle() #t1.color(red) t1.left(10) t1.fd(100) t2 t.Turtle() #t2.color(green) t2.left(20) t2.fd(100) t3 t.Turtle() #t3.color(blue) t3.left(30) t3.fd(100) python的turtle可以定义多个海龟对象…...

编程日记 2024/2/14 3:46:09

LocalAI 部署(主要针对 mac m2 启动)

LocalAI 部署介绍 LocalAI 是免费的开源 OpenAI 替代方案。 LocalAI 充当 REST API 的直接替代品，与本地推理的 OpenAI API 规范兼容。它无需 GPU，还有多种用途集成，允许您使用消费级硬件在本地或本地运行 LLM、生成图像、音频等等&#…...

编程日记 2024/2/14 3:43:05

Swift Combine 管道从入门到精通三

Combine 系列 Swift Combine 从入门到精通一Swift Combine 发布者订阅者操作者从入门到精通二 1. 用弹珠图描述管道函数响应式编程的管道可能难以理解。发布者生成和发送数据，操作符对该数据做出响应并有可能更改它，订阅者请求并接收这些数据。这…...

编程日记 2024/2/14 3:35:59

【RISC-V DSP设计】基于CEVA DSP架构的指令集分析（二）-函数列表

目录表3-1：定点滤波器功能表3-2：定点快速傅里叶变换（FFT）函数表3-3：定点数学函数表3-4：定点三角函数表3-5：定点向量函数表3-6：定点矩阵函数表3-7：浮点滤波…...

编程日记 2024/2/14 3:33:57

蓝桥杯（Web大学组）2022国赛真题：水果消消乐

思路： 记录点击次数，点击次数为1时，记录点击下标（用于隐藏or消除）、点击种类，点击次数为2时，判断该下标所对应种类与第一次是否相同相同：两个都visibility:hidden （占…...

编程日记 2024/2/14 3:32:56

LeetCode--代码详解 155.最小栈

155.最小栈题目设计一个支持 push ，pop ，top 操作，并能在常数时间内检索到最小元素的栈。实现 MinStack 类: MinStack() 初始化堆栈对象。void push(int val) 将元素val推入堆栈。void pop() 删除堆栈顶部的元素。int top() 获取堆栈顶…...

编程日记 2024/2/14 3:30:55

第6讲后端鉴权拦截器实现

后端鉴权拦截器实现 package com.java1234.interceptor;import com.java1234.util.JwtUtils; import com.java1234.util.StringUtil; import io.jsonwebtoken.Claims; import org.springframework.web.method.HandlerMethod; import org.springframework.web.servlet.HandlerI…...

编程日记 2024/2/14 3:27:53

uniapp从入门到进阶

一、了解uniapp 跨平台开发：Uniapp可以同时开发多个平台的应用，只需编写一套代码即可。开发者可以通过编写Vue组件来构建界面，通过编写JavaScript代码来实现业务逻辑。页面和组件：Uniapp的页面和组件都是基于Vue组件的&#xff…...

编程日记 2024/2/14 3:25:49

CDN缓存404、403状态码

可以参考一下：浏览器缓存和 CDN 在前端的落地事故记录： 前端发版时存在新旧两个容器，在资源替换的间隙，用户请求到的肯定是新容器的html文件，但是根据新容器的html向新静态资源发起请求，此时旧容器还没有…...

编程日记 2024/2/14 3:17:39

【Python网络编程之DHCP服务器】

🚀 作者 ：“码上有前” 🚀 文章简介 ：Python开发技术 🚀 欢迎小伙伴们点赞👍、收藏⭐、留言💬 Python网络编程之DHCP服务器代码见资源，效果图如下一、实验要求二、协议原理2.1 D…...

编程日记 2024/2/14 3:16:39

【MySQL】：深入理解并掌握DML和DCL

🎥 屿小夏 ： 个人主页 🔥个人专栏 ： MySQL从入门到进阶 🌄 莫道桑榆晚，为霞尚满天！ 文章目录 📑前言一. DML1.1 添加数据1.2 修改数据1.3 删除数据二. DCL2.1 管理用户2.2 权限控制…...

编程日记 2024/2/14 3:15:38

CSP-动态规划-最长公共子序列（LCS）

一、动态规划动态规划（Dynamic Programming，简称DP）主要用于求解可以被分解为相似子问题的复杂问题，特别是在优化问题上表现出色，如最短路径、最大子数组和、编辑距离等。动态规划的核心思想是将原问题分解为较小的子…...

编程日记 2024/2/14 3:13:35

安装nodejs2011并配置npm仓库

1. 安装nodejs 选择2011版本下载在安装目录(个人情况)下 D:\Program Files\nodejs2011创建2个文件夹： node_global （依赖库） node_cache （缓存） 然后在当前目录下cmd进入dos窗口，执行： npm c…...

编程日记 2024/2/14 3:12:35

排序C++代码(已更：快速排序，归并排序)

一、快速排序 #include<iostream> using namespace std;//设定三个数组，判断排序算法代码的正确性 int a[100]{3,4,2,6,9,7,1,0,1,2,3,3,5,6,7,8,3,4,5}; int b[100]{1,5,3,4}; int c[100]{7,8,9,1,2,3};void quickSort(int* num,int l,int r){if(l>r) re…...

编程日记 2024/2/14 3:11:33

CentOS 7.9安装Tesla M4驱动、CUDA和cuDNN

正文共：1333 字 21 图，预估阅读时间：2 分钟上次我们在Windows上尝试用Tesla M4配置深度学习环境（TensorFlow识别GPU难道就这么难吗？还是我的GPU有问题？），但是失败了。考虑到Windows…...

编程日记 2024/2/14 3:06:27

Java设计模式——策略

前言策略模式是平时Java开发中常用的一种，虽然已有很多讲解设计模式的文章，但是这里还是写篇文章来从自己理解的角度讲解一下。使用场景我们不妨进行场景假设，要对我们的软件进行授权管理：在启动我们的软件之前先要校验是否…...

编程日记 2024/2/14 3:00:22

线性代数的本质 1 向量

向量是线性代数中最为基础的概念。何为向量？ 从物理上看， 向量就是既有大小又有方向的量，只要这两者一定，就可以在空间中随便移动。从计算机应用的角度看，向量和列表很接近，可以用来描述某对象的几个不同…...

编程日记 2024/2/14 2:59:21

基于JAVA的贫困地区人口信息管理系统开源项目

目录一、摘要1.1 项目介绍1.2 项目录屏二、功能模块2.1 人口信息管理模块2.2 精准扶贫管理模块2.3 特殊群体管理模块2.4 案件信息管理模块2.5 物资补助模块三、系统设计3.1 用例设计3.2 数据库设计3.2.1 人口表3.2.2 扶贫表3.2.3 特殊群体表3.2.4 案件表3.2.5 物资补助表四…...

编程日记 2024/2/14 2:55:17

【后端高频面试题--Mybatis篇】

🚀 作者 ：“码上有前” 🚀 文章简介 ：后端高频面试题 🚀 欢迎小伙伴们点赞👍、收藏⭐、留言💬 后端高频面试题--Mybatis篇什么是Mybatis？Mybatis的优缺点？Mybatis的特点…...

编程日记 2024/2/14 2:52:14

【笔记】Helm-5 Chart模板指南-12 .helmignore文件

.helmignore文件 .helmignore文件用来指定您不想包含在您的helm chart中的文件。如果该文件存在，helm package命令会在打包应用时忽略所有在.helmignore文件中匹配的文件。有助于避免不需要的或敏感文件及目录添加到您的helm chart中。 .helmignore文件支持Uni…...

编程日记 2024/2/14 2:51:13

【MySQL】表的增删改查（基础）

MySQL表的增删改查（基础） 1. CRUD2. 新增（Create）2.1 单行数据全列插入2.2 多行数据指定列插入 3. 查询（Retrieve）3.1 全列查询3.2 指定列查询3.3 查询字段为表达式3.4 别名3.5 去重：DISTINCT…...

编程日记 2024/2/14 2:46:06

Android矩阵Matrix动画缩放Bitmap移动手指触点到ImageView中心位置，Kotlin

Android矩阵Matrix动画缩放Bitmap移动手指触点到ImageView中心位置，Kotlin 借鉴 Android双指缩放ScaleGestureDetector检测放大因子大图移动到双指中心点ImageView区域中心，Kotlin（2）-CSDN博客在此基础上实现手指在屏幕上点击后&…...

编程日记 2024/2/14 2:43:03

C语言：表达式求值

引言：在笔试中，有一类的题目，题目给出代码，要求分析得出输出结果。这类题目更加考察我们对于运算顺序和运算类型转换的理解。文章介绍了隐式类型转换和操作符注意点，希望增加读者对于表达式求值的理解。 1.隐式类型转…...

编程日记 2024/2/14 2:42:02

GO 的 Web 开发系列（五）—— 使用 Swagger 生成一份好看的接口文档

经过前面的文章，已经完成了 Web 系统基础功能的搭建，也实现了 API 接口、HTML 模板渲染等功能。接下来要做的就是使用 Swagger 工具，为这些 Api 接口生成一份好看的接口文档。一、写注释注释是 Swagger 的灵魂，Swagger 是通过…...

编程日记 2024/2/14 2:34:54

【极数系列】Flink集成KafkaSink 实时输出数据（11）

文章目录 01 引言02 连接器依赖2.1 kafka连接器依赖2.2 base基础依赖 03 使用方法04 序列化器05 指标监控06 项目源码实战6.1 包结构6.2 pom.xml依赖6.3 配置文件6.4 创建sink作业 01 引言 KafkaSink 可将数据流写入一个或多个 Kafka topic 实战源码地址,一键下载可用&#xf…...

编程日记 2024/2/14 2:32:52

我为什么选择Xamarin开发ios app安卓app

临岁之寒简书作者,转载 Xamarin是一项跨平台开发技术，之前是收费的，而且据说收费不菲，所以使用的人数比较少，在国内几乎无人问津。后来Xamarin被微软收购，现已免费开放，相信今后国内的使用人群会大幅地增长…...

编程日记 2024/2/14 2:31:51

安全基础~通用漏洞4

文章目录知识补充XSS跨站脚本**原理****攻击类型**XSS-后台植入Cookie&表单劫持XSS-Flash钓鱼配合MSF捆绑上线ctfshow XSS靶场练习知识补充 SQL注入小迪讲解文件上传小迪讲解文件上传中间件解析 XSS跨站脚本 xss平台： https://xss.pt/ 原理恶意攻击者…...

编程日记 2024/2/14 2:28:45

2024/2/12 图的基础知识 2

目录查找文献 P5318 【深基18.例3】查找文献 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 有向图的拓扑序列 848. 有向图的拓扑序列 - AcWing题库最大食物链计数 P4017 最大食物链计数 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 查找文献 P5318 【深基18.例3】…...

编程日记 2024/2/14 2:27:26

一、小文件产生的原因

二、小文件的危害

三、小文件的解决方案

3.1 小文件的预防

3.1.1 减少Map数量

3.1.2 减少Reduce的数量

3.2 已存在的小文件合并

3.2.1 方式一：insert overwrite (推荐)

3.2.2 方式二：concatenate

3.2.3 方式三：使用hive的archive归档

3.2.4 方式四：hadoop getmerge

相关文章：