当前位置：首页 > news >正文

Hive调优——合并小文件

news 文章来源：https://blog.csdn.net/SHWAITME/article/details/136108785 2024/9/18 5:37:40

一、小文件产生的原因

二、小文件的危害

三、小文件的解决方案

3.1 小文件的预防

3.1.1 减少Map数量

3.1.2 减少Reduce的数量

3.2 已存在的小文件合并

3.2.1 方式一：insert overwrite (推荐)

3.2.2 方式二：concatenate

3.2.3 方式三：使用hive的archive归档

3.2.4 方式四：hadoop getmerge

一、小文件产生的原因

数据源本身就包含大量的小文件，例如api,kafka消息管道等。
动态分区插入数据的时候，会产生大量的小文件，从而导致map数量剧增；；
reduce 数量越多，小文件也越多，小文件数量=ReduceTask数量*分区数；
hive中的小文件是向 hive 表中导入数据时产生；

向 hive 中导入数据的几种方式:

（1）直接向表中插入数据

insert into table t_order2 values (1,'zhangsan',88),(2,'lisi',61);

这种方式每次插入时都会产生一个小文件，多次插入少量数据就会出现多个小文件，故这种方式生产环境基本不使用；

（2）通过load方式加载数据

-- 导入文件
load data local inpath "/opt/module/hive_data/t_order.txt" overwrite into table t_order;
-- 导入文件夹
load data local inpath "/opt/module/hive_data/t_order" overwrite into table t_order;

使用 load方式可以导入文件或文件夹，当导入一个文件时，hive表就有一个文件，当导入文件夹时，hive表的文件数量为文件夹下所有文件的数量；

（3）通过查询方式加载数据

insert overwrite t_order  select oid,uid from t_order2

这种方式是生产环境中经常用的，也是最容易产生小文件的方式。insert 导入数据时会启动MR任务，MR-reduce的个数与输出文件个数一致。

因此，hdfs的文件数量= reduceTask数量* 分区数，有些fetch本地抓取任务（例如：简单的 select * from tableA）仅有map阶段，那此时文件个数 = mapTask数量*分区数

二、小文件的危害

小文件通常是指文件大小要比HDFS块大小（一般是128M）还要小很多的文件。

NameNode在内存中维护整个文件系统的元数据镜像、其中每个HDFS文件元数据信息（位置、大小、分块等）对象约占150字节，如果小文件过多会占用大量内存，会直接影响NameNode性能。相对的，HDFS读写小文件也会更加耗时，因为每次都需要从NameNode获取元信息，并与对应的DataNode建立pipeline连接。
从 Hive 角度看，一个小文件会开启一个 MapTask，一个 MapTask开一个 JVM 去执行，这些任务的启动及初始化，会浪费大量的资源，严重影响性能。

三、小文件的解决方案

小文件的解决思路主要有两个方向：1.小文件的预防；2.已存在的小文件合并

3.1 小文件的预防

通过调整参数进行合并，在 hive 中执行 insert overwrite tableA select xx from tableB 之前设置如下合并参数，即可自动合并小文件。

3.1.1 减少Map数量

在Map前进行输入合并，从而减少mapper任务的数量。

设置map输入时的合并参数：

#执行Map前进行小文件合并
#CombineHiveInputFormat底层是 Hadoop的 CombineFileInputFormat 方法
#此方法是在mapper中将多个文件合成一个split切片作为输入
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; -- 默认#每个Map最大的输入大小(这个值决定了合并后文件的数量)
set mapred.max.split.size=256*1000*100;   -- 256M
#一个节点上split的至少的大小(这个值决定了多个DataNode上的文件是否需要合并)
set mapred.min.split.size.per.node=100*100*100;  -- 100M
#一个交换机下split的至少的大小(这个值决定了多个交换机上的文件是否需要合并)
set mapred.min.split.size.per.rack=100*100*100; -- 100M

设置map端输出时和reduce端输出时的合并参数：

#设置map端输出进行合并，默认为true
set hive.merge.mapfiles = true;
#设置reduce端输出进行合并，默认为false
set hive.merge.mapredfiles = true;
#设置合并文件的大小
set hive.merge.size.per.task = 256*1000*1000;   -- 256M
#当输出文件的平均大小小于该值时，启动一个独立的MapReduce任务进行文件merge
set hive.merge.smallfiles.avgsize=16000000;   -- 16M

启用压缩（小文件合并后，也可以选择启用压缩）

# hive的查询结果输出是否进行压缩
set hive.exec.compress.output=true;
# MapReduce Job的结果输出是否使用压缩
set mapreduce.output.fileoutputformat.compress=true;
#设置压缩方式是snappy
set parquet.compression = snappy;

3.1.2 减少Reduce的数量

#reduce的个数决定了输出的文件的个数，所以可以调整reduce的个数控制hive表的文件数量，
#通过设置reduce的数量，利用distribute by使得数据均衡的进入每个reduce。
#设置reduce的数量有两种方式，第一种是直接设置reduce个数
set mapreduce.job.reduces=10;#第二种是设置每个reduceTask的大小，Hive会根据数据总大小猜测确定一个reduce个数
set hive.exec.reducers.bytes.per.reducer=512*1000*1000; -- 默认是1G，这里为设置为5G#执行以下语句，将数据均衡的分配到reduce中
set mapreduce.job.reduces=10;insert overwrite table A partition(dt)
select * from B
distribute by  cast(rand()*10 as int);解释：如设置reduce数量为10，则使用cast(rand()*10 as int)，生成0-10之间的随机整数，根据【随机整数 % 10】计算分区编号，这样数据就会均衡的分发到各reduce中，防止出现有的文件过大或过小

3.2 已存在的小文件合并

对集群上已存在的小文件进行定时或实时的合并操作，定时操作可在访问低峰期操作，如凌晨2点，合并操作主要有以下几种方式：

3.2.1 方式一：insert overwrite (推荐)

执行流程总体如下：

（1）创建备份表（创建备份表时需和原表的表结构一致）

create table test.table_hive_back like test.table_hive ;

（2）设置合并文件相关参数，并使用insert overwrite 语句读取原表，再插入备份表

设置合并文件相关参数

使用 hive的merger合并参数，在正式 insert overwrite 之前做一个合并，合并的时候注意设置好压缩，不然文件会比较大。

合并文件至备份表中，执行前保证没有数据写入原表

#如果有多级分区，将分区名放到partition中
insert overwrite table test.table_hive_back partition(batch_date) 
select * from test.table_hive;

ps：insert overwrite table test.table_hive_back 备份表的时候，可以使用distribute by 命令设置合并后的batch_date分区下的文件数据量

insert overwrite table 目标表 [partition(hour=...)] select * from 目标表 
distribute by cast( rand() * 具体最后落地生成多少个文件数 as int);

insert overwrite：会重写数据，先进行删除后插入（不用担心如果overwrite失败，数据没了，这里面是有事务保障的）;

distribute by分区：能控制数据从map端发往到哪个reduceTask中，distribute by的分区规则：分区字段的hashcode值对reduce 个数取模后，余数相同的数据会分发到同一个reduceTask中。

rand()函数：生成0-1的随机小数，控制最终输出多少个文件。

# 使用distribute by rand()将数据随机分配给reduce,这样可以使得每个reduce处理的数据大体一致。 避免出现有的文件特别大, 有的文件特别小，例如：控制dt分区目录下生成100个文件，那么hsql如下：
insert overwrite table A partition(dt)select * from B
distribute by cast(rand()*100 as int);#cast(rand()*100 as int) 可以生成0-100的随机整数

如果合并之后的文件竟然还变大了，可能是 select from的原数据是被压缩的，但是insert overwrite目标表的时候，没有设置输出文件压缩功能，解决方案：

# hive的查询结果输出是否进行压缩
set hive.exec.compress.output=true;
# MapReduce Job的结果输出是否使用压缩
set mapreduce.output.fileoutputformat.compress=true;
#设置压缩方式是snappy
set parquet.compression = snappy;

（3）确认表数据一致后，将原表修改名称为临时表tmp，将备份表修改名称为原表

先查看原表和备份表数据量，确保表数据一致

#查看原表和备份表数据量
set hive.compute.query.using.stats=false ;
set hive.fetch.task.conversion=none;
SELECT count(*) FROM test.table_hive;
SELECT count(*) FROM test.table_hive_back ;

将原表修改名称为临时表tmp，将备份表修改名称为原表

alter table test.table_hive rename to test.table_hive_tmp;
alter table test.table_hive_back rename to test.table_hive ;

（4）查看合并后的分区数和小文件数量

正常情况下：hdfs文件系统上的table_hive表的分区数量没有改变，但是每个分区的几个小文件已经合并为一个文件。

#统计合并后的分区数
[atguigu@bigdata102 ~]$ hdfs dfs -ls /user/hive/warehouse/test/table_hive
#统计合并后的分区数下的文件数
[atguigu@bigdata102 ~]$ hdfs dfs -ls /user/hive/warehouse/test/table_hive/batch_date=20210608

例如：

（5）观察一段时间后再删除临时表

drop  table test.table_hive_tmp ;

ps：注意修改hive表名的时候，对应表的存储路径会发生变化，如果有新的任务上传数据到具体路径，需要注意可能需要修改。

3.2.2 方式二：concatenate

对于orc文件，可以使用hive自带的 concatenate 命令，自动合并小文件

#对于非分区表
alter table test concatenate;#对于分区表
alter table test [partition(...)] concatenate
#例如：alter table test partition(dt='2021-05-07',hr='12') concatenate;

注意：

concatenate 命令只支持 rcfile和 orc文件类型。
concatenate命令合并小文件时不能指定合并后的文件数量，但可以多次执行该命令。
当多次使用concatenate后文件数量不变化，这个跟参数 mapreduce.input.fileinputformat.split.minsize=256mb 的设置有关，可设定每个文件的最小size。

3.2.3 方式三：使用hive的archive归档

每日定时脚本，对于已经产生小文件的hive表使用har归档，然后已归档的分区不能insert overwrite ，必须先unarchive

#用来控制归档是否可用
set hive.archive.enabled=true;#通知Hive在创建归档时是否可以设置父目录
set hive.archive.har.parentdir.settable=true;#控制需要归档文件的大小
set har.partfile.size=256000000;#对表的某个分区进行归档
alter table test_rownumber2 archive partition(dt='20230324');#对已归档的分区恢复为原文件
alter table test_rownumber2 unarchive partition(dt='20230324');

3.2.4 方式四：hadoop getmerge

对于txt格式的文件可以使用hadoop getmerge命令来合并小文件。使用 getmerge 命令先合并数据到本地，再通过put命令回传数据到hdfs。

将hdfs上分区为pdate=20220815，文件路径为 /user/hive/warehouse/xxxx.db/xxxx/pdate=20220815/* 下载到linux 本地进行合并文件，本地路径为：/home/hadoop/pdate/20220815

hadoop fs -getmerge /user/hive/warehouse/xxxx.db/xxxx/pdate=20220815/* /home/hadoop/pdate/20220815;

将hdfs源分区数据删除

hadoop fs -rm /user/hive/warehouse/xxxx.db/xxxx/pdate=20220815/*

在hdfs上新建分区

hadoop fs -mkdir -p /user/hive/warehouse/xxxx.db/xxxx/pdate=20220815

将本地合并后的文件回传到hdfs上

hadoop fs -put /home/hadoop/pdate/20220815 /user/hive/warehouse/xxxx.db/xxxx/pdate=20220815/*

参考文章：

HIVE中小文件问题_hive小文件产生的原因-CSDN博客

Hive教程（09）- 彻底解决小文件的问题-阿里云开发者社区

0704-5.16.2-如何使用Hive合并小文件-腾讯云开发者社区-腾讯云

Hive调优——合并小文件

目录一、小文件产生的原因二、小文件的危害三、小文件的解决方案 3.1 小文件的预防 3.1.1 减少Map数量 3.1.2 减少Reduce的数量 3.2 已存在的小文件合并 3.2.1 方式一：insert overwrite (推荐) 3.2.2 方式二：concatenate 3.2.3 方式三&#xff…...

编程日记 2024/2/15 8:08:48

设计模式（行为型模式）责任链模式

目录一、简介二、责任链模式2.1、处理器接口2.2、具体处理器类2.3、使用三、优点与缺点一、简介责任链模式（Chain of Responsibility Pattern）是一种行为设计模式，允许你将请求沿着处理者链进行传递，直到有一个处理者能够处理…...

编程日记 2024/2/15 8:04:44

HTTP和HTTPS区别！

http 是我们几乎天天都要打交道的东西，相关知识点有点多，所以也有不少面试必问的点，这里做了一些整理，帮且大家树立完整的 http 知识体系，对面试官说 so easy HTTP 的特点和缺点特点：无连接、无状态、灵…...

编程日记 2024/2/15 8:03:43

麻将普通胡牌算法(带混)

最近在玩腾讯的麻将游戏,但是经常需要充值,于是就想自己实现一个简单的单机麻将游戏.第一个难点就是实现胡牌的判断.这里写一下心得. 术语本文的胡牌是指手牌构成了3N2的牌型,即一对做将,剩下的牌均为刻子(3张一样的牌)或者顺子(3张连续的牌比如234饼). 下面就是一个14张牌…...

编程日记 2024/2/15 8:01:41

Rust结构体详解：定义、使用及方法

Rust 是一门强调安全性和性能的系统级编程语言，它引入了结构体（struct）作为一种自定义的数据类型，允许程序员以更加灵活的方式组织和操作数据。在本篇博客中，我们将深入探讨 Rust 结构体的定义、使用以及相关概念。什…...

编程日记 2024/2/15 7:58:37

LeetCode、435. 无重叠区间【中等，贪心区间问题】

文章目录前言LeetCode、435. 无重叠区间【中等，贪心区间问题】题目链接及分类思路贪心、区间问题资料获取前言博主介绍：✌目前全网粉丝2W，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技…...

编程日记 2024/2/15 7:48:26

【实战】一、Jest 前端自动化测试框架基础入门（三） —— 前端要学的测试课从Jest入门到TDD BDD双实战（三）

文章目录一、Jest 前端自动化测试框架基础入门7.异步代码的测试方法8.Jest 中的钩子函数9.钩子函数的作用域学习内容来源：Jest入门到TDD/BDD双实战_前端要学的测试课相对原教程，我在学习开始时（2023.08）采用的是当前最新版本&a…...

编程日记 2024/2/15 7:47:26

信息学奥赛一本通1228：书架

1228：书架时间限制: 1000 ms 内存限制: 65536 KB 提交数: 18190 通过数: 10557 【题目描述】 John最近买了一个书架用来存放奶牛养殖书籍，但书架很快被存满了，只剩最顶层有空余。 John共有N�头奶牛(1≤N≤20,0001≤…...

编程日记 2024/2/15 7:45:23

红队打靶练习:GLASGOW SMILE: 1.1

目录信息收集 1、arp 2、nmap 3、nikto 4、whatweb 目录探测 1、gobuster 2、dirsearch WEB web信息收集 /how_to.txt /joomla CMS利用 1、爆破后台 2、登录 3、反弹shell 提权系统信息收集 rob用户登录 abner用户 penguin用户 get root flag 信息收集…...

编程日记 2024/2/15 7:43:21

网络安全的今年：量子、生成人工智能以及 LLM 和密码

尽管世界总是难以预测，但网络安全的几个强劲趋势表明未来几个月的发展充满希望和令人担忧。有一点是肯定的：2024 年将是非常重要且有趣的一年。近年来，人工智能（AI）以令人难以置信的速度发展，其在网络安全…...

编程日记 2024/2/15 7:39:17

【FPGA】Verilog：奇偶校验位发生器 | 奇偶校验位校验器

目录 0x00 奇偶校验位发生器 0x01 奇偶校验位校验器 0x02 错误检测器和纠错器...

编程日记 2024/2/15 7:37:16

【心得】关于STM32中RTC的校准方法

最近看了一些关于RTC校准的帖子，发现很多人存在疑惑。正好最近我也在STM32中实现了RTC校准。发些心得。这些对老手来说有些罗索，但对新手有益处。实现RTC 校准的核心之一是库文件Stm321f0x_bkp.c中的void BKP_SetRTCCalibrationValue (uint8_t Calibra…...

编程日记 2024/2/15 7:36:15

消息中间件面试篇

目录消息中间件 RabbitMQ 消息不丢失生产者确认机制消息持久化交换机持久化队列持久化消息持久化消费者确认消息重复消费出现的场景解决方案每条消息设置一个唯一的标识id 幂等方案：【分布式锁、数据库锁（悲观锁、乐观锁&#…...

编程日记 2024/2/15 7:34:13

【MySQL】-20 MySQL综合-6（MySQL创建数据表+MySQL修改数据表+MySQL删除数据表）

MySQL创建数据表MySQL修改数据表MySQL删除数据表 MySQL创建数据表基本语法在指定的数据库中创建表查看表结构 MySQL修改数据表基本语法添加字段修改字段数据类型删除字段修改字段名称修改表名 MySQL删除数据表基本语法删除表 MySQL创建数据表在创建数据库之后，接下…...

编程日记 2024/2/15 7:31:09

linux查看当前连接的IP

linux下查询当前所有连接的ip_linux查看某个ip的连接-CSDN博客 netstat -ntu | grep tcp | awk {print $5} | cut -d: -f1 | sort | uniq -c | sort -nr...

编程日记 2024/2/15 7:28:00

洛谷_P1923 【深基9.例4】求第 k 小的数_python写法

哪位大佬可以出一下这个的题解？？？？？话说蓝桥杯可以用numpy库吗？？？？？？ 这道题有一个很简单的思路就是排序完成之后再访问。 but有很大的问题&…...

编程日记 2024/2/15 7:26:59

【MySQL】学习约束和使用图形化界面创建表

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 💫个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-iqtbME2KmWpQFQSt {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…...

编程日记 2024/2/15 7:24:55

QGIS编译（跨平台编译）之四十八：pixman编译（Windows、Linux、MacOS环境下编译）

文章目录一、pixman介绍二、pixman下载三、Linux下编译四、MacOS下编译五、Windows下编译一、pixman介绍 Pixman 是一个开源的图形库，它提供了底层像素操作功能，包括像素格式转换、图像合成、图像缩放、图像旋转等多种操作。Pixman 主要被用作 Cairo 图形库的后端，支持 Ca…...

编程日记 2024/2/15 7:21:52

华为数通方向HCIP-DataCom H12-821题库(单选题：441-460）

第441题下面是一台路由输出的信息,关于这段信息描述正确的是 <R1>display bgp peerBGP local router ID : 2.2.2.2Local AS number : 100Total number of peers : 2 Peers in established state : 0Peer V AS MsgRcvd MsgSent OutQ Up/Down …...

编程日记 2024/2/15 7:15:45

【sass】中使用 /deep/ 修改 elementUI 组件样式报错

element plus 想要覆盖组件的样式，想到了/deep/样式穿透，但样式一直不生效，代码如下： <style scoped lang"sass"> .main_wrapper{padding: 0 53pxposition: relativetop: -20px } >>> .el-tabs__item{h…...

编程日记 2024/2/15 7:11:42

Python算法题集_排序链表

Python算法题集_排序链表题148：排序链表1. 示例说明2. 题目解析- 题意分解- 优化思路- 测量工具 3. 代码展开1) 标准求解【冒泡大法】2) 改进版一【列表排序】3) 改进版二【数值归并排序】4) 改进版三【快慢指针归并排序】 4. 最优算法本文为Python算法题集之一的…...

编程日记 2024/2/15 7:09:39

红日靶场2学习

靶场下载来自： http://vulnstack.qiyuanxuetang.net/vuln/detail/3/ 靶场统一登录密码：1qazWSX 按大佬的说法是环境需要模拟内网和外网两个网段，PC端虚拟机相当于网关服务器，所以需要两张网卡，一个用来向外网提供web…...

编程日记 2024/2/15 7:07:35

将下载下来的 jar 包安装到本地的 maven 仓库中

使用管理员权限打开一个 cmd 窗口输入 mvn -v 查看 maven 版本由于之前并没有这样的操作所以第一次执行的时候提示命令不存在所以需要将 maven 软件中的 bin 文件的目录添加到环境变量中的 path 变量中本机路径为:D:\Program Files (x86)\apache-maven-3.5.2\bin C:\…...

编程日记 2024/2/15 7:05:33

Qt初使用（使用Qt创建项目，在创建的项目中添加类，Qt中输出内容到控制台，设置窗口大小和窗口标题，Qt查看说明文档）

目录一.创建带模板的项目新建项目运行在文件中查看该项目文件二.在创建好的项目中添加类三.创建空项目（不使用自带的模板）四.Qt中输出内容到控制台五.设置窗口大小 , 窗口标题 ,固定窗口大小QWidget组件的说明六.Pro文件帮助文档按windows键&#xf…...

编程日记 2024/2/15 7:03:31

【黑马程序员】C++运算符重载

文章目录运算符重载加号运算符重载成员函数实现运算符重载全局函数实现运算符重载全局函数实现函数重载左移运算符重载递增运算符重载赋值运算符重载关系运算符重载函数调用运算符重载运算符重载对已有的运算符重新进行定义，赋予其另一种功能，以适应…...

编程日记 2024/2/15 7:01:29

Java中的乐观锁和悲观锁

使用场景及用法悲观锁总是假设最坏的情况，每次去拿数据的时候都认为别人会修改，所以每次在拿数据的时候都会上锁，这样别人想拿这个数据就会阻塞直到它拿到锁（共享资源每次只给一个线程使用，其它线程阻塞，…...

编程日记 2024/2/15 6:59:27

从Unity到Three.js（计时器、Transform）

计时器、模型对象平移函数、枚举定义的使用对应unity中的一些常用功能 import * as THREE from three;const scene new THREE.Scene(); const camera new THREE.PerspectiveCamera(60, window.innerWidth / window.innerHeight, 0.1, 1000);const renderer new THREE.WebG…...

编程日记 2024/2/15 6:56:23

红日靶场（初学）

按照以前的来说一般是有两层网络的内网和外网这个也是这样的所以需要两张网卡，一个用来向外网提供web服务，一个是通向内网以下就是配置以下就是一些相关信息外网网段是写成了192.168.111.1/24 WEB PC DC kali 开始扫描 nmap -sS -sV -Pn -T4 19…...

编程日记 2024/2/15 6:55:21

【PyTorch】改变张量(Tensor)形状操作

PyTorch深度学习总结第二章 PyTorch中改变张量(Tensor)形状操作文章目录 PyTorch深度学习总结一、前言二、改变张量形状一、前言上文讲解了张量生成和信息获取的知识，本文将针对张量的操作进行详细讲解。二、改变张量形状 1、改变张量形状的函数总结&#x…...

编程日记 2024/2/15 6:53:19

《金融人工智能：用python实现ai量化交易》

融合了数学、python、深度学习以及金融知识，是本推荐的好书。请收藏本文，读后再给大学总结。...

编程日记 2024/2/15 6:52:18

位运算+leetcode ( 2 )

题一：只出现一次的数字（1） 1.链接 136. 只出现一次的数字 - 力扣（LeetCode） 2.思想借用位运算中异或操作符的特点，a^a0，0^aa先定义一个sum0就用一个循环来遍历这个数组，每次都进行…...

编程日记 2024/2/15 6:42:02

17 ABCD数码管显示与动态扫描原理

1. 驱动八位数码管循环点亮 1.1 数码管结构图数码管有两种结构，共阴极和共阳极，ACX720板上的是共阳极数码管，低电平点亮。 1.2 三位数码管等效电路图为了节约I/O接口，各个数码管的各段发光管被连在一起，通过sel端…...

编程日记 2024/2/15 6:41:01

【Zigbee课程设计系列文章】Zigbee开发环境搭建

【Zigbee课程设计系列文章】Zigbee开发环境搭建前言IAR 下载安装Z-Stack协议栈安装 🎊项目专栏：【Zigbee课程设计系列文章】（附详细使用教程完整代码原理图完整课设报告） 前言 👑由于无线传感器网络（也即…...

编程日记 2024/2/15 6:33:54

[Linux开发工具]项目自动化构建工具-make/Makefile

📙 作者简介 ：RO-BERRY 📗 学习方向：致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 📒 日后方向 : 偏向于CPP开发以及大数据方向，欢迎各位关注，谢谢各位的支持目录 1.背景2.依赖关系和依…...

编程日记 2024/2/15 6:32:53

PLC_博图系列☞参数实例

PLC_博图系列☞参数实例文章目录 PLC_博图系列☞参数实例背景介绍参数实例参数实例的工作原理创建参数实例将实例作为参数传送关键字： PLC、西门子、博图、 Siemens 、参数实例背景介绍这是一篇关于PLC编程的文章，特别是关于西门子的博图软件…...

编程日记 2024/2/15 6:29:50

LLaMA 2 和 QianWen-14B

阿里云通义千问14B模型开源！性能超越Llama2等同等尺寸模型 - 科技新闻 - EDA365电子论坛网 LLaMA 2 的硬件要求： LLaMA 2 系列模型有不同的参数量版本，如7B、13B和70B等。对于不同大小的模型，其硬件需求也有所不同。以下是一些硬…...

编程日记 2024/2/15 6:28:49

浅谈Java常见设计模式及实例

前言 Java 中常用的设计模式有很多种，其实平常用到的还比较少，但是还是有必要了解一下，可以按照实际情况运用到我们的代码中。按照类型可以基本分解为，创建型模式、结构型模式和行为型模式。创建型模式 (Creational Patterns) 1…...

编程日记 2024/2/15 6:25:46

【RISC-V DSP设计】基于CEVA DSP架构的指令集分析（一）-总体介绍

目录一、引言二、CEVA-BX1™ DSP Library 概述三、CEVA-BX1™ DSP Library 功能与特点四、CEVA-BX1™ DSP Library 优势今天开始我们继续对CEVA DSP的架构和指令集进行分析，基于对CEVA DSP的分析和了解，后续可以进行基于RISC-V内核架构的DSP指令…...

编程日记 2024/2/15 6:24:45

Rust标量类型详解

在Rust中，数据类型分为标量类型和复合类型。本篇博客将重点介绍Rust的标量类型，其中包括整数类型、浮点类型、布尔类型以及字符类型。整数类型 Rust提供了多种整数类型，分为带符号整数和无符号整数。带符号整数表示可以为正数、零或负数&a…...

编程日记 2024/2/15 6:22:43

【双指针】【C++算法】1537. 最大得分

作者推荐【深度优先搜索】【树】【图论】2973. 树中每个节点放置的金币数目本文涉及知识点双指针 LeetCoce 1537. 最大得分你有两个有序且数组内元素互不相同的数组 nums1 和 nums2 。一条合法路径定义如下： 选择数组 nums1 或者 nums2 开始遍历&…...

编程日记 2024/2/15 6:15:36

golang常用库之-操作数据库ORM：GORM 包介绍 | 一些 GORM 提示和注意事项

文章目录 golang操作数据库ORM：GORM 包介绍及实战一、什么是GORM 包二、GORM基本使用官方快速开始demo 一些 GORM 提示和注意事项参考 golang操作数据库ORM：GORM 包介绍及实战一、什么是GORM 包官网：https://gorm.io/ github&#xff1a…...

编程日记 2024/2/15 6:13:33

Stream流学习笔记

Stream流创建流中间操作1、filter2、map3、distinct4、sorted5、limit6、skip7、flatMap 终结操作1、forEach2、count3、max&min4、collect5、查找与匹配创建流单例集合：集合对象.stream() List<Integer> list new ArrayList<>(); Stream<…...

编程日记 2024/2/15 6:11:31

单片机——FLASH（2）

文章目录 flash （stm32f40x 41x的内存映射中区域详解）flash写数据时 flash （stm32f40x 41x的内存映射中区域详解） Main memory 主存储区放置代码和常数 System memory 系统存储区方式bootloader代码 OTP区一次性可编程区选项…...

编程日记 2024/2/15 6:08:29

个体诊所门诊电子处方开单管理系统软件，配方模板病历模板设置一键导入操作教程

个体诊所门诊电子处方开单管理系统软件，配方模板病历模板设置一键导入操作教程一、前言以下操作教程以佳易王诊所电子处方软件V17.2为例说明，最新版V17.3下载可以点击最下方官网卡片了解。 1、在现实生活中，医师开单可谓是争分夺秒&…...

编程日记 2024/2/15 6:06:27

ELAdmin 配置定时任务

定义方法在自己的 Module 中写个要执行的方法。比如获取微信公众号的 accessToken，每两个小时更新一次。这种的其实使用 Spring 的 Scheduled 更方便些，此处仅为演示。 package me.zhengjie.mp.task;import com.alibaba.fastjson.JSON; import lombo…...

编程日记 2024/2/15 6:05:26

【服务器部署】Docker环境的安装

基于CentOS系统的服务器环境下安装Docker环境，安装步骤参考官方指南：https://docs.docker.com/engine/install/centos/ 配置库 sudo yum install -y yum-utils sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-c…...

编程日记 2024/2/15 6:04:25

leetcode刷题--贪心算法

七. 贪心算法文章目录七. 贪心算法1. 605 种花问题2. 121 买卖股票的最佳时机3. 561 数组拆分4. 455 分发饼干5. 575 分糖果6. 135 分发糖果7. 409 最长回文串8. 621 任务调度器9. 179 最大数10. 56 合并区间11. 57 插入区间13. 452 用最少数量的箭引爆气球14. 435 无重叠区间…...

编程日记 2024/2/15 6:02:22

《Java 简易速速上手小册》第5章：Java 开发工具和框架（2024 最新版）

文章目录 5.1 Maven 和 Gradle - 构建你的堡垒5.1.1 基础知识5.1.2 重点案例：使用 Maven 构建一个简单的 Java 应用5.1.3 拓展案例 1：使用 Gradle 构建一个 Spring Boot 应用5.1.4 拓展案例 2：使用 Maven 管理多模块项目 5.2 Spring 框架 - 你…...

编程日记 2024/2/15 5:59:18

Python json解析

在Python中解析JSON（JavaScript Object Notation）非常简单，标准库中的json模块提供了必要的功能。JSON是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。以下是使用Python解析JSON的一些基本…...

编程日记 2024/2/15 5:57:16

[FFmpeg学习]从视频中获取图片

从视频中获取图片是一个比较直观的例子，这里从一个基础的例子来查看FFmpeg相关api的使用，从mp4文件中获取一帧图像，保存为jpeg格式图片，mp4文件比较好准备，一般手机录屏文件就是mp4格式。原理还是比较清楚&#xff0…...

编程日记 2024/2/15 5:55:15

一、小文件产生的原因

二、小文件的危害

三、小文件的解决方案

3.1 小文件的预防

3.1.1 减少Map数量

3.1.2 减少Reduce的数量

3.2 已存在的小文件合并

3.2.1 方式一：insert overwrite (推荐)

3.2.2 方式二：concatenate

3.2.3 方式三：使用hive的archive归档

3.2.4 方式四：hadoop getmerge

相关文章：