Python批量合并多个PDF
在日常工作中,处理和合并多个 PDF 文件是一个常见需求,尤其是在需要将大量文件整理成一个完整文档时。本文将详细介绍如何使用 Python 的 PyMuPDF
库来实现批量 PDF 文件合并,并提供针对大文件优化的解决方案。
安装 PyMuPDF
要使用 PyMuPDF,需要先安装这个库。可以通过以下命令安装:
pip install pymupdf
安装完成后,PyMuPDF
将作为 fitz
模块导入。
基础方法:合并两个 PDF 文件
PyMuPDF
中的 Document.insert_pdf()
方法支持将一个 PDF 文档的内容插入到另一个文档的指定位置,这样我们就能非常轻松地实现两个 PDF 文件的合并。例如:
import fitz # 导入 PyMuPDFdef merge_two_pdf(pdf1_path: str, pdf2_path: str, output_pdf: str):pdf1 = fitz.open(pdf1_path)pdf2 = fitz.open(pdf2_path)pdf1.insert_pdf(pdf2)pdf1.save(output_pdf, garbage=4) # 保存结果到指定路径pdf1.close()pdf2.close()
这个函数 merge_two_pdf
接受两个 PDF 文件路径,并将它们合并为一个新的 PDF 文件。garbage=4
参数可以在保存时移除不必要的对象,从而减小输出文件的大小。
批量合并多个 PDF 文件
如果需要合并的 PDF 文件不止两个,可以创建一个循环来遍历文件列表,将每个文件依次添加到目标 PDF 中:
def merge_pdfs(input_files: list, output_file: str):final_pdf = fitz.open() # 创建空的 PDF 对象for temp_file in input_files:with fitz.open(temp_file) as temp_pdf:final_pdf.insert_pdf(temp_pdf) # 插入每个 PDF 文件final_pdf.save(output_file, garbage=4) # 保存最终合并结果final_pdf.close()print(f"合并完成,输出文件为:{output_file}")
在 merge_pdfs
函数中,input_files
是一个包含多个 PDF 文件路径的列表,该函数将所有文件合并到一个目标 PDF output_file
中。
注意事项
当文件数量多、单个 PDF 文件特别大时,上述方法可能会导致内存占用过高。在这种情况下,可以使用以下优化策略来提高内存和时间效率。
针对大文件的优化策略
如果需要合并的 PDF 文件很多,或者单个文件特别大,直接合并会占用大量内存。以下是一些优化策略:
- 分批处理并写入:大量文件时可以分批加载和合并,避免一次性加载所有文件。例如,处理一组文件后就保存一次部分结果并释放内存。
- 避免逐页插入:对于多页文件,可以直接将整个 PDF 插入到目标文档中,而不是逐页插入,从而减少
insert_pdf
的调用次数。 - 多次保存分批结果,避免中间缓存:每处理完一组文件后保存为一个中间文件,继续合并下一组文件。最终将所有中间文件合并。
- 利用磁盘而非内存:采用文件缓存方式,将中间文件写入磁盘。合并完成后,删除不再需要的中间文件。
优化代码示例
以下代码展示了如何分批合并 PDF 文件,适合大文件和文件数非常多的情况:
import os
import fitz # 导入 PyMuPDFdef merge_two_pdf(pdf1_path: str, pdf2_path: str, output_pdf: str):"""合并 pdf1 和 pdf2 输出到 output_pdf,并删除临时文件"""pdf1 = fitz.open(pdf1_path)pdf2 = fitz.open(pdf2_path)pdf1.insert_pdf(pdf2)pdf1.save(output_pdf, garbage=4) # 保存结果pdf1.close()pdf2.close()if pdf1_path.endswith('.tmp'):os.remove(pdf1_path)if pdf2_path.endswith('.tmp'):os.remove(pdf2_path)def merge_pdfs(input_files: list, output_file: str):tmp_count = 0while len(input_files) > 2:merged_files = []for i in range(0, len(input_files), 2):if i + 1 < len(input_files):tmp_file = f"{output_file}{tmp_count}.tmp"merge_two_pdf(input_files[i], input_files[i + 1], tmp_file)merged_files.append(tmp_file)tmp_count += 1else:merged_files.append(input_files[i])input_files = merged_filesmerge_two_pdf(input_files[0], input_files[1], output_file) # 保存最终结果
代码解析
merge_two_pdf
函数负责合并两个 PDF 文件,并在合并后删除临时文件。merge_pdfs
函数使用循环批量合并文件。每次迭代中,它将文件成对合并为一个临时文件,添加到列表merged_files
,以便下一次迭代使用。- 最终,合并后的文件保存在
output_file
中。
示例调用
假设我们有一组 PDF 文件 file1.pdf
, file2.pdf
, file3.pdf
等:
input_files = ["file1.pdf", "file2.pdf", "file3.pdf", "file4.pdf"]
output_file = "merged_output.pdf"
merge_pdfs(input_files, output_file)
总结
本文介绍了使用 PyMuPDF
库批量合并多个 PDF 文件的方法,并针对大文件或大量文件的情况提供了优化方案。
相关文章:
Python批量合并多个PDF
在日常工作中,处理和合并多个 PDF 文件是一个常见需求,尤其是在需要将大量文件整理成一个完整文档时。本文将详细介绍如何使用 Python 的 PyMuPDF 库来实现批量 PDF 文件合并,并提供针对大文件优化的解决方案。 安装 PyMuPDF 要使用 PyMuPD…...
Linux:vim命令总结及环境配置
文章目录 前言一、vim的基本概念二、vim模式命令解析1. 命令模式1)命令模式到其他模式的转换:2)光标定位:3)其他命令: 2. 插入模式3. 底行模式4. 替换模式5. 视图模式6. 外部命令 三、vim环境的配置1. 环境…...
贪心算法day05(k次取反后最大数组和 田径赛马)
目录 1.k次取反后最大化的数组和 2.按身高排序 3.优势洗牌 1.k次取反后最大化的数组和 题目链接:. - 力扣(LeetCode) 思路: 代码: class Solution {public int largestSumAfterKNegations(int[] nums, int k) {//如…...
默认 iOS 设置使已锁定的 iPhone 容易受到攻击
苹果威胁研究的八个要点 苹果手机间谍软件问题日益严重 了解 Apple 苹果的设备和服务器基础模型发布 尽管人们普遍认为锁定的 iPhone 是安全的,但 iOS 中的默认设置可能会让用户面临严重的隐私和安全风险。 安全研究员 Lambros 通过Pen Test Partners透露&#…...
上海市计算机学会竞赛平台2024年11月月赛丙组
题目描述 在一个棋盘上,有两颗棋子,一颗棋子在第 aa 行第 bb 列,另一个颗棋子在第 xx 行第 yy 列。 每一步,可以选择一个棋子沿行方向移动一个单位,或沿列方向移动一个单位,或同时沿行方向及列方向各移动…...
Python批量设置图片背景为透明
我们日常生活中制作PPT等教学资源时,需要批量去除图片背景,就可以使用 Python 的 rembg 库。 这个库基于神经网络模型,去背景效果较好,可以批量处理png, jpg, jpeg等图片。采用以下代码可以批量处理当前目录下的所有图片…...
Vue CLI 脚手架
cli脚手架创建项目步骤 全局安装(一次):yarn global add vue/cli 无法识别yarn的要先安装yarn;终端执行npm install -g yarn 查看Vue版本:vue --version 这里有问题(success上方有warning) 报错:‘vue’不是内部或外部…...
Linux【基础篇】
-- 原生罪 linux的入门安装学习 什么是操作系统? 用户通过操作系统和计算机硬件联系使用。桥梁~ 什么是Linux? 他是一套开放源代码(在互联网上找到Linux系统的源代码,C语言写出的软件),可以自由 传播&…...
多线程环境下安全地使用 SimpleDateFormat的常见方法
文章目录 1. 使用局部变量(每个线程独立一个实例)2. 使用 ThreadLocal<SimpleDateFormat>3. 使用 DateTimeFormatter(Java 8 及以上)4. 使用 DateFormat 子类(如 FastDateFormat)5. 使用 synchronize…...
easyexcel实现自定义的策略类, 最后追加错误提示列, 自适应列宽,自动合并重复单元格, 美化表头
easyexcel实现自定义的策略类, 最后追加错误提示列, 自适应列宽,自动合并重复单元格, 美化表头 原版表头和表体字体美化自动拼接错误提示列自适应宽度自动合并单元格使用Easyexcel使用poi导出 在后台管理开发的工作中,离不开的就是导出excel了. 如果是简单的导出, 直接easyexce…...
ANDROIDWORLD: A Dynamic Benchmarking Environment for Autonomous Agents论文学习
这个任务是基于androidenv的。这个环境之前学过,是一个用来进行强化学习的线上环境。而这篇文章的工作就是要给一些任务加上中间的奖励信号。这种训练环境的优点就是动态,与静态的数据集(比如说我自己的工作)不同,因此…...
Docker 常用命令详解(详细版)
Docker 是一个开源的容器化平台,它使得开发人员可以打包应用程序及其所有依赖项,并在任何环境中运行。Docker 提供了简单而强大的命令行工具来管理容器、镜像、网络等。本文将详细介绍 Docker 的常用命令及其使用方法。 1. 安装 Docker 在使用 Docker …...
【网络安全 | 甲方安全建设】分布式系统、Redis分布式锁及Redisson看门狗机制
未经许可,不得转载。 文章目录 分布式系统分布式系统的核心特性分布式系统的典型架构分布式锁概念Redis 分布式锁原理互斥性锁释放锁的唯一性具体实现Redisson分布式锁分布式系统 分布式系统是一种由多台计算机(节点)组成的系统,这些节点通过网络相互连接并协同工作,共同…...
「QT」几何数据类 之 QLineF 浮点型直线类
✨博客主页何曾参静谧的博客📌文章专栏「QT」QT5程序设计📚全部专栏「VS」Visual Studio「C/C」C/C程序设计「UG/NX」BlockUI集合「Win」Windows程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「PK」Parasolid…...
Treeland 技术揭秘,如何使得 DDE 纵享丝滑?
近日,deepin(深度)社区亮相COSCon24 第九届中国开源年会开源市集,且社区资深桌面研发工程师张丁元为大家来了《Treeland,DDE进步的阶梯》技术分享。 就着这个机会,今天就让我们一起来聊聊如何在追求华丽动…...
快速了解SpringBoot 统一功能处理
拦截器 什么是拦截器: 拦截器是Spring框架提供的重要功能之一,主要进行拦截用户请求,在指定方法前后,根据业务需求,执行预先设定的代码。 也就是说,允许开发⼈员提前预定义⼀些逻辑,在⽤⼾的请求响应前后执⾏.也可以…...
C++区分数组的引用和引用的数组
void f(int (&arr)[10]) {//正确} void f1(int &arr[10]) {//不允许使用引用的数组} [](数组下标运算符)的优先级高于&(取地址运算符)。所有表达式&arr[i]等价于&(arr[i]) 引用的数组 一个包含引用的数组&…...
【harbor】离线安装2.9.0-arm64架构服务制作和升级部署
harbor官网地址:Harbor 参考文档可以看这里:部署 harbor 2.10.1 arm64 - 简书。 前提环境准备: 安装docker 和 docker-compose 先拉arm64架构的harbor相关镜像 docker pull --platformlinux/arm64 ghcr.io/octohelm/harbor/harbor-regist…...
ESLint 使用教程(五):ESLint 和 Prettier 的结合使用与冲突解决
前言 在现代前端开发中,代码质量与代码风格的统一是两个非常重要的方面。良好的代码质量能减少 bug 的产生,而统一的代码风格则能提高团队协作的效率。为了实现这两个目标,我们通常会使用一些工具。 为了保证代码的可读性和维护性࿰…...
uniApp之uni-file-picker使用踩坑
标题党~也不算坑吧 就是初体验 上传是需要存储一下子的,我以为uniApp是自己免费开的服务给大家中转使用,就没管这个事,但是官网是这么说的: 就我是怎么发现的,使用了一段时间后,上传的图片都裂了ÿ…...
【C语言】。末尼
用js写一个冒泡排序 当然可以。在JavaScript中,你可以使用递归的方式来实现冒泡排序算法。这是一个简单的示例: function bubbleSort(arr) { let len arr.length; if(len < 1){ return arr; // 如果数组只有一个元素或为空…...
【鉴权】深入解析 Token:身份认证的核心技术
目录 引言一、Token 的定义与概念1.1 Token 是什么?1.2 无状态性与自包含性1.3 Token 的工作流程1.3.1 基本工作流程1.3.2 工作流程图示 二、Token 的常见用途2.1 用户身份验证2.2 授权控制2.3 防止跨站请求伪造(CSRF)2.4 跨域认证 三、Token…...
FastReport将停止 .NET Framework 上的 WebReport 更新
从2024/ 12 /1 日起,Fastreport将停止发布更新和提供对 FastReport.Web (.NET Framework) 的技术支持。该库一直是使用 Online Designer 的许多项目中报告的核心。这些更改意味着 FastReport.Web (Legacy) 库(FastReport.Net包的一部分)将不再…...
面试:TCP、UDP如何解决丢包问题
文章目录 一、TCP丢包原因、解决办法1.1 TCP为什么会丢包1.2 TCP传输协议如何解决丢包问题1.3 其他丢包情况(拓展)1.4 补充1.4.1 TCP端口号1.4.2 多个TCP请求的逻辑1.4.3 处理大量TCP连接请求的方法1.4.4 总结 二、UDP丢包2.1 UDP协议2.1.1 UDP简介2.1.2…...
在Ubuntu下安装RabbitMQ、添加一个新的登录用户并设置密码
在Ubuntu下安装RabbitMQ、添加一个新的登录用户并设置密码 在Ubuntu下安装RabbitMQ可以按照以下步骤进行:步骤 1: 更新系统步骤 2: 安装Erlang步骤 3: 添加RabbitMQ仓库步骤 4: 更新APT索引并安装RabbitMQ步骤 5: 启动RabbitMQ服务步骤 6: 检查RabbitMQ状态步骤 7: …...
HTTPS通信和TCP通信有什么不一样
HTTPS通信和TCP通信的主要区别如下: 协议层次:HTTPS是应用层协议,建立在HTTP协议之上,并增加了SSL/TLS加密层;而TCP是传输层协议,提供可靠的数据传输服务。安全性:HTTPS通过SSL/TLS加密…...
Kafka 的一些问题,夺命15连问
kafka-中的组成员 kafka四大核心 生产者API 允许应用程序发布记录流至一个或者多个kafka的主题(topics)。 消费者API 允许应用程序订阅一个或者多个主题,并处理这些主题接收到的记录流 StreamsAPI 允许应用程序充当流处理器(s…...
unity3d————延时函数
1.public void InvokeRepeating(string methodName, float time, float repeatRate); 延迟重复执行函数 InvokeRepeating 参数一:函数名字符串 参数二:第一次执行的延迟时间 参数三:之后每次执行的间隔时间 注意: 1-1.延时函数第…...
计算机学生自我提升方法——善用搜索引擎
计算机学生自我提升方法——善用搜索引擎 在信息爆炸的时代,计算机专业的学生如何有效地自我提升?答案可能就藏在一个简单却强大的工具——搜索引擎中。搜索引擎不仅是获取知识的入口,更是解决问题的利器。下面,我将分享一些善用…...
游戏引擎学习第一天
视频参考: https://www.bilibili.com/video/BV1zGDCYHErA/ 创建一个保存项目的路径 VS的安装略过,个人自行百度 1. vs 创建第一个CMAKE的窗口项目 game.cpp 修改如下的代码 到https://learn.microsoft.com/en-us/windows/win32/api/winbase/nf-winbase-winmain 去…...
汕头市网站建设分站服务机构/互联网平台有哪些
制作u盘系统选什么模式呢?随着U盘装系统渐渐的成为主流,各种各样的U盘启动盘制作工具层出不穷,但真正使用的时候看到写入模式有4-5种的时候,启动盘选什么模式呢?你是否也一脸的懵逼不知道该选择哪一种,今天…...
江苏城乡建设部网站/关键词查询工具有哪些
2019独角兽企业重金招聘Python工程师标准>>> 文章 由 flycarl 在 21 Dec 2010 创建 最后由 hamishwillee 在 13 Jun 2012 编辑 Contents 1 简介 2 代码浏览 2.1 定位器(locator) 3 代码编辑 4 断点调试 5 平台管理 6 项目管理 6.1 编译参数(B…...
做网站建设网站制作/百度竞价排名正确解释
CGI编程1)在WEB服务器上添加WML的MIME类型对于IIS4,可在其管理器里的站点属性中加入新的MIME类型,后缀.wml和 MIME类型text/vnd.wap.wml。对于PWS,可修改注册表,先在 HKEY_CLASSES_ROOT层加入主键.wml,再加入串值Conte…...
网站建设保障措施/推广普通话的内容
CP/IP模型是互联网的基础。想要理解互联网,就必须理解这个模型。但是,它不好懂,我就从来没有搞懂过。前几天,BetterExplained上有一篇文章,很通俗地解释了这个模型。我读后有一种恍然大悟的感觉,第一次感到…...
威海市环翠区建设局网站/网络促销方案
2019独角兽企业重金招聘Python工程师标准>>> 概述 Group by 既将数据分组后处理 一般结合sum、count等使用 Group By用法 SELECT column_name, aggregate_function(column_name) FROM table_name WHERE column_name operator value GROUP BY column_name 注意&#…...
可以做百度百科参考资料的网站/百度开发者平台
2015-12-30转载于:https://www.cnblogs.com/zhengfengyun/p/5089186.html...