当前位置: 首页 > news >正文

Python PDF处理模块pypdf库详解


概要

PDF(Portable Document Format)是一种常见的文档格式,广泛用于存储和共享文本和图像数据。在 Python 中,有许多库可以用于处理 PDF 文件,其中之一就是 PyPDF。PyPDF 是一个功能强大的库,它允许你读取、创建和操作 PDF 文件。本文将介绍 PyPDF 的基本概念、安装方法以及一些常见的用法示例,以帮助大家开始使用 PyPDF 处理 PDF 文件。


什么是 PyPDF?

PyPDF 是一个用于处理 PDF 文件的 Python 库。它提供了一组工具和功能,用于读取、解析和操作 PDF 文件的内容。

安装 PyPDF

要开始使用 PyPDF,首先需要安装它。可以使用 pip 命令来安装 PyPDF2(PyPDF 的常用版本):

pip install PyPDF2

安装完成后,就可以在 Python 中导入 PyPDF2 模块,并开始处理 PDF 文件。

基本用法示例

1. 读取 PDF 文件内容

使用 PyPDF,可以轻松读取 PDF 文件中的文本内容。

以下是一个示例,演示了如何打开一个 PDF 文件并提取其文本内容:

import PyPDF2# 打开 PDF 文件
pdf_file = open('example.pdf', 'rb')# 创建 PDF 读取器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)# 获取 PDF 文件中的页数
num_pages = pdf_reader.numPages# 读取每一页的文本内容
for page_num in range(num_pages):page = pdf_reader.getPage(page_num)text = page.extractText()print(f'Page {page_num + 1}:\n{text}\n')# 关闭 PDF 文件
pdf_file.close()

2. 创建新的 PDF 文件

PyPDF 也可以创建新的 PDF 文件。

以下是一个示例,演示了如何创建一个空白的 PDF 文件并添加一些文本内容:

import PyPDF2# 创建一个新的 PDF 文件
pdf_file = open('new_document.pdf', 'wb')# 创建 PDF 写入器对象
pdf_writer = PyPDF2.PdfFileWriter()# 创建一个 PDF 页
page = PyPDF2.PdfFileReader('blank_page.pdf').getPage(0)# 添加文本到页中
page.mergeTranslatedPage(page, 100, 200)
pdf_writer.addPage(page)# 将写入的内容保存到文件中
pdf_writer.write(pdf_file)# 关闭 PDF 文件
pdf_file.close()

3. 合并多个 PDF 文件

有时候可能需要合并多个 PDF 文件成一个文件。PyPDF 提供了合并 PDF 文件的功能。

以下是一个示例,演示了如何合并两个 PDF 文件:

import PyPDF2# 打开两个 PDF 文件
pdf1 = open('file1.pdf', 'rb')
pdf2 = open('file2.pdf', 'rb')# 创建 PDF 读取器对象
pdf_reader1 = PyPDF2.PdfFileReader(pdf1)
pdf_reader2 = PyPDF2.PdfFileReader(pdf2)# 创建 PDF 写入器对象
pdf_writer = PyPDF2.PdfFileWriter()# 将两个 PDF 文件的页面添加到写入器中
for page_num in range(pdf_reader1.numPages):page = pdf_reader1.getPage(page_num)pdf_writer.addPage(page)for page_num in range(pdf_reader2.numPages):page = pdf_reader2.getPage(page_num)pdf_writer.addPage(page)# 创建一个新的合并后的 PDF 文件
merged_pdf = open('merged.pdf', 'wb')
pdf_writer.write(merged_pdf)# 关闭所有文件
pdf1.close()
pdf2.close()
merged_pdf.close()

更多功能

1. 旋转 PDF 页

有时候,可能需要旋转 PDF 文件中的某些页面,以使其更容易阅读或打印。PyPDF2 可以旋转 PDF 页,可以选择逆时针或顺时针旋转。

以下是一个示例,演示如何旋转一个 PDF 文件中的所有页面:

import PyPDF2# 打开 PDF 文件
pdf_file = open('example.pdf', 'rb')# 创建 PDF 读取器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)# 创建 PDF 写入器对象
pdf_writer = PyPDF2.PdfFileWriter()# 逆时针旋转每一页并添加到写入器中
for page_num in range(pdf_reader.numPages):page = pdf_reader.getPage(page_num)page.rotateClockwise(90)  # 旋转90度pdf_writer.addPage(page)# 创建一个新的旋转后的 PDF 文件
rotated_pdf = open('rotated.pdf', 'wb')
pdf_writer.write(rotated_pdf)# 关闭所有文件
pdf_file.close()
rotated_pdf.close()

在这个示例中,打开一个 PDF 文件,逆时针旋转了每一页,并将它们添加到一个新的 PDF 文件中,从而实现了页面的旋转。

2. 处理 PDF 表单

PDF 文件中的表单通常包含文本字段、复选框、下拉框等。PyPDF2 可以处理 PDF 表单数据,包括填写表单和提取表单数据。

以下是一个示例,演示如何使用 PyPDF2 处理 PDF 表单:

import PyPDF2# 打开 PDF 文件
pdf_file = open('form.pdf', 'rb')# 创建 PDF 表单对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
pdf_writer = PyPDF2.PdfFileWriter()# 填写表单字段
pdf_writer.updatePageFormFieldValues(pdf_reader.getPage(0), {'Name': 'John Doe','Email': 'johndoe@email.com','Country': 'USA'
})# 创建一个新的带有填写后表单的 PDF 文件
filled_form_pdf = open('filled_form.pdf', 'wb')
pdf_writer.write(filled_form_pdf)# 关闭所有文件
pdf_file.close()
filled_form_pdf.close()

在这个示例中,打开一个包含表单的 PDF 文件,然后使用 updatePageFormFieldValues 方法填写表单字段,并将填写后的表单保存为一个新的 PDF 文件。

3. PDF 加密和解密

保护 PDF 文件的机密性是一个重要问题,PyPDF2 可以对 PDF 文件进行加密和解密。

以下是一个示例,演示如何加密和解密 PDF 文件:

加密 PDF 文件

import PyPDF2# 打开 PDF 文件
pdf_file = open('document.pdf', 'rb')# 创建 PDF 写入器对象
pdf_writer = PyPDF2.PdfFileWriter()# 添加需要加密的页面
pdf_writer.addPage(pdf_reader.getPage(0))# 设置密码
pdf_writer.encrypt('mypassword')# 创建一个新的加密 PDF 文件
encrypted_pdf = open('encrypted.pdf', 'wb')
pdf_writer.write(encrypted_pdf)# 关闭所有文件
pdf_file.close()
encrypted_pdf.close()

解密 PDF 文件

import PyPDF2# 打开加密的 PDF 文件
pdf_file = open('encrypted.pdf', 'rb')# 解密 PDF 文件
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
pdf_reader.decrypt('mypassword')# 获取解密后的内容
page = pdf_reader.getPage(0)
text = page.extractText()
print(text)# 关闭文件
pdf_file.close()

在这个示例中,首先加密了一个 PDF 文件,然后使用密码解密了它,以便读取内容。

集成 PyPDF 到工作流程

  1. 文档处理:用于提取、合并、拆分和转换 PDF 文档,以满足不同的文档需求。

  2. 报告生成:生成包含图表、表格和文本的 PDF 报告,用于数据分析和可视化。

  3. PDF 表单处理:处理 PDF 表单,自动化数据收集和处理流程。

  4. 文档自动化处理:在自动化任务中使用 PyPDF 来处理 PDF 文件,提高工作效率。

总结

Python PyPDF 是一个功能强大的库,用于处理 PDF 文件。它可以用于读取、创建、合并和转换 PDF 文档,以及执行许多其他与 PDF 有关的任务。希望本文提供的示例代码和介绍有助于大家入门 PyPDF,并在项目中使用它来处理 PDF 文件。

如果你觉得文章还不错,请大家 点赞、分享、留言 下,因为这将是我持续输出更多优质文章的最强动力!

相关文章:

Python PDF处理模块pypdf库详解

概要 PDF(Portable Document Format)是一种常见的文档格式,广泛用于存储和共享文本和图像数据。在 Python 中,有许多库可以用于处理 PDF 文件,其中之一就是 PyPDF。PyPDF 是一个功能强大的库,它允许你读取…...

C++上位软件通过LibModbus开源库和西门子S7-1200/S7-1500/S7-200 PLC进行ModbusTcp 和ModbusRTU 通信

前言 一直以来上位软件比如C等和西门子等其他品牌PLC之间的数据交换都是大家比较头疼的问题,尤其是C上位软件程序员。传统的方法一般有OPC、Socket 等,直到LibModbus 开源库出现后这种途径对程序袁来说又有了新的选择。 Modbus简介 Modbus特点 1 &#…...

PLSQL Developer 15安装和oracle客户端安装

文章目录 前言一、PLSQL Developer1.下载2.安装 二、oracle客户端1.下载2.环境变量 三、使用1. oci2. 连接3. 配置文件 总结 前言 oracle是经常使用的数据库,PLSQL Developer是众多产品中比较不错的一款工具,接下来我们来介绍PLSQL Developer的安装和使…...

【深度deepin】深度安装,jdk,tomcat,Nginx安装

目录 一 深度 1.1 介绍 1.2 与别的操作系统的优点 二 下载镜像文件及VM安装deepin 三 jdk,tomcat,Nginx安装 3.1 JDK安装 3.2 安装tomcat 3.3 安装nginx 一 深度 1.1 介绍 由深度科技社区开发的开源操作系统,基于Linux内核&#xf…...

解决flask启动报错:ImportError: DLL load failed while importing _dukpy: 找不到指定的程序

现象: 原因:dukpy没有win32执行库 解决办法: 到lfd.uci.edu 第三方库下载dukpy的win32 whl文件 注意: 需要跟你python版本和windows平台(32位/64位)对应 https://www.lfd.uci.edu/~gohlke/pythonlibs/#…...

腾讯面试总结

腾讯 一面 mysql索引结构?redis持久化策略?zookeeper节点类型说一下;zookeeper选举机制?zookeeper主节点故障,如何重新选举?syn机制?线程池的核心参数;threadlocal的实现&#xff…...

面向对象进阶(static关键字,继承,方法重写,super,this)

文章目录 面向对象进阶部分学习方法:今日内容教学目标 第一章 复习回顾1.1 如何定义类1.2 如何通过类创建对象1.3 封装1.3.1 封装的步骤1.3.2 封装的步骤实现 1.4 构造方法1.4.1 构造方法的作用1.4.2 构造方法的格式1.4.3 构造方法的应用 1.5 this关键字的作用1.5.1…...

Blazor项目如何调用js文件

以下是来自千问的回答并加以整理:(说一句,文心3.5所给的回答不完善,根本运行不起来,4.0等有钱了试试) 在Blazor项目中引用JavaScript文件(.js)以实现与JavaScript的互操作&#xff…...

Windows11 - Ubuntu 双系统及 ROS、ROS2 安装

系列文章目录 前言 一、Windows11 - Ubuntu 双系统安装 硬件信息: 设备名称 DESKTOP-B62D6KE 处理器 13th Gen Intel(R) Core(TM) i5-13500H 2.60 GHz 机带 RAM 40.0 GB (39.8 GB 可用) 设备 ID 7673EF86-8370-41D0-8831-84926668C05A 产品 ID 00331-10000-0000…...

深度学习(学习记录)

题型:填空题判断题30分、简答题20分、计算题20分、综合题(30分) 综合题(解决实际工程问题,不考实验、不考代码、考思想) 一、深度学习绪论(非重点不做考察) 1、传统机器学习&…...

html5实现好看的个人博客模板源码

文章目录 1.设计来源1.1 主界面1.2 认识我界面1.3 我的文章界面1.4 我的模板界面1.5 文章内容界面 2.结构和源码2.1 目录结构2.2 源代码 源码下载 作者:xcLeigh 文章地址:https://blog.csdn.net/weixin_43151418/article/details/135368653 html5实现好看…...

SpringSecurity深度学习

SpringSecurity简介 spring Security是什么? Spring Security 是一个强大且高度可定制的身份验证和访问控制框架,用于保护基于Spring的应用程序。它是Spring项目的一部分,旨在为企业级系统提供全面的安全性解决方案。 一个简单的授权和校验…...

odoo17 | 用户界面的基本交互

前言 现在我们已经创建了我们的新模型及其 相应的访问权限,是时候了 与用户界面交互。 在本章结束时,我们将创建几个菜单以访问默认列表 和窗体视图。 数据文件 (XML) Odoo在很大程度上是数据驱动的,因此模块定义的…...

Intel 性能监视器之二

全文来自Intel开发者手册:Intel? 64 and IA-32 Architectures Software Developer’s Manual Volume 3B System Programming Guide.pdf 注意:下文中已经指出手册中的对应页面和章节,请对照手册原文看,任何个人理解错误&#xff…...

Vert.x学习笔记-什么是事件总线

广义事件总线介绍Vert.x的事件总线Vert.x的事件总线的实现方式Vert.x的事件总线通信模式事件总线与消息队列的区别点对点通信模式请求-应答通信模式发布-订阅通信模式 Vert.x的事件总线应用场景Vert.x的事件总线消息Vert.x的事件总线消息示例Vert.x的事件总线的消息类型 拓展 广…...

STM32学习笔记二十二:WS2812制作像素游戏屏-飞行射击游戏(12)总结

至此,飞行射击游戏已经基本实现该有的功能,已经比较接近早期的商业游戏了。 如果采用脚本,可以完成关卡游戏,如果不用,也可以做成无限挑战游戏。 我们汇总一下制作的过程: 1、建模UML 2、主循环处理过程…...

astadmin安装querylist插件Puppeteer

我本来是想在linux服务器上安装,折腾了一天也没安装成功,由于急着用,就先做window10上安装了,以后有时间再研究centos7上安装 一 首先需要安装fastadmin 框架和querylist插件 这个大家可以自行安装,querylist安装地址…...

Python从入门到网络爬虫(MySQL链接)

前言 在实际数据分析和建模过程中,我们通常需要从数据库中读取数据,并将其转化为 Pandas dataframe 对象进行进一步处理。而 MySQL 数据库是最常用的关系型数据库之一,因此在 Python 中如何连接 MySQL 数据库并查询数据成为了一个重要的问题…...

2020年认证杯SPSSPRO杯数学建模A题(第二阶段)听音辨位全过程文档及程序

2020年认证杯SPSSPRO杯数学建模 A题 听音辨位 原题再现: 把若干 (⩾ 1) 支同样型号的麦克风固定安装在一个刚性的枝形架子上 (架子下面带万向轮,在平地上可以被水平推动或旋转,但不会歪斜),这样的设备称为一个麦克风树。不同的麦…...

深入理解CRON表达式:时间调度的艺术

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…...

网络安全—模拟IP代理隐藏身份

文章目录 网络拓扑安装使用代理服务器设置隐藏者设置 使用古老的ccproxy实现代理服务器,仅做实验用途,禁止做违法犯罪的事情,后果自负。 网络拓扑 均使用Windows Server 2003系统 Router 外网IP:使用NAT模式 IP DHCP自动分配或者…...

Resilience4j相关问题及答案(2024)

1、什么是Resilience4j,与Hystrix有何不同? Resilience4j是一个为Java 8和函数式编程设计的故障恢复库,它主要利用了Vavr库中的函数式编程概念。Resilience4j提供了一系列的故障恢复机制,包括断路器(Circuit Breaker&…...

XSKY SDS 产品率先获得 OceanBase V4 新版本认证

近日,北京奥星贝斯科技有限公司(简称:OceanBase)与北京星辰天合科技股份有限公司(简称:XSKY 星辰天合)顺利完成产品兼容性认证。 XSKY 的高性能全闪存储以及混闪存储,与 OceanBase V…...

系统学习Python——类(class):静态方法(staticmethod)和类方法(classmethod)-[基础知识]

分类目录:《系统学习Python》总目录 我们可以在类中定义两种方法,它们不需要一个实例就可以被调用:静态方法(staticmethod)大致与一个类中简单的无实例函数的工作方式类似,而类方法则被传人一个类而不是一个…...

kotlin isEmpty/isNotEmpty/isNullOrEmpty和isBlank/isNotBlank/isNullOrBlank

kotlin 中 isEmpty :如果判断的字符为空返回值返回true否则返回false 它的源码 kotlin.internal.InlineOnly public inline fun CharSequence.isEmpty(): Boolean length 0 length 0: 首先检查字符序列的长度是否为 0。如果长度为 0,则表明这个字…...

Qt/QML编程学习之心得:Linux下USB接口使用(25)

很多linux嵌入式系统都有USB接口,那么如何使用USB接口呢? 首先,linux的底层驱动要支持,在linux kernal目录下可以找到对应的dts文件,(device tree) usb0: usb@ee520000{compatible = "myusb,musb";status = "disabled";reg = <0xEE520000 0x100…...

概率论与数理统计 知识点+课后习题

文章目录 &#x1f496; [学习资源整合](https://www.cnblogs.com/duisheng/p/17872980.html)&#x1f4da; 总复习&#x1f4d9; 选择题&#x1f4d9; 填空题&#x1f4d9; 大题1. 概率2. 概率3. 概率4. P5. 概率6. 概率密度函数 F ( X ) F(X) F(X)7. 分布列求方差 V ( X ) …...

Spring Boot实战:深入理解@Service与@Mapper注解

1. Service 注解 Service 是Spring框架提供的一个注解&#xff0c;用于标记类为业务逻辑层的组件。当类上标注了Service注解后&#xff0c;Spring容器会自动扫描并创建该类的一个实例&#xff08;即Bean&#xff09;&#xff0c;这样我们就可以在其他地方通过自动装配&#xf…...

【DevOps-06】Jenkins实现CI/CD操作

一、简要说明 基于Jenkins拉取GitLab的SpringBoot代码进行构建发布到测试环境实现持续集成 基于Jenkins拉取GitLab指定发行版本的SpringBoot代码进行构建发布到生产环境实现CD实现持续部署 二、准备Springboot工程 1、IDEA新建工程 2、填写项目工程信息 3、选择Springboot版本…...

华为面经总结

为了帮助大家更好的应对面试&#xff0c;我整理了往年华为校招面试的题目&#xff0c;供大家参考~ 面经1 技术一面 自我介绍说下项目中的难点volatile和synchronized的区别&#xff0c; 问的比较细大顶堆小顶堆怎么删除根节点CSRF攻击是什么&#xff0c;怎么预防线程通信方式…...

附近手机网站建设/百度快速排名优化服务

首先&#xff0c; 下载包放在WEB-INF/lib目录下&#xff0c;添加iText亚洲语言包iTextAsian.jar (http://files.cnblogs.com/zhuxiongfeng/itextAsia.zip) 其次 文本框的属性框中&#xff0c;设置字体的属性为&#xff1a; PDF font name: STSong-Light; pdfEncoding…...

用dede做的网站首页/免费行情网站app大全

category.php页面&#xff0c;有其默认的排序方式&#xff0c;但是现在要实现的排序方式&#xff1a;首页广告位的产品链接地址&#xff1a;category.php?id3&gid4(id&#xff0c;是分类ID默认的&#xff1b;gid&#xff0c;是自定义增加的&#xff0c;产品的ID)&#xff…...

小学生免费编程课/宝鸡seo优化

对于改扩建的公路、铁路等建设项目&#xff0c;如预测噪声贡献值时已包括了现有声源的影响&#xff0c;则以预测的噪声()作为评价量。能兴奋体温调节中枢&#xff0c;具有升高体温作用的激素是()下列不属于康复医学范围的是()。个人可以买公积金吗&#xff1f;如何买&#xff1…...

人和动物做愛视频网站/郑州网络推广方法

实验要求 【任务介绍】根据给定的上下文无关文法&#xff0c;分析任意一个算术表达式的语法结构。 【输入】任意的算术表达式。 【输出】与输入对应的一颗语法树或者错误。 【题目】设计一个程序&#xff0c;根据给定的上下文无关文法&#xff0c;构造一颗语法树来表达任意…...

盲盒小程序加盟/河北seo公司

SpringBoot 简介 微框架&#xff0c;与 Spring4 一起诞生&#xff0c;基于约定、生来为了简化 spring 的配置 优点 可以快速的上手&#xff0c;整合了一些子项目(开源框架或者第三方开源库)可以依赖很少的配置快速的搭建项目基于 spring 使开发者快速入门&#xff0c;门槛很低。…...

包头网站建设公司/软文广告500字

在这里先向大家道个歉&#xff0c;之前在char类型-128到127文章中没有讲清楚原反补的具体求解过程&#xff0c;并且犯了严重的错误&#xff0c;补码-128是不存在原码和反码. 简单介绍一下原码的取值范围都是-128到127&#xff0c;并且0都存在两种状态0和-0。补码中0只有一种状…...