Python PDF处理模块pypdf库详解
概要
PDF(Portable Document Format)是一种常见的文档格式,广泛用于存储和共享文本和图像数据。在 Python 中,有许多库可以用于处理 PDF 文件,其中之一就是 PyPDF。PyPDF 是一个功能强大的库,它允许你读取、创建和操作 PDF 文件。本文将介绍 PyPDF 的基本概念、安装方法以及一些常见的用法示例,以帮助大家开始使用 PyPDF 处理 PDF 文件。
什么是 PyPDF?
PyPDF 是一个用于处理 PDF 文件的 Python 库。它提供了一组工具和功能,用于读取、解析和操作 PDF 文件的内容。
安装 PyPDF
要开始使用 PyPDF,首先需要安装它。可以使用 pip 命令来安装 PyPDF2(PyPDF 的常用版本):
pip install PyPDF2
安装完成后,就可以在 Python 中导入 PyPDF2 模块,并开始处理 PDF 文件。
基本用法示例
1. 读取 PDF 文件内容
使用 PyPDF,可以轻松读取 PDF 文件中的文本内容。
以下是一个示例,演示了如何打开一个 PDF 文件并提取其文本内容:
import PyPDF2# 打开 PDF 文件
pdf_file = open('example.pdf', 'rb')# 创建 PDF 读取器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)# 获取 PDF 文件中的页数
num_pages = pdf_reader.numPages# 读取每一页的文本内容
for page_num in range(num_pages):page = pdf_reader.getPage(page_num)text = page.extractText()print(f'Page {page_num + 1}:\n{text}\n')# 关闭 PDF 文件
pdf_file.close()
2. 创建新的 PDF 文件
PyPDF 也可以创建新的 PDF 文件。
以下是一个示例,演示了如何创建一个空白的 PDF 文件并添加一些文本内容:
import PyPDF2# 创建一个新的 PDF 文件
pdf_file = open('new_document.pdf', 'wb')# 创建 PDF 写入器对象
pdf_writer = PyPDF2.PdfFileWriter()# 创建一个 PDF 页
page = PyPDF2.PdfFileReader('blank_page.pdf').getPage(0)# 添加文本到页中
page.mergeTranslatedPage(page, 100, 200)
pdf_writer.addPage(page)# 将写入的内容保存到文件中
pdf_writer.write(pdf_file)# 关闭 PDF 文件
pdf_file.close()
3. 合并多个 PDF 文件
有时候可能需要合并多个 PDF 文件成一个文件。PyPDF 提供了合并 PDF 文件的功能。
以下是一个示例,演示了如何合并两个 PDF 文件:
import PyPDF2# 打开两个 PDF 文件
pdf1 = open('file1.pdf', 'rb')
pdf2 = open('file2.pdf', 'rb')# 创建 PDF 读取器对象
pdf_reader1 = PyPDF2.PdfFileReader(pdf1)
pdf_reader2 = PyPDF2.PdfFileReader(pdf2)# 创建 PDF 写入器对象
pdf_writer = PyPDF2.PdfFileWriter()# 将两个 PDF 文件的页面添加到写入器中
for page_num in range(pdf_reader1.numPages):page = pdf_reader1.getPage(page_num)pdf_writer.addPage(page)for page_num in range(pdf_reader2.numPages):page = pdf_reader2.getPage(page_num)pdf_writer.addPage(page)# 创建一个新的合并后的 PDF 文件
merged_pdf = open('merged.pdf', 'wb')
pdf_writer.write(merged_pdf)# 关闭所有文件
pdf1.close()
pdf2.close()
merged_pdf.close()
更多功能
1. 旋转 PDF 页
有时候,可能需要旋转 PDF 文件中的某些页面,以使其更容易阅读或打印。PyPDF2 可以旋转 PDF 页,可以选择逆时针或顺时针旋转。
以下是一个示例,演示如何旋转一个 PDF 文件中的所有页面:
import PyPDF2# 打开 PDF 文件
pdf_file = open('example.pdf', 'rb')# 创建 PDF 读取器对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)# 创建 PDF 写入器对象
pdf_writer = PyPDF2.PdfFileWriter()# 逆时针旋转每一页并添加到写入器中
for page_num in range(pdf_reader.numPages):page = pdf_reader.getPage(page_num)page.rotateClockwise(90) # 旋转90度pdf_writer.addPage(page)# 创建一个新的旋转后的 PDF 文件
rotated_pdf = open('rotated.pdf', 'wb')
pdf_writer.write(rotated_pdf)# 关闭所有文件
pdf_file.close()
rotated_pdf.close()
在这个示例中,打开一个 PDF 文件,逆时针旋转了每一页,并将它们添加到一个新的 PDF 文件中,从而实现了页面的旋转。
2. 处理 PDF 表单
PDF 文件中的表单通常包含文本字段、复选框、下拉框等。PyPDF2 可以处理 PDF 表单数据,包括填写表单和提取表单数据。
以下是一个示例,演示如何使用 PyPDF2 处理 PDF 表单:
import PyPDF2# 打开 PDF 文件
pdf_file = open('form.pdf', 'rb')# 创建 PDF 表单对象
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
pdf_writer = PyPDF2.PdfFileWriter()# 填写表单字段
pdf_writer.updatePageFormFieldValues(pdf_reader.getPage(0), {'Name': 'John Doe','Email': 'johndoe@email.com','Country': 'USA'
})# 创建一个新的带有填写后表单的 PDF 文件
filled_form_pdf = open('filled_form.pdf', 'wb')
pdf_writer.write(filled_form_pdf)# 关闭所有文件
pdf_file.close()
filled_form_pdf.close()
在这个示例中,打开一个包含表单的 PDF 文件,然后使用 updatePageFormFieldValues
方法填写表单字段,并将填写后的表单保存为一个新的 PDF 文件。
3. PDF 加密和解密
保护 PDF 文件的机密性是一个重要问题,PyPDF2 可以对 PDF 文件进行加密和解密。
以下是一个示例,演示如何加密和解密 PDF 文件:
加密 PDF 文件
import PyPDF2# 打开 PDF 文件
pdf_file = open('document.pdf', 'rb')# 创建 PDF 写入器对象
pdf_writer = PyPDF2.PdfFileWriter()# 添加需要加密的页面
pdf_writer.addPage(pdf_reader.getPage(0))# 设置密码
pdf_writer.encrypt('mypassword')# 创建一个新的加密 PDF 文件
encrypted_pdf = open('encrypted.pdf', 'wb')
pdf_writer.write(encrypted_pdf)# 关闭所有文件
pdf_file.close()
encrypted_pdf.close()
解密 PDF 文件
import PyPDF2# 打开加密的 PDF 文件
pdf_file = open('encrypted.pdf', 'rb')# 解密 PDF 文件
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
pdf_reader.decrypt('mypassword')# 获取解密后的内容
page = pdf_reader.getPage(0)
text = page.extractText()
print(text)# 关闭文件
pdf_file.close()
在这个示例中,首先加密了一个 PDF 文件,然后使用密码解密了它,以便读取内容。
集成 PyPDF 到工作流程
-
文档处理:用于提取、合并、拆分和转换 PDF 文档,以满足不同的文档需求。
-
报告生成:生成包含图表、表格和文本的 PDF 报告,用于数据分析和可视化。
-
PDF 表单处理:处理 PDF 表单,自动化数据收集和处理流程。
-
文档自动化处理:在自动化任务中使用 PyPDF 来处理 PDF 文件,提高工作效率。
总结
Python PyPDF 是一个功能强大的库,用于处理 PDF 文件。它可以用于读取、创建、合并和转换 PDF 文档,以及执行许多其他与 PDF 有关的任务。希望本文提供的示例代码和介绍有助于大家入门 PyPDF,并在项目中使用它来处理 PDF 文件。
如果你觉得文章还不错,请大家 点赞、分享、留言 下,因为这将是我持续输出更多优质文章的最强动力!
相关文章:

Python PDF处理模块pypdf库详解
概要 PDF(Portable Document Format)是一种常见的文档格式,广泛用于存储和共享文本和图像数据。在 Python 中,有许多库可以用于处理 PDF 文件,其中之一就是 PyPDF。PyPDF 是一个功能强大的库,它允许你读取…...

C++上位软件通过LibModbus开源库和西门子S7-1200/S7-1500/S7-200 PLC进行ModbusTcp 和ModbusRTU 通信
前言 一直以来上位软件比如C等和西门子等其他品牌PLC之间的数据交换都是大家比较头疼的问题,尤其是C上位软件程序员。传统的方法一般有OPC、Socket 等,直到LibModbus 开源库出现后这种途径对程序袁来说又有了新的选择。 Modbus简介 Modbus特点 1 &#…...

PLSQL Developer 15安装和oracle客户端安装
文章目录 前言一、PLSQL Developer1.下载2.安装 二、oracle客户端1.下载2.环境变量 三、使用1. oci2. 连接3. 配置文件 总结 前言 oracle是经常使用的数据库,PLSQL Developer是众多产品中比较不错的一款工具,接下来我们来介绍PLSQL Developer的安装和使…...

【深度deepin】深度安装,jdk,tomcat,Nginx安装
目录 一 深度 1.1 介绍 1.2 与别的操作系统的优点 二 下载镜像文件及VM安装deepin 三 jdk,tomcat,Nginx安装 3.1 JDK安装 3.2 安装tomcat 3.3 安装nginx 一 深度 1.1 介绍 由深度科技社区开发的开源操作系统,基于Linux内核…...

解决flask启动报错:ImportError: DLL load failed while importing _dukpy: 找不到指定的程序
现象: 原因:dukpy没有win32执行库 解决办法: 到lfd.uci.edu 第三方库下载dukpy的win32 whl文件 注意: 需要跟你python版本和windows平台(32位/64位)对应 https://www.lfd.uci.edu/~gohlke/pythonlibs/#…...

腾讯面试总结
腾讯 一面 mysql索引结构?redis持久化策略?zookeeper节点类型说一下;zookeeper选举机制?zookeeper主节点故障,如何重新选举?syn机制?线程池的核心参数;threadlocal的实现ÿ…...

面向对象进阶(static关键字,继承,方法重写,super,this)
文章目录 面向对象进阶部分学习方法:今日内容教学目标 第一章 复习回顾1.1 如何定义类1.2 如何通过类创建对象1.3 封装1.3.1 封装的步骤1.3.2 封装的步骤实现 1.4 构造方法1.4.1 构造方法的作用1.4.2 构造方法的格式1.4.3 构造方法的应用 1.5 this关键字的作用1.5.1…...

Blazor项目如何调用js文件
以下是来自千问的回答并加以整理:(说一句,文心3.5所给的回答不完善,根本运行不起来,4.0等有钱了试试) 在Blazor项目中引用JavaScript文件(.js)以实现与JavaScript的互操作ÿ…...

Windows11 - Ubuntu 双系统及 ROS、ROS2 安装
系列文章目录 前言 一、Windows11 - Ubuntu 双系统安装 硬件信息: 设备名称 DESKTOP-B62D6KE 处理器 13th Gen Intel(R) Core(TM) i5-13500H 2.60 GHz 机带 RAM 40.0 GB (39.8 GB 可用) 设备 ID 7673EF86-8370-41D0-8831-84926668C05A 产品 ID 00331-10000-0000…...

深度学习(学习记录)
题型:填空题判断题30分、简答题20分、计算题20分、综合题(30分) 综合题(解决实际工程问题,不考实验、不考代码、考思想) 一、深度学习绪论(非重点不做考察) 1、传统机器学习&…...

html5实现好看的个人博客模板源码
文章目录 1.设计来源1.1 主界面1.2 认识我界面1.3 我的文章界面1.4 我的模板界面1.5 文章内容界面 2.结构和源码2.1 目录结构2.2 源代码 源码下载 作者:xcLeigh 文章地址:https://blog.csdn.net/weixin_43151418/article/details/135368653 html5实现好看…...

SpringSecurity深度学习
SpringSecurity简介 spring Security是什么? Spring Security 是一个强大且高度可定制的身份验证和访问控制框架,用于保护基于Spring的应用程序。它是Spring项目的一部分,旨在为企业级系统提供全面的安全性解决方案。 一个简单的授权和校验…...

odoo17 | 用户界面的基本交互
前言 现在我们已经创建了我们的新模型及其 相应的访问权限,是时候了 与用户界面交互。 在本章结束时,我们将创建几个菜单以访问默认列表 和窗体视图。 数据文件 (XML) Odoo在很大程度上是数据驱动的,因此模块定义的…...
Intel 性能监视器之二
全文来自Intel开发者手册:Intel? 64 and IA-32 Architectures Software Developer’s Manual Volume 3B System Programming Guide.pdf 注意:下文中已经指出手册中的对应页面和章节,请对照手册原文看,任何个人理解错误ÿ…...

Vert.x学习笔记-什么是事件总线
广义事件总线介绍Vert.x的事件总线Vert.x的事件总线的实现方式Vert.x的事件总线通信模式事件总线与消息队列的区别点对点通信模式请求-应答通信模式发布-订阅通信模式 Vert.x的事件总线应用场景Vert.x的事件总线消息Vert.x的事件总线消息示例Vert.x的事件总线的消息类型 拓展 广…...

STM32学习笔记二十二:WS2812制作像素游戏屏-飞行射击游戏(12)总结
至此,飞行射击游戏已经基本实现该有的功能,已经比较接近早期的商业游戏了。 如果采用脚本,可以完成关卡游戏,如果不用,也可以做成无限挑战游戏。 我们汇总一下制作的过程: 1、建模UML 2、主循环处理过程…...

astadmin安装querylist插件Puppeteer
我本来是想在linux服务器上安装,折腾了一天也没安装成功,由于急着用,就先做window10上安装了,以后有时间再研究centos7上安装 一 首先需要安装fastadmin 框架和querylist插件 这个大家可以自行安装,querylist安装地址…...

Python从入门到网络爬虫(MySQL链接)
前言 在实际数据分析和建模过程中,我们通常需要从数据库中读取数据,并将其转化为 Pandas dataframe 对象进行进一步处理。而 MySQL 数据库是最常用的关系型数据库之一,因此在 Python 中如何连接 MySQL 数据库并查询数据成为了一个重要的问题…...

2020年认证杯SPSSPRO杯数学建模A题(第二阶段)听音辨位全过程文档及程序
2020年认证杯SPSSPRO杯数学建模 A题 听音辨位 原题再现: 把若干 (⩾ 1) 支同样型号的麦克风固定安装在一个刚性的枝形架子上 (架子下面带万向轮,在平地上可以被水平推动或旋转,但不会歪斜),这样的设备称为一个麦克风树。不同的麦…...

深入理解CRON表达式:时间调度的艺术
😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…...

【Axure高保真原型】引导弹窗
今天和大家中分享引导弹窗的原型模板,载入页面后,会显示引导弹窗,适用于引导用户使用页面,点击完成后,会显示下一个引导弹窗,直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…...

Chapter03-Authentication vulnerabilities
文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...
论文解读:交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架(二)
HoST框架核心实现方法详解 - 论文深度解读(第二部分) 《Learning Humanoid Standing-up Control across Diverse Postures》 系列文章: 论文深度解读 + 算法与代码分析(二) 作者机构: 上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学 论文主题: 人形机器人…...
DeepSeek 赋能智慧能源:微电网优化调度的智能革新路径
目录 一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战 二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位 三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...
大语言模型如何处理长文本?常用文本分割技术详解
为什么需要文本分割? 引言:为什么需要文本分割?一、基础文本分割方法1. 按段落分割(Paragraph Splitting)2. 按句子分割(Sentence Splitting)二、高级文本分割策略3. 重叠分割(Sliding Window)4. 递归分割(Recursive Splitting)三、生产级工具推荐5. 使用LangChain的…...

什么是库存周转?如何用进销存系统提高库存周转率?
你可能听说过这样一句话: “利润不是赚出来的,是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业,很多企业看着销售不错,账上却没钱、利润也不见了,一翻库存才发现: 一堆卖不动的旧货…...
python爬虫:Newspaper3k 的详细使用(好用的新闻网站文章抓取和解析的Python库)
更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

Linux 中如何提取压缩文件 ?
Linux 是一种流行的开源操作系统,它提供了许多工具来管理、压缩和解压缩文件。压缩文件有助于节省存储空间,使数据传输更快。本指南将向您展示如何在 Linux 中提取不同类型的压缩文件。 1. Unpacking ZIP Files ZIP 文件是非常常见的,要在 …...
站群服务器的应用场景都有哪些?
站群服务器主要是为了多个网站的托管和管理所设计的,可以通过集中管理和高效资源的分配,来支持多个独立的网站同时运行,让每一个网站都可以分配到独立的IP地址,避免出现IP关联的风险,用户还可以通过控制面板进行管理功…...
比较数据迁移后MySQL数据库和OceanBase数据仓库中的表
设计一个MySQL数据库和OceanBase数据仓库的表数据比较的详细程序流程,两张表是相同的结构,都有整型主键id字段,需要每次从数据库分批取得2000条数据,用于比较,比较操作的同时可以再取2000条数据,等上一次比较完成之后,开始比较,直到比较完所有的数据。比较操作需要比较…...