Python 实现 PDF 到 Word 文档的高效转换(DOC、DOCX)
PDF(Portable Document Format)已成为一种广泛使用的电子文档格式。PDF的主要优势是跨平台,可以在不同设备上呈现一致的外观。然而,当我们需要对文件内容进行编辑或修改,直接编辑PDF文件会非常困难,而且效果也不理想。将PDF文件转换为Word文档(doc、docx)再进行编辑是一个更好的选择。
本文将介绍如何使用Python编程语言,结合库和工具,将PDF文件转换为可编辑的Word文档,使文档的编辑变得方便高效。本文包含以下及个方面:
- PDF文件转Word文档的优势
- 通过Python将PDF文件转为Word文档(Doc和Docx)
- 通过Python将PDF文档转换为Docx文件并设置文档属性
本文所介绍的方法需要用到Spire.PDF for Python,可从官网下载或通过PyPI安装:pip install Spire.PDF
。
PDF文件转Word文档的优势
将PDF文件转换为Word文档可以带来诸多优势,包括以下几个常见方面:
- 便于编辑和修改:PDF文件通常适合阅读及打印,直接编辑会非常困难,且难以达到理想的效果。将PDF转换为Word文档可以方便进行修改、添加或删除文本、更改格式等诸多操作。
- 便于协作编辑:使用Word文档进行协作编辑是共同创作的理想解决方案。许多协作编辑平台支持实时更新编辑内容,为内容创作带来极大的便利。而PDF文件想要利用这些方便的协作编辑特性,就需要转换为Word文档。
- 数据提取:有时候我们需要从PDF文件中提取特定的数据或文本内容。将PDF转换为Word文档可以更轻松地提取所需的信息,并进行进一步的数据处理和分析。
通过Python将PDF文件转为Word文档(Doc和Docx)
PdfDocument 类代表一个PDF文档,使用其下的 LoadFromFile() 方法即可从文件载入PDF文档。在载入文档后,我们可以使用 PdfDocument 类下的 SaveToFile() 方法将PDF文档转换为其他格式的文件并保存,包括Doc、Docx、HTML、SVG等格式。在使用SaveToFile()方法时,只需要将保存路径和 FileFormat 枚举类型作为参数传递给该方法即可。
下面是操作步骤介绍:
- 导入模块。
- 创建PdfDocument类的实例。
- 使用 LoadFromFile() 方法载入PDF文件。
- 使用 SaveToFile() 方法将PDF文档转换为DOC或DOCX格式的Word文档,并关闭实例。
代码示例:
from spire.pdf import PdfDocument
from spire.pdf import FileFormat# 创建PdfDocument类的实例
pdf = PdfDocument()# 载入PDF文件
pdf.LoadFromFile("示例.pdf")# 将PDF文件直接转换为Doc文件并保存
pdf.SaveToFile("output/PDF转DOC", FileFormat.DOC)# 将PDF文件直接转换为Docx文件并保存
pdf.SaveToFile("output/PDF转DOCX", FileFormat.DOCX)# 关闭实例
pdf.Close()
原PDF文档:
转换结果:
通过Python将PDF文档转换为Docx文件并设置文档属性
除了上述方法外,还可以使用PdfToDocConverter类并将文件路径作为参数创建转换实例。使用此类进行转换时,还可以对文件属性进行设置。此方法只能转换为DOC和DOCX文件。
下面是操作步骤介绍:
- 创建 PdfToDocConverter 的实例。
- 通过 PdfToDocConverter.DocxOptions 属性下的属性对转换出的Word文档的文档属性进行设置。
- SaveToFile() 将PDF文件保存为DOC或DOCX文件,参数为True表示转换为DOCX文件,参数为False则表示转换为DOC文件。
代码示例:
from spire.pdf import PdfToDocConverter# 创建PdfToDocConverter类的实例
converter = PdfToDocConverter("G:/文档/示例21.pdf")# 设置转换出的Word文档的文档属性
converter.DocxOptions.Title = "企业计划"
converter.DocxOptions.Subject = "企业管理及运营的计划草案。"
converter.DocxOptions.Tags = "企业, 企业管理, 工作计划"
converter.DocxOptions.Categories = "工作计划"
converter.DocxOptions.Commments = "本计划为草案,制定了工作计划的大致内容,需要进一步讨论确定详细内容。"
converter.DocxOptions.Authors = "李莉"
converter.DocxOptions.LastSavedBy = "王银"
converter.DocxOptions.Revision = 8
converter.DocxOptions.Version = "V4.0"
converter.DocxOptions.ProgramName = "Python"
converter.DocxOptions.Company = "企业名"
converter.DocxOptions.Manager = "企业名"# 将PDF文件直接转换为Doc文件并保存
converter.SaveToDocx("output/PDF转DOC设置属性.doc", False)# 将PDF文件直接转换为Doc文件并保存
converter.SaveToDocx("output/PDF转DOCX设置属性.docx", True)
转换出的Word文档的文档属性:
总结
以上文章展示了如何通过Python代码将PDF文件转换为Word文档,包括转换为DOC格式和DOCX格式,以及在转换时设置结果文档的文档属性。Spire.PDF for Python还支持转换PDF文件为其他诸多格式,包括网页文件(HTML)、SVG、JPEG和PNG图片、Tiff、RTF等格式,请前往Spire.PDF for Python教程查看详情。
相关文章:
Python 实现 PDF 到 Word 文档的高效转换(DOC、DOCX)
PDF(Portable Document Format)已成为一种广泛使用的电子文档格式。PDF的主要优势是跨平台,可以在不同设备上呈现一致的外观。然而,当我们需要对文件内容进行编辑或修改,直接编辑PDF文件会非常困难,而且效果…...
【MYSQL】MYSQL 的学习教程(七)之 慢 SQL 优化思路
1. 慢 SQL 优化思路 慢查询日志记录慢 SQLexplain 分析 SQL 的执行计划profile 分析执行耗时Optimizer Trace 分析详情确定问题并采用相应的措施 1. 慢查询日志记录慢 SQL 如何定位慢SQL呢? 我们可以通过 慢查询日志 来查看慢 SQL。 ①:开启慢查询日志…...
unity学习笔记----游戏练习0
一、修复植物种植的问题 1.当手上存在植物时,再次点击卡片上的植物就会在手上添加新的植物,需要修改成只有手上没有植物时才能再次获取到植物。需要修改AddPlant方法。 public bool AddPlant(PlantType plantType) { //防止手上出现多个植…...
ai概念:强人工智能介绍、迁移学习
强人工智能(Strong Artificial Intelligence,SAI)是指一种具有与人类智能相媲美或超越人类智能水平的人工智能系统。与弱人工智能(Weak Artificial Intelligence,WAI)不同,强人工智能具有更高级…...
go语言设计模式-单例模式
建造型设计模式-单例模式 是用来控制类型实例的数量的,当需要确保一个类型只有一个实例时,就需要使用单例模式。 即把实例的访问进行收口,不能谁都能 new 类,所以单例模式还会提供一个2访问该实例的全局端口,一般都会…...
超维空间S2无人机使用说明书——51、基础版——使用yolov8进行目标跟踪
引言:为了提高yolo识别的质量,提高了yolo的版本,改用yolov8进行物体识别,同时系统兼容了低版本的yolo,包括基于C的yolov3和yolov4,以及yolov7。 简介,为了提高识别速度,系统采用了G…...
Transformer(seq2seq、self-attention)学习笔记
在self-attention 基础上记录一篇Transformer学习笔记 Transformer的网络结构EncoderDecoder 模型训练与评估 Transformer的网络结构 Transformer是一种seq2seq 模型。输入一个序列,经过encoder、decoder输出结果也是一个序列,输出序列的长度由模型决定…...
2023-12-29 服务器开发-centos部署ftp
摘要: 2023-12-29 服务器开发-centos-部署ftp 部署ftp vsftpd(very secure FTP daemon)是Linux下的一款小巧轻快、安全易用的FTP服务器软件。本教程介绍如何在Linux实例上安装并配置vsftpd。 前提条件 已创建ECS实例并为实例分配了公网IP地址。 背景…...
螺旋数字阵(100%用例)C卷 (JavaPythonNode.jsC语言C++)
疫情期间,小明隔离在家,百无聊赖,在纸上写数字玩。他发明了一种写法: 给出数字个数n和行数m (0 < n <= 999,0 < m <= 999) ,从左上角的1开始,按照顺时针螺旋向内写方式,依次写出2,3...n,最终形成一个m行矩阵 小明对这个矩阵有些要求 1.每行数字的个数一样多…...
AUTOSAR从入门到精通-网络通信(UDPNm)(二)
目录 前言 原理 UdpNm工作原理 UdpNm与CanNM的区别联系 网络管理算法...
显示器与按键(LCD 1602 + button)
一、实验目的: (1)学习lcd 1602的编程与使用、 (2)机械式复位开关button软件消抖的方法。 二、实验内容: 1、必做:先显示开机画面,:在1602显示器上,分两行…...
2020年认证杯SPSSPRO杯数学建模B题(第一阶段)分布式无线广播全过程文档及程序
2020年认证杯SPSSPRO杯数学建模 B题 分布式无线广播 原题再现: 以广播的方式来进行无线网通信,必须解决发送互相冲突的问题。无线网的许多基础通信协议都使用了令牌的方法来解决这个问题,在同一个时间段内,只有唯一一个拿到令牌…...
【CISSP学习笔记】7. 安全评估与测试
该知识领域涉及如下考点,具体内容分布于如下各个子章节: 设计和验证评估、测试和审计策略进行安全控制测试收集安全过程数据(例如,技术和管理)分析测试输出并生成报告执行或协助安全审计 7.1. 构建安全评估和测试方案…...
Gateway集成方法以及拦截器和过滤器的使用
前提:请先创建好一个SpringBoot项目 1. 引入依赖 SpringCloud 和 alibabaCloud 、 SpringBoot间对版本有强制要求,我使用的springboot是3.0.2的版本。版本对应关系请看:版本说明 alibaba/spring-cloud-alibaba Wiki GitHub <dependency…...
第G2周:人脸图像生成(DCGAN)
🍨 本文为[🔗365天深度学习训练营学习记录博客\n🍦 参考文章:365天深度学习训练营\n🍖 原作者:[K同学啊 | 接辅导、项目定制]\n🚀 文章来源:[K同学的学习圈子](https://www.yuque.co…...
【Web】Ctfshow Thinkphp5 非强制路由RCE漏洞
目录 非强制路由RCE漏洞 web579 web604 web605 web606 web607-610 前面审了一些tp3的sql注入,终于到tp5了,要说tp5那最经典的还得是rce 下面介绍非强制路由RCE漏洞 非强制路由RCE漏洞原理 非强制路由相当于开了一个大口子,可以任意调用当前框…...
python3遇到Can‘t connect to HTTPS URL because the SSL module is not available.
远程服务器centos7系统上有minicoda3,觉得太占空间,就把整个文件夹删了,原先的Python3也没了,都要重装。 我自己的步骤:进入管理员模式 1.下载Python3的源码: wget https://www.python.org/ftp/python/3.1…...
QSPI Flash xip取指同时program过程中概率性出现usb播歌时断音
项目场景: USB Audio芯片,代码放到qspi flash中,执行代码时,客户会偶尔保存一些参数,即FPGA验证过程中,每隔10ms向flash info区烧写4个byte(取指过程一直存在,且时隙软件不可控&…...
MySQL聚簇索引和非聚簇索引的区别
前言: 聚簇索引和非聚簇索引是数据库中的两种索引类型,他们在组织和存储数据时有不同的方式。 聚簇索引: 简单理解,就是将数据和索引放在了一起,找到了索引也就找到了数据。对于聚簇索引来说,他的非叶子节点上存储的是…...
【C#】蜗牛爬井问题C#控制台实现
文章目录 一、问题描述二、C#控制台代码 一、问题描述 井深30米,蜗牛在井底,每天爬3米又滑下1米,问第几天爬出来 二、C#控制台代码 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System…...
IP地址的四大类型:动态IP、固定IP、实体IP、虚拟IP的区别与应用
在网络通信中,IP地址是设备在互联网上唯一标识的关键元素。动态IP、固定IP、实体IP和虚拟IP是四种不同类型的IP地址,它们各自具有独特的特点和应用场景。 1. 动态IP地址: 动态IP地址是由Internet Service Provider(ISPÿ…...
Linux Debian12安装和使用ImageMagick图像处理工具 常见图片png、jpg格式转webp格式
一、ImageMagick简介 ImageMagick是一套功能强大、稳定而且免费的工具集和开发包。可以用来读、写和图像格式转换,可以处理超过100种图像格式,包括流行的TIFF, JPEG, GIF, PNG, PDF以及PhotoCD等格式。对图片的操作,即可以通过命令行进行&am…...
JavaScript二
目录 流程控制 if判断 while循环 do while for循环 forEach for in Map与set iterator 流程控制 if判断 <script>use strictvar age 5;if(age < 3){alert("haha");}else if(age < 5){alert("hi world");}else{alert("hello wor…...
JavaScript系列——正则表达式
文章目录 需求场景正则表达式的定义创建正则表达式通过 / 表示式/ 创建通过构造函数创建 编写一个正则表达式的模式使用简单模式使用特殊字符常用特殊字符列表特殊字符组和范围 正则表达式使用代码演示 常用示例验证手机号码合法性 小结 需求场景 在前端开发领域,在…...
命令行创建Vue项目
Vue项目创建 1. 打开UI界面 在命令行中,执行如下指令: vue ui 2. 打开项目管理器 3. 创建项目 创建项目的过程,需要联网进行,这可能会耗时比较长的时间,请耐心等待。 windows的命令行,容易卡顿,…...
01.PostgreSQL基本SELECT语句
1. SQL简介 SQL 是用于访问和处理数据库的标准的计算机语言。 SQL有两个标准:分别是SQL92和SQL99,他们分别代表了92年和99年颁布的SQL标准,我们今天使用的SQL语言依然遵循这些标准。 注意:除了 SQL 标准之外,大部分 SQL 数据库程序都拥有它们自己的私有扩展! 2. SQL分…...
UDP信号多个电脑的信息传输测试、配置指南
最近要做一个东西,关于一个软件上得到的信号,如何通过连接的局域网,将数据传输出去。我没做过相关的东西,但是我想应该和软件连接数据库的过程大致是差不多的,就一个ip和一个端口号啥的。 一.问题思路 多个设备同时连…...
先序+中序还原二叉树【数据结构】
先序中序还原二叉树 题目描述 给定一棵二叉树的先序遍历序列和中序遍历序列,要求计算该二叉树的高度。 输入 输入首先给出正整数N(≤50),为树中结点总数。下面两行先后给出先序和中序遍历序列,均是长度为N的不包含重…...
【全网首发】洛谷P2678 [NOIP2015 提高组] 跳石头
Everyday English You don’t become what you want; you become whatyou believe. —Oprah Winfrey 你不是成为你想要的,你成为你所相信的。 洛谷P2678 [NOIP2015 提高组] 跳石头 题目描述 一年一度的“跳石头”比赛又要开始了! 这项比赛将在一条笔…...
Gpt指引ubuntu安装java8/11
在Ubuntu系统上安装Java环境通常包括以下几个步骤: 更新软件包索引: 在安装新软件之前,最好先更新Ubuntu的软件包索引。这可以确保你安装的是最新版本的软件包。可以使用以下命令来更新: sudo apt update安装Java: U…...
网站开发合同/alexa全球网站排名分析
在群里和大家交流时,看到太多的网页设计师发布企业站的个人作品,设计中总是摆脱不了大框套小框的设计布局思路,不加思索的跳入单一的网页布局形式中,于是就有了把企业站常用的页面布局方式总结一下的想法,让大家包括我…...
asp.net企业网站源码/福州百度推广开户
闭包定义 对闭包的具体定义有很多种说法,这些说法大体可以分为两类: 闭包是其词法上下文中引用了自由变量的函数.闭包是由函数和其相关的引用环境组合而成的实体.词法:变量的作用域是由它在源码中所处位置决定的. 很多人都觉得闭包是一个很难理解的知识点࿰…...
raid管理网站开发/seo咨询服务价格
大家在编程过程中都会用到一些异步编程的情况。在c#的BCL中,很多api都提供了异步方法,初学者可能对各种不同异步方法的使用感到迷惑,本文主要为大家梳理一下异步方法的变迁以及如何使用异步方法。 BeginXXX,EndXXX模式 在.Net Fra…...
网监要求网站备案/泰州百度关键词优化
事事皆项目的时代,项目管理已经成为企业得以持续发展的根本,随着市场和商业模式的日新月异,项目管理的难度也在逐渐加大。因此,不少项目经理都有这种感觉:学了不少项目管理的理论知识,但项目仍然很难落地。…...
昆明网站设计方案/我赢网提供的高水平网页设计师
CentOS MySQL安装目录在哪可以通过下面这些方法查看MySQL在centos上的安装目录:一、查看文件安装路径安装了mysql,但是不知道文件都安装在哪些地方、放在哪些文件夹里,可以用下面的命令查看所有的文件路径whereis mysql回车,如果你…...
网站开发需要的编程软件/线上营销推广公司
1.1 RIP概述 1、静态路由的缺点 不能响应网络拓扑的变化 2、RIP协议的特性 内部网关协议(Interior Gateway Protocol)距离矢量(Distance-Vector)算法的协议它使用跳数(Hop Count)作为度量来衡量到达目的…...