PDF与PDF/A的区别及如何使用Python实现它们之间的相互转换
目录
概述
PDF/A 是什么?与 PDF 有何不同?
用于实现 PDF 与 PDF/A 相互转换的 Python 库
Python 实现 PDF 转 PDF/A
将 PDF 转换为 PDF/A-1a
将 PDF 转换为 PDF/A-1b
将 PDF 转换为 PDF/A-2a
将 PDF 转换为 PDF/A-2b
将 PDF 转换为 PDF/A-3a
将 PDF 转换为 PDF/A-3b
Python 实现 PDF/A 转 PDF
Python 判断 PDF 是否是 PDF/A格式
概述
本文将详细介绍 PDF 与 PDF/A 的区别,并提供在 Python 中实现 PDF 与 PDF/A 相互转换的具体方法。同时,还将探讨如何在 Python 中判断 PDF文档是否是 PDF/A 格式并获取其具体的合规级别。
- PDF/A 是什么?与 PDF 有何不同?
- 用于实现PDF 与 PDF/A相互转换的 Python 库
- Python 实现 PDF 转 PDF/A
- Python 实现 PDF/A 转 PDF
- Python 判断 PDF 是否是 PDF/A格式
PDF/A 是什么?与 PDF 有何不同?
PDF/A 是一种专为电子文档的长期存档和保存设计的 PDF 格式。与常规 PDF 不同,PDF/A 对某些功能进行了限制,确保文档不依赖外部资源,即使在未来的技术环境中也能被完整再现。这种格式的主要特点包括:
- 禁止外部内容依赖:
PDF/A 不允许链接外部资源,如字体、音频、视频或加密数据。这确保了文档的所有内容完全嵌入文件内部,避免因外部资源丢失或变化而导致内容显示异常。 - 嵌入必要信息:
文档所需的字体、颜色配置文件等都会被嵌入文件中,从而确保无论在任何设备或软件中打开,都能准确呈现原始内容。
简而言之,PDF/A 是一种确保文档内容完整性的标准,特别适合用于长期保存和存档。常规 PDF 则更适合日常的共享、打印或编辑,但在内容长期保存和兼容性方面可能存在不确定性。
用于实现 PDF 与 PDF/A 相互转换的 Python 库
在Python中,可以使用 Spire.PDF for Python 库来实现 PDF 和 PDF/A 格式之间的转换。该库提供了丰富的功能,可在 Python 应用中创建、读取、编辑和转换 PDF 文档。
安装方法
在使用前,需要通过以下命令安装 Spire.PDF for Python:
pip install Spire.Pdf
Python 实现 PDF 转 PDF/A
将 PDF 转换为 PDF/A只需要以下两个步骤:
- 打开 PDF 文档:使用 PdfStandardsConverter 类打开需要转换的 PDF 文件。
- 转换为所需的 PDF/A 格式:选择 PdfStandardsConverter 类的适当方法,将文档转换为特定的 PDF/A 格式。
实现代码
以下是将 PDF 文档转换为不同 PDF/A 格式的实现代码。
将 PDF 转换为 PDF/A-1a
from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")# 转换为 PDF/A-1a
converter.ToPdfA1A("PdfA1a.pdf")
converter.Dispose()
将 PDF 转换为 PDF/A-1b
from spire.pdf.common import *
from spire.pdf import *converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-1b
converter.ToPdfA1B("PdfA1b.pdf")
converter.Dispose()
将 PDF 转换为 PDF/A-2a
from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-2a
converter.ToPdfA2A("PdfA2a.pdf")
converter.Dispose()
将 PDF 转换为 PDF/A-2b
from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-2b
converter.ToPdfA2B("PdfA2b.pdf")
converter.Dispose()
将 PDF 转换为 PDF/A-3a
from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-3a
converter.ToPdfA3A("PdfA3a.pdf")
converter.Dispose()
将 PDF 转换为 PDF/A-3b
from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-3b
converter.ToPdfA3B("PdfA3b.pdf")
converter.Dispose()
转换后的 PDF/A 文档均可在 Adobe Acrobat 中成功通过PDF/A规范验证,如下图所示:
Python 实现 PDF/A 转 PDF
虽然 PDF/A 是存档的理想格式,但有时还是需要将文档还原为常规 PDF,以便进行编辑、添加交互元素或加密等操作。
以下是将 PDF/A 转换为常规 PDF的实现代码:
from spire.pdf.common import *
from spire.pdf import *# 加载 PDF/A 文档
pdf = PdfDocument("PdfA1A.pdf")# 创建常规 PDF 文档
new_pdf = PdfNewDocument()
new_pdf.CompressionLevel = PdfCompressionLevel.none# 遍历 PDF/A 的每一页
for i in range(pdf.Pages.Count):page = pdf.Pages.get_Item(i)size = page.Size# 添加空白页面new_page = new_pdf.Pages.Add(size, PdfMargins(0.0))# 将原始页面内容复制到新页面page.CreateTemplate().Draw(new_page, 0.0, 0.0)# 保存为常规 PDF
new_pdf.SaveToFile("常规PDF.pdf")
new_pdf.Close(True)
Python 判断 PDF 是否是 PDF/A格式
Spire.PDF 提供了 PdfDocument.Conformance 属性,用于判断 PDF 文档是否是 PDF/A 格式,此外还支持获取其具体的合规级别。如果该属性返回的是none,表示该PDF文档是常规PDF,如果返回具体级别,如Pdf_A1A,表明该PDF是PDF/A-1a格式。
以下是判断PDF是否是PDF/A格式并获取其具体级别的实现代码:
from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文档
pdf = PdfDocument("ToPdfA1A.pdf")# 获取文档的 PDF/A级别
conformance_level = pdf.Conformance
print(conformance_level.name)
pdf.Close()
以上就是关于PDF与PDF/A之间的区别,以及如何使用Python实现它们之间的相互转换的全部内容。感谢阅读!
相关文章:

PDF与PDF/A的区别及如何使用Python实现它们之间的相互转换
目录 概述 PDF/A 是什么?与 PDF 有何不同? 用于实现 PDF 与 PDF/A 相互转换的 Python 库 Python 实现 PDF 转 PDF/A 将 PDF 转换为 PDF/A-1a 将 PDF 转换为 PDF/A-1b 将 PDF 转换为 PDF/A-2a 将 PDF 转换为 PDF/A-2b 将 PDF 转换为 PDF/A-3a 将…...

【Linux课程学习】: 进程地址空间,小故事理解虚拟地址,野指针
🎁个人主页:我们的五年 🔍系列专栏:Linux课程学习 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 Linux学习笔记: https://blog.csdn.net/…...

解决el-select数据量过大的3种方法
在准备上线的后台管理系统中,我们发现有两个下拉框(select),其选项数据量超过 1 万条,而在测试环境中这些数据量只有几百条。这导致在页面加载时,浏览器性能出现瓶颈,页面卡顿甚至崩溃。 想了一…...

速盾:高防cdn预热指定url就只刷新这个吗?
高防CDN预热是指在网站上线或更新之前,将网站内容缓存到CDN节点服务器上,以提高用户访问网站的速度和稳定性。通常,预热可以通过指定URL来进行,而不是刷新整个网站。 预热指定URL的好处是可以选择性地进行缓存刷新,而…...

aarch64-linux-gnu-g++在windous不能用
aarch64-linux-gnu-g 是针对 ARM 64 位架构(aarch64)的交叉编译器,它通常用于在一个平台(例如 x86 的 Linux 系统)上为另一个平台(例如 ARM 设备)编译代码。aarch64-linux-gnu-g 是 Linux 环境下…...

01_Node.js入门 (黑马)
01_Node.js入门 知识点自测 从 index.js 出发,访问到 student/data.json 的相对路径如何写? A:../public/teacher/data.json B:./public/student/data.json C:../student/data.json <details><summary>答案</sum…...

记一次搞校园网的经历
接教室的校园网,到另一个屋子玩电脑,隔墙想放大一下AP的信号,发现死活不行 这是现状 由于校园网认证的存在,无法用桥接,桥接需要路由器有IP,而这个IP无法用未刷机的路由器来打开校园网页面认证 解决 将一…...

沃德云商协系统微信小程序PHP+Uniapp
“多组织”的云服务平台,打造总商会、总协会、总校友会、工商联等多组织无障碍沟通合作平台,让各大分会、各大分校友会、分组织实现轻松管理,线上宣传展示、商机挖掘、会员管理、会员服务、跨界交流等, 借助沃德云商协平台系统,让…...

Leecode刷题C语言之可以被进一步捕获的棋子数
执行结果:通过 执行用时和内存消耗如下: 代码如下: int numRookCaptures(char** board, int boardSize, int* boardColSize) {int cnt 0, st 0, ed 0;int dx[4] {0, 1, 0, -1};int dy[4] {1, 0, -1, 0};for (int i 0; i < 8; i) {for (int j…...

【算法】数组中,求K个最大值
已知:数组 [8, 9, 15, 20, 3, 5, 7, 2, 6],求第8个最大值是哪个值? function quickSort(arr, targetIndex, start) {if (arr.length < 1) return arr[0];let left [];let right [];const mid Math.floor(arr.length / 2);const midNum…...

Postman自定义脚本Pre-request-script以及Test
这两个都是我们进行自定义script脚本的地方,分别是在请求执行的前后运行。 我们举两个可能经常运用到的场景。 (一)请求A先执行,请求B使用请求A响应结果作为参数。如果我们不用自定义脚本,可能得先执行请求A,然后手动复制响应结果…...

Lua中实现HTTP请求的User-Agent自定义
User-Agent(用户代理)是HTTP请求头的一部分,用于描述发出请求的客户端的信息,包括浏览器类型、版本和操作系统等。自定义User-Agent对于开发者来说是一个重要的功能,它可以帮助服务器识别请求来源,也可以模…...

工业节能水泵如何节能?
在现代工业生产中,水泵作为一种重要的流体输送设备,广泛应用于各个领域。无论是在制造业、化工、能源,还是在污水处理、灌溉等行业,水泵在保证生产流程顺畅的同时,也消耗了大量的能源。 一、工业水泵系统的能耗现状 …...

第四篇:k8s 理解Service工作原理
什么是service? Service是将运行在一组 Pods 上的应用程序公开为网络服务的抽象方法。 简单来说K8s提供了service对象来访问pod。我们在《k8s网络模型与集群通信》中也说过k8s集群中的每一个Pod(最小调度单位)都有自己的IP地址,都…...

P3131 [USACO16JAN] Subsequences Summing to Sevens S
题目描述 Farmer Johns NN cows are standing in a row, as they have a tendency to do from time to time. Each cow is labeled with a distinct integer ID number so FJ can tell them apart. FJ would like to take a photo of a contiguous group of cows but, due to a…...

大数据技术Kafka详解 ② | Kafka基础与架构介绍
目录 1、kafka的基本介绍 2、kafka的好处 3、分布式发布与订阅系统 4、kafka的主要应用场景 4.1、指标分析 4.2、日志聚合解决方法 4.3、流式处理 5、kafka架构 6、kafka主要组件 6.1、producer(生产者) 6.2、topic(主题) 6.3、partition(分区) 6.4、consumer(消费…...

【CKA】Kubernetes(k8s)认证之CKA考题讲解
CKA考题讲解 0.考试101 0.1 kubectl命令⾃动补全 在 bash 中设置当前 shell 的⾃动补全,要先安装 bash-completion 包。 echo "source <(kubectl completion bash)" >> ~/.bashrc还可以在补全时为 kubectl 使⽤⼀个速记别名: al…...

android WebRtc 无法推流以及拉流有视频无声音问题
最近在开发使用WebRtc进行视频通话和语音通话,我使用的设备是MTK的手机,期间后台的技术人员几乎没法提供任何帮助,只有接口和测试的web端,有遇到不能推流。推流成功网页端有画面有声音,但是安卓端有画面,没…...

【5G】Spectrum 频谱
频谱是移动运营商的关键资产,可用的频谱是定义移动网络容量和覆盖范围的重要因素。本章讨论了5G的不同频谱选项、它们的特性以及5G早期部署阶段的预期频谱。5G是首个旨在利用大约400 MHz到90 GHz之间所有频段的移动无线系统。5G还设计用于在许可、共享和非许可频谱带…...

Flink学习连载文章11--双流Join
双流 Join 和两个流合并是不一样的 两个流合并:两个流变为 1 个流 union connect 双流 join: 两个流 join,其实这两个流还是原来的,只是满足条件的数据会变为一个新的流。 可以结合 sql 语句中的 union 和 join 的区别。 在离线 Hive 中&…...

R语言 | 峰峦图 / 山脊图
目的:为展示不同数据分布的差异。 1. ggplot2 实现 # 准备数据 datmtcars[, c("mpg", "cyl")] colnames(dat)c("value", "type") head(dat) # value type #Mazda RX4 21.0 6 #Mazda RX4 Wag …...

16-03、JVM系列之:内存与垃圾回收篇(三)
JVM系列之:内存与垃圾回收篇(三) ##本篇内容概述: 1、执行引擎 2、StringTable 3、垃圾回收一、执行引擎 ##一、执行引擎概述 如果想让一个java程序运行起来,执行引擎的任务就是将字节码指令解释/编译为对应平台上的本地机器指令才可以。 简…...

解决Windows与Ubuntu云服务器无法通过Socket(udp)通信问题
今天在写Socket通信代码的时候,使用云服务器自己与自己通信没有问题,但是当我们把客户端换为Windows系统的时候却无法发送信息到Linux当中,耗时一上午终于搞定了😒。 问题: 如上图,当我在windows的客户端…...

Mysql 中的锁机制
在 MySQL 中,锁是一种机制,用于管理并发访问以确保数据的一致性和完整性。MySQL 支持多种类型的锁,主要分为以下几类: 全局锁:锁定整个数据库,适用于备份等操作,期间禁止所有其他操作。表级锁&…...

12月第1周AI资讯
阅读时间:3-4min 更新时间:2024.12.2-2024.12.6 目录 OpenAI CEO Sam Altman 预告“12天OpenAI”系列活动 腾讯HunyuanVideo:130亿参数的开源视频生成模型 李飞飞的World Labs发布空间智能技术预览版 中科院联手腾讯打造“AI带货王”AnchorCrafter OpenAI CEO Sam Alt…...

【音频识别】数据集合集!
本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。 1 Chenyme-AAVT 更新时间:2024-08-23 访问地址: GitHub 描述: 这是一个全自动(音频)视频翻译项目。利用Whisper识别声音,AI…...

Nginx核心配置详解
一、配置文件说明 nginx官方帮助文档:nginx documentation nginx的配置文件的组成部分: 主配置文件:nginx.conf子配置文件: include conf.d/*.conffastcgi, uwsgi,scgi 等协议相关的配置文件mime.types:…...

智能工厂的设计软件 用“力force”的性质构造智能体原型
本文要点 在“智能工厂的设计软件”中 我将对力的研究分为三个领域:经典力学,相对论力学和量子力学,每个研究领域都涉及到force自身性质所具有两个侧面: 明示高度内聚的不可观测的内部表征-“互相性”(哲学性质/哲学…...

Apache AGE:基于PostgreSQL的图数据库
Apache AGE(A Graph Extension)是一个基于 PostgreSQL 的图数据库。它以扩展插件的形式提供,可以在利用 PostgreSQL 先进的 SQL 查询功能和事务支持的同时,享受图数据库的灵活性和可扩展性。 Apache AGE 最初由 Bitnine Global In…...

RabbitMQ延迟消息的实现
RabbitMQ延迟队列的实现 延迟消息是什么延迟消息的实现死信交换机代码实现 延迟消息插件 延迟消息是什么 延迟消息是将消息发送到MQ中,消费者不会立即收到消息,而是过一段时间之后才会收到消息,进行处理。在一些业务中,可以用到延…...