当前位置：首页 > news >正文

解析PDF文件中的图片为文本

news 2026/2/8 4:58:30

解析PDF文件中的图片为文本

1 介绍

解析PDF文件中的图片，由两种思路，一种是自己读取PDF文件中的图片，然后用OCR解析，例如：使用PyMuPDF读取pdf文件，再用PaddleOCR或者Tesseract-OCR识别文字。另一种使用第三方框架，直接读取文字，例如：OCRmyPDF。

读取pdf的包PyMuPDF可以获取PDF中的文本、布局和图片等，并且内嵌了Tesseract-OCR需要独立安装Tesseract项目的tessdata，有兴趣可以试试。

# 开发文档
https://pymupdf.readthedocs.io/en/latest/# Github地址
https://github.com/pymupdf/PyMuPDF

此外，PDF转word用的pdf2docx就用到了PyMuPDF、生成word部分使用的是python-docx

# pdf2docx包
https://github.com/ArtifexSoftware/pdf2docx

OCRmyPDF是基于Tesseract-OCR框架使用Python实现的开源项目，主要解决扫描版的PDF文本识别，可以实现扫描版本的文件查询和解析。

# GitHub地址
https://github.com/ocrmypdf/OCRmyPDF# 开发文档
https://ocrmypdf.readthedocs.io/en/latest/index.html

2 安装环境

本文使用PyMuPDF和PaddleOCR识别pdf文件中的OCR。

# 安装PyMuPDF
pip install PyMuPDF -i https://pypi.tuna.tsinghua.edu.cn/simple# 安装paddlepaddle（我用的是cpu版本）
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple# 安装paddleocr，注意版本问题
# 使用Python时，如果出现“NameError: name 'predict_system' is not defined”错误，请设置版本，我用的是2.7.2
pip install paddleocr -i https://mirror.baidu.com/pypi/simple# PaddleOCR模型下载地址
https://github.com/PaddlePaddle/PaddleOCR/blob/main/doc/doc_ch/models_list.md

3 源代码

import pymupdffrom paddleocr import PaddleOCRdef parse_img_2_text(img_path: str):# 'use_gpu=False'不用gpu，默认使用GPU# 'use_angle_cls=True'自动下载相关的包# 'lang="ch"'设置语言，支持中英文、英文、法语、德语、韩语、日语，参数依次为`ch`, `en`, `french`, `german`, `korean`, `japan`。# 离线使用时，设置模型的目录det_model_dir、rec_model_dir、cls_model_dir第一次联网模型会自动下载到model目录下ocr_model = PaddleOCR(use_gpu=False,use_angle_cls=True,det_model_dir="./model/ch_PP-OCRv4_det_infer/",rec_model_dir="./model/ch_PP-OCRv4_rec_infer/",cls_model_dir="./model/ch_ppocr_mobile_v2.0_cls_infer/")# 识别图片result = ocr_model.ocr(img_path, cls=True)for idx in range(len(result)):res = result[idx]# line是一个列表' [[文本框的位置],(文字,置信度)] 'for line in res:print(line)def parse_text(pdf_path: str):# 读取pdf文件doc = pymupdf.open(pdf_path)# 读取pdf中的页for page in doc:# 读取纯文本text = page.get_textpage().extractText()# 转化为UTF-8text = text.encode("gbk", errors="ignore").decode("utf-8", errors="ignore")print(text)def parse_pdf_2_img(pdf_path: str):# 读取pdf文件doc = pymupdf.open(pdf_path)# 读取pdf中的页for page in doc:# 读取图片，dpi可以调节图片的清晰度page_pix = page.get_pixmap(dpi=256)page_pix.save("E:/test/img/page-%i.png" % page.number)pdf_path_temp = "E:/test/test.pdf"
# parse_text(pdf_path_temp)parse_pdf_2_img(pdf_path_temp)
parse_img_2_text("E:/test/img/page-0.png")

执行截图
在这里插入图片描述

解析PDF文件中的图片为文本

解析PDF文件中的图片为文本 1 介绍解析PDF文件中的图片，由两种思路，一种是自己读取PDF文件中的图片，然后用OCR解析，例如：使用PyMuPDF读取pdf文件，再用PaddleOCR或者Tesseract-OCR识别文字。另一种使用第…...

编程日记 2024/6/25 0:37:24

微信小程序表单

在我们的课程中，我们深入探讨了微信小程序表单的开发和应用。以下是我们课程的主要内容和收获： 一、课程目标本课程旨在帮助学生掌握微信小程序表单的基本概念、开发流程和最佳实践。学生将学习如何创建和配置表单组件，处理表单数据&#xf…...

编程日记 2024/6/25 0:36:22

Javascript高级程序设计(第四版)--学习记录

var关键字：定义变量同时可以进行赋值 var message"hello" message 10 可以改变保存的值，也可以改变值的类型，但是不推荐这样写。 var声明的变量会成为包含它的函数的局部变量。 function test(){ var message "hello";…...

编程日记 2024/6/25 0:32:20

DVWA-CSRF-samesite分析

拿DVWA的CSRF为例子接DVWA的分析，发现其实Impossible的PHPSESSID是设置的samesite1. 参数的意思参考Set-Cookie SameSite:控制 cookie 是否随跨站请求一起发送，这样可以在一定程度上防范跨站请求伪造攻击（CSRF）。下面用DVWA CS…...

编程日记 2024/6/25 0:30:16

代码随想录训练营Day48

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、买卖股票的最佳时机4二、买卖股票的最佳时机含冷冻期三、买卖股票含手续费前言提示：这里可以添加本文要记录的大概内容： 今天是…...

编程日记 2024/6/25 0:29:15

React进阶（五）：导航守卫_renderroutes

在《React进阶（四）：路由介绍》博文中，介绍了React路由相关知识，在实际项目开发过程中，路由之间的跳转必定涉及权限、用户是否登陆等限定条件的判定，故需要导航守卫来完成这一事项。在实现reac…...

编程日记 2024/6/25 0:28:15

Python基础系列教程：从零开始学习Python

Python有很多功能强大的机器学习和大数据分析包，适合对大数据和人工智能感兴趣的同学学习。要想了解一门语言，首先需要了解它的语法。本文将介绍Python的一些基础语法，包括数据类型、变量类型、条件控制、循环结构等内容。废话少说&#xff0…...

编程日记 2024/6/25 0:26:13

1、首先将后缀名(.docx)修改为压缩包格式(.zip)。 2、修改解密word加密.py里zip的位置，和新生成的zip的位置和名称 import zipfile import xml.etree.ElementTree as ET import os import shutil# 定义文件路径 zip_file_path rC:\Users\Administrator\Desktop\新…...

编程日记 2024/6/25 0:25:12

LeetCode 算法：二叉树的直径 c++

原题链接🔗：二叉树的直径难度：简单⭐️ 题目给你一棵二叉树的根节点，返回该树的直径。二叉树的直径是指树中任意两个节点之间最长路径的长度。这条路径可能经过也可能不经过根节点 root 。两节点之间路径的长度由…...

编程日记 2024/6/25 0:24:11

盘立方期货Kdj幅图指标公式源码

盘立方期货Kdj幅图指标公式源码： N:250; WR1:100-100*(HHV(HIGH,N)-CLOSE)/(HHV(HIGH,N)-LLV(LOW,N)),DOT,COLORLIGHTGREEN; EW:EMA(WR1,5); STICKLINE(WR1<20,WR1,20,1,0),COLORYELLOW; STICKLINE(WR1>80,WR1,80,1,0),COLORYELLOW; RSV:(CLOSE-LLV(LOW…...

编程日记 2024/6/25 0:21:07

SkyWalking 极简入门

1. 概述 1.1 概念 SkyWalking 是什么？ FROM Apache SkyWalking 分布式系统的应用程序性能监视工具，专为微服务、云原生架构和基于容器（Docker、K8s、Mesos）架构而设计。提供分布式追踪、服务网格遥测分析、度量聚合和可视化一体…...

编程日记 2024/6/25 0:20:05

本篇内容：ArkTS开发系列之事件（2.8.1触屏、键鼠、焦点事件）

上篇回顾： ArkTS开发系列之导航 (2.7动画） 本篇内容：ArkTS开发系列之事件（2.8.1触屏、键鼠、焦点事件） 一、知识储备 1. 触屏事件：包括点击事件、拖拽事件、触摸事件。点击事件 Button()....onClick(…...

编程日记 2024/6/25 0:19:04

测试的基础知识大全【测试概念、分类、模型、流程、测试用例书写、用例设计、Bug、基础功能测试实战】

测试基础笔记 Day01阶段⽬标⼀、测试介绍⼆、测试常⽤分类2.1 阶段划分单元测试集成测试系统测试验收测试 2.2 代码可⻅度划分⿊盒测试：主要针对功能（阶段划分->系统测试）灰盒测试：针对接⼝测试（阶段划分->集成测…...

编程日记 2024/6/25 0:18:03

Power Apps

目录一、引言1、Power Apps2、应用场景3、Power Apps的优势与前景4、补充二、数据源介绍1、SharePoint2、Excel3、Dataverse4、SQL5、补充（1）OneDrive 三、Power Apps应用类型1、画布应用2、模型驱动应用3、网站 Power Pages 四、Power Automate五、Po…...

编程日记 2024/6/25 0:17:02

qt图像处理-将OpenCV的cv::Mat类型转换为QImage类型

在使用Qt进行图像处理时，经常需要将OpenCV的cv::Mat类型转换为QImage类型。以下是几种有效的方法，可以根据具体情况选择合适的方法进行转换。方法一：直接使用QImage构造函数这种方法直接使用QImage的构造函数，通过传递cv::Mat的指针和相关参数来创建QImage对象。这种方…...

编程日记 2024/6/25 0:16:01

代码随想录训练营第十八天 530二叉搜索树的最小绝对差 501二叉搜索树中的众数 236二叉树的最近公共祖先

第一题： 原题链接：530. 二叉搜索树的最小绝对差 - 力扣（LeetCode） 思路： 使用中序遍历的方式：左中右。定义一个pre节点来存放当前节点的前一个节点。在中序的时候处理递归逻辑： 首先先向…...

编程日记 2024/6/25 0:13:58

微信小程序之横向列表展示

效果图参考微信小程序可看代码： <view class"lbtClass"><view class"swiper-container"><scroll-view class"swiper" scroll-x"true" :scroll-left"scrollLeft"><block v-for"(six…...

编程日记 2024/6/25 0:10:56

无人机巡检小羊仿真

详细视频地址仿真效果可视化三维仿真 gazebo物理仿真 px4 飞控仿真仿qgc简易地面站详细视频地址...

编程日记 2024/6/25 0:09:55

springboot redission 分布式锁

Spring Boot中使用Redisson实现分布式锁的方法如下： 1. 首先，需要在项目中引入Redisson依赖。在pom.xml文件中添加以下依赖： xml <dependency> <groupId>org.redisson</groupId> <artifactId>redisson<…...

编程日记 2024/6/25 0:08:54

Vuex中的重要核心属性

Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式。它采用集中式存储管理应用的所有组件的状态，并以相应的规则保证状态以一种可预测的方式发生变化。 Vuex 的核心属性包括： State: State 是 Vuex 存储数据的地方，类似于组件中的 data。它…...

编程日记 2024/6/25 0:06:52

观成科技：隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具，该工具基于TUN接口实现其功能，利用反向TCP/TLS连接建立一条隐蔽的通信信道，支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式，适应复杂网…...

编程新知 2026/2/8 4:37:24

地震勘探——干扰波识别、井中地震时距曲线特点

目录干扰波识别反射波地震勘探的干扰波井中地震时距曲线特点干扰波识别有效波：可以用来解决所提出的地质任务的波；干扰波：所有妨碍辨认、追踪有效波的其他波。地震勘探中，有效波和干扰波是相对的。例如，在反射波…...

编程新知 2026/2/2 3:20:56

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

树莓派摄像头高级使用方法配置通过调谐文件来调整相机行为使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包文章来源： http://raspberry.dns8844.cn/documentation 原文网址配置大多数用例自动工作，无需更改相机配置。但是，一…...

编程新知 2026/2/5 4:39:03

[10-3]软件I2C读写MPU6050 江协科技学习笔记（16个知识点）

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...

编程新知 2026/1/28 8:34:48

数据链路层的主要功能是什么

数据链路层（OSI模型第2层）的核心功能是在相邻网络节点（如交换机、主机）间提供可靠的数据帧传输服务，主要职责包括： 🔑 核心功能详解： 帧封装与解封装封装： 将网络层下发…...

编程新知 2026/2/1 7:31:51

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

引言：为什么 Eureka 依然是存量系统的核心？ 尽管 Nacos 等新注册中心崛起，但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制，是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

编程新知 2026/1/31 7:23:48

【HTML-16】深入理解HTML中的块元素与行内元素

HTML元素根据其显示特性可以分为两大类：块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...

编程新知 2025/11/11 6:28:42

《基于Apache Flink的流处理》笔记

思维导图 1-3 章 4-7章 8-11 章参考资料源码： https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...

编程新知 2026/1/31 14:55:53

Java入门学习详细版（一）

大家好，Java 学习是一个系统学习的过程，核心原则就是“理论实践坚持”，并且需循序渐进，不可过于着急，本篇文章推出的这份详细入门学习资料将带大家从零基础开始，逐步掌握 Java 的核心概念和编程技能。 …...

编程新知 2025/12/14 14:47:02

（转）什么是DockerCompose?它有什么作用？

一、什么是DockerCompose? DockerCompose可以基于Compose文件帮我们快速的部署分布式应用，而无需手动一个个创建和运行容器。 Compose文件是一个文本文件，通过指令定义集群中的每个容器如何运行。 DockerCompose就是把DockerFile转换成指令去运行。 …...

编程新知 2026/1/31 22:59:12

解析PDF文件中的图片为文本

解析PDF文件中的图片为文本

1 介绍

2 安装环境

3 源代码

相关文章：

解析PDF文件中的图片为文本

微信小程序表单

Javascript高级程序设计(第四版)--学习记录

DVWA-CSRF-samesite分析

代码随想录训练营Day48

React进阶（五）：导航守卫_renderroutes

Python基础系列教程：从零开始学习Python

deepl翻译的PDF文档保护密码解除

LeetCode 算法：二叉树的直径 c++

盘立方期货Kdj幅图指标公式源码

SkyWalking 极简入门

本篇内容：ArkTS开发系列之事件（2.8.1触屏、键鼠、焦点事件）

测试的基础知识大全【测试概念、分类、模型、流程、测试用例书写、用例设计、Bug、基础功能测试实战】

Power Apps

qt图像处理-将OpenCV的cv::Mat类型转换为QImage类型

代码随想录训练营第十八天 530二叉搜索树的最小绝对差 501二叉搜索树中的众数 236二叉树的最近公共祖先

微信小程序之横向列表展示

无人机巡检小羊仿真

springboot redission 分布式锁

Vuex中的重要核心属性

观成科技：隐蔽隧道工具Ligolo-ng加密流量分析

地震勘探——干扰波识别、井中地震时距曲线特点

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

[10-3]软件I2C读写MPU6050 江协科技学习笔记（16个知识点）

数据链路层的主要功能是什么

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

【HTML-16】深入理解HTML中的块元素与行内元素

《基于Apache Flink的流处理》笔记

Java入门学习详细版（一）

（转）什么是DockerCompose?它有什么作用？