建设互联网站机房需要哪些设备/写软文的平台有哪些
目录
一、需求分析
二、方案设计(概要/详细)
三、技术选型
四、OCR 测试 Demo
五、批量文件识别完整代码实现
六、总结
一、需求分析
市场部同事进行采购或给客户报价时,往往基于过往采购合同数据,给出现在采购或报价的金额区间,现需要整合过往已有合同数据进行录入,以Excel 表格形式,方便市场部同事查找和计算。
二、方案设计(概要/详细)
由于合同文件数据类型多样,格式复杂(样式不固定,且不是单纯的文本文字)于是在数据录入过程中需要进行如下几步操作:
- 数据分类
如果一个PDF包含图像,通常是由扫描仪或者拍照设备生成的PDF。遍历所有的文件判断每一页是否含有图像。把所有文件分成两类,有图(扫描或拍照生成的PDF)或无图(Word转PDF)
- 数据清洗刷选,校准
a.对于格式相对固定的Word转PDF文件,将数据可以全部获取,使用模板匹配提取关键字段(如采购名称、数量、价格、日期等)。在按照关键词(金额,时间等)匹配,并写道Excel A中,并对得到的数据内容进行验证校准。
b.扫描或拍照生成的PDF,使用OCR光学识别,将PDF页面转化成图片,然后再识别图片内容,进行关键词匹配并写道Excel B中,并对得到的数据内容进行验证校准。
- 数据整合
设计好最终需要的Excel要有哪些字段,然后将Excel A 和 Excel B 按照时间排序归并到最终的Excel中 (所有的数据按照时间都存到一个sheet中,方便后期直接查询)
三、技术选型
由于要用到一些数据处理上的方法,使用 Python 会简单一点 ,同时这只是一个简单的需求,不算是一个正规的项目,应该越快越简单越好 Python 作为脚本语言是很好的选择 ,于是采用的技术栈就是 Python + OCR
四、OCR 测试 Demo
import pytesseract
import codecs
from PIL import Imageif __name__ == '__main__':# 指定 Tesseract 安装路径pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'im = Image.open('./test.png')result = pytesseract.image_to_string(im, lang='chi_sim')print(result)# 首先导入codecs库,用codecs.open()方法创建并打开一个名为output.txt的文件,以utf-8编码模式写入resultwith codecs.open('output.txt', 'w', encoding='utf-8') as f:f.write(result)
这种方式只能识别简单的图片文本内容,但是对于拍照,扫描版,以及图片中含有表格的形式,都无法识别。
识别结果
于是更换思路,自己实现OCR难度较大且识别效果不好,经过调研之后,发现GitHub 上有一个开源的OCR 识别工具,可以直接调用里面的API接口,不用自己写OCR 识别方法了。
Umi-OCR总结有几大特点:免费、方便、高效、灵活 支持繁中、英语、日语等语言,使用不同的识别引擎就能识别不同种类的文字,并且给开发者提供Http服务,使用api的方式,让不同的编程语言都调用接口。
Release Umi-OCR v2.1.4 · hiroi-sora/Umi-OCR
下面给出安装包的下载地址
Release Umi-OCR v2.1.4 · hiroi-sora/Umi-OCR
测试结果:
说明:在测试的时候,OCR工具记得打开,否则连接不上
五、批量文件识别完整代码实现
import requests
import json
import openpyxl
import os
import base64
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry
from PIL import Image
from io import BytesIO
from openpyxl import Workbook
from openpyxl.drawing.image import Image as ExcelImage
import fitz # PyMuPDF# compress_image 功能:压缩图片,确保其文件大小不超过指定的最大值。 参数:image_path (str): 图片文件的路径。 max_size_kb (int, 默认值 1024): 图片的最大文件大小(单位:KB)。
# 逻辑:
# 打开图片并获取其 EXIF 信息。
# 获取原始图片的尺寸。
# 使用循环尝试不同的质量参数,直到文件大小小于或等于 max_size_kb 或质量参数降到 10 以下。
# 保存压缩后的图片,确保其尺寸与原始图片一致。
# 返回压缩后的图片对象。def compress_image(image_path, max_size_kb=1024):print("进入压缩方法")# 打开图片img = Image.open(image_path)# 保留图片的 EXIF 信息exif_data = img.info.get('exif', None)# 获取原始图片的尺寸original_size = img.size# 尝试不同的质量参数,直到文件大小小于或等于 max_size_kbquality = 95while True:# 保存压缩后的图片,保留 EXIF 信息img.save(image_path, format=img.format, optimize=True, quality=quality, exif=exif_data)# 检查文件大小file_size_kb = os.path.getsize(image_path) / 1024if file_size_kb <= max_size_kb or quality <= 10:break# 降低质量参数quality -= 5# 确保压缩后的图片尺寸与原始图片一致img = Image.open(image_path)if img.size != original_size:img = img.resize(original_size)img.save(image_path, format=img.format, optimize=True, quality=quality, exif=exif_data)print(f"图片压缩完成,文件大小: {file_size_kb:.2f} KB")return img # 返回压缩后的图片对象# post_url 功能:发送 POST 请求到 OCR API,并将结果写入 Excel 文件。 参数: base64_strings (list): 图片的 Base64 编码字符串列表。excel_file_path (str): Excel 文件的路径。file_name (str): 文件名。imgs (list): 图片对象列表。
# 逻辑:
# 构建请求数据,包括 Base64 编码的图片字符串和选项。
# 设置请求头和重试策略。
# 发送 POST 请求到指定 URL。
# 解析响应数据并将其写入 Excel 文件的相应单元格。
# 调用 insert_images_into_excel 方法将图片插入到 Excel 文件中。
# 保存 Excel 文件。
# 处理请求异常并打印错误信息。def post_url(base64_strings, excel_file_path, file_name, imgs):url = "http://127.0.0.1:1224/api/ocr"data = {"base64": base64_strings[0],"options": {"data.format": "text",}}headers = {"Content-Type": "application/json"}data_str = json.dumps(data)session = requests.Session()retries = Retry(total=4, backoff_factor=2, status_forcelist=[502, 503, 504])session.mount('http://', HTTPAdapter(max_retries=retries))try:response = session.post(url, data=data_str, headers=headers, timeout=100)response.raise_for_status()res_dict = json.loads(response.text)# 写入 Excelworkbook = openpyxl.load_workbook(excel_file_path)sheet = workbook['Sheet']row = sheet.max_row + 1base_name = os.path.splitext(file_name)[0] # 去掉文件后缀sheet[f'A{row}'] = base_name # 文件名放在第一列sheet[f'B{row}'] = res_dict.get('data', '') # 文件内容放在第二列# 插入图片insert_images_into_excel(sheet, row, imgs)# 保存工作簿workbook.save(excel_file_path)except requests.exceptions.RequestException as e:print(f"请求失败: {e}")print(f'post_url 方法调用完成!文件: {file_name}')# insert_images_into_excel 功能:将图片插入到 Excel 工作表中。 参数: sheet (openpyxl.worksheet.worksheet.Worksheet): Excel 工作表对象。 row (int): 插入图片的行号。 imgs (list): 图片对象列表。
# 逻辑:
# 初始化列索引为 3(即 C 列)。
# 遍历图片对象列表,生成正确的列名。
# 将图片对象插入到指定的单元格。
# 更新列索引以插入下一张图片。def insert_images_into_excel(sheet, row, imgs):col = 3 # 从 C 列开始for img in imgs:# 生成正确的列名col_letter = openpyxl.utils.get_column_letter(col)img_path = f"{col_letter}{row}"img_obj = ExcelImage(img)sheet.add_image(img_obj, img_path)col += 1# fix_pic_file 功能:处理图片文件,包括压缩和 Base64 编码。 参数:image_path (str): 图片文件的路径。
# 逻辑:
# 判断文件大小,如果超过 1MB,则调用 compress_image 方法进行压缩。
# 打开图片文件并读取其内容,进行 Base64 编码。
# 去掉 Base64 编码头部(如果存在)。
# 返回 Base64 编码字符串和图片对象。def fix_pic_file(image_path):# 判断文件大小file_size_kb = os.path.getsize(image_path) / 1024if file_size_kb > 1024: # 1MB# 压缩图片img = compress_image(image_path)else:img = Image.open(image_path)with open(image_path, "rb") as image_file:encoded_string = base64.b64encode(image_file.read()).decode('utf-8')# 去掉 base64 编码头部if encoded_string.startswith('data:image/png;base64,'):encoded_string = encoded_string.replace('data:image/png;base64,', '')elif encoded_string.startswith('data:image/jpg;base64,'):encoded_string = encoded_string.replace('data:image/jpg;base64,', '')print(f'fix_pic_file 方法调用完成!文件: {os.path.basename(image_path)}')return encoded_string, img# 功能:将 PDF 文件转换为图片文件。 参数:pdf_path (str): PDF 文件的路径 ; output_folder (str): 输出图片文件的目录。
# 逻辑:
# 打开 PDF 文件。
# 遍历每一页,将其转换为图片并保存到指定目录。
# 返回图片文件路径列表和 PDF 文件的基本名称。def convert_pdf_to_image(pdf_path, output_folder):# 打开 PDF 文件pdf_document = fitz.open(pdf_path)base_name = os.path.splitext(os.path.basename(pdf_path))[0]images = []for page_num in range(len(pdf_document)):page = pdf_document.load_page(page_num)pix = page.get_pixmap()img_path = os.path.join(output_folder, f"{base_name}_page_{page_num + 1}.png")pix.save(img_path)images.append(img_path)return images, base_name# 功能:批量处理指定文件夹中的图片和 PDF 文件。 参数:folder_path (str): 包含图片和 PDF 文件的文件夹路径 ; excel_file_path (str): Excel 文件的路径。# 逻辑:获取文件夹中所有符合条件的文件(PNG、JPG、JPEG、PDF)。
# 遍历每个文件:
# 如果是 PDF 文件,调用 convert_pdf_to_image 方法将其转换为图片。
# 对每张图片调用 fix_pic_file 方法进行处理,获取 Base64 编码字符串和图片对象。
# 调用 post_url 方法将处理结果写入 Excel 文件。
# 如果是图片文件,直接调用 fix_pic_file 和 post_url 方法进行处理。def batch_process(folder_path, excel_file_path):files = [f for f in os.listdir(folder_path) if f.endswith(('.png', '.jpg', '.jpeg', '.pdf'))]for file in files:file_path = os.path.join(folder_path, file)if file.endswith('.pdf'):# 转换 PDF 为图片images, base_name = convert_pdf_to_image(file_path, folder_path)base64_strings = []compressed_imgs = []for img_path in images:base64_string, img = fix_pic_file(img_path)base64_strings.append(base64_string)compressed_imgs.append(img)post_url(base64_strings, excel_file_path, base_name, compressed_imgs)else:base64_string, img = fix_pic_file(file_path)post_url([base64_string], excel_file_path, file, [img])# 批量处理指定文件夹中的 图片和 PDF 文件,通过 OCR API 获取文本内容,并将结果写入 Excel 文件中(同时,处理过程中会对图片进行压缩和 Base64 编码)# 1、指定文件夹路径和 Excel 文件路径。
# 2、如果 Excel 文件不存在,创建一个新的 Excel 文件。
# 3、调用 batch_process 方法批量处理文件夹中的图片和 PDF 文件。
# 4、打印处理结束信息。if __name__ == '__main__':# 指定文件夹路径和 Excel 文件路径folder_path = 'D:\\ssproject\\ssprice'excel_file_path = 'D:\\ssproject\\ssprice\\excel.xlsx'# 创建 Excel 文件(如果不存在)if not os.path.exists(excel_file_path):workbook = Workbook()workbook.save(excel_file_path)# 批量处理图片batch_process(folder_path, excel_file_path)print('处理结束!')
六、总结
当然,以上只是根据实际情况简单实现了一下后端数据录入的工作,要实现数据闭环还需要匹配对应的文件上传功能以及前端页面展示,在此不给予展示实现过程。
相关文章:

Python 调用 Umi-OCR API 批量识别图片/PDF文档数据
目录 一、需求分析 二、方案设计(概要/详细) 三、技术选型 四、OCR 测试 Demo 五、批量文件识别完整代码实现 六、总结 一、需求分析 市场部同事进行采购或给客户报价时,往往基于过往采购合同数据,给出现在采购或报价的金额…...

K8S资源之secret资源
secret资源介绍 secret用于敏感数据存储,底层基于base64编码,数据存储在etcd数据库中 应用场景举例: 数据库的用户名,密码,tls的证书ssh等服务的相关证书 secret的基础管理 1 在命令行响应式创建 1.响应式创建 …...

QT:信号和槽01
QT中什么是信号和槽 概念解释 在 Qt 中,信号(Signals)和槽(Slots)是一种用于对象间通信的机制。信号是对象发出的事件通知,而槽是接收并处理这些通知的函数。 例如,当用户点击一个按钮时&#…...

针对Qwen-Agent框架的Function Call及ReAct的源码阅读与解析:Agent基类篇
文章目录 Agent继承链Agent类总体架构初始化方法`__init__` 方法:`_init_tool` 方法:对话生成方法`_call_llm` 方法:工具调用方法`_call_tool` 方法:`_detect_tool` 方法:整体执行方法`run` 方法:`_run` 方法:`run_nonstream` 方法总结回顾本文在 基于Qwen-Agent框架的Functio…...

XML 查看器:深入理解与高效使用
XML 查看器:深入理解与高效使用 XML(可扩展标记语言)是一种用于存储和传输数据的标记语言。它通过使用标签来定义数据结构,使得数据既易于人类阅读,也易于机器解析。在本文中,我们将探讨 XML 查看器的功能、重要性以及如何高效使用它们。 什么是 XML 查看器? XML 查看…...

《Vue零基础入门教程》第十五课:样式绑定
往期内容 《Vue零基础入门教程》第六课:基本选项 《Vue零基础入门教程》第八课:模板语法 《Vue零基础入门教程》第九课:插值语法细节 《Vue零基础入门教程》第十课:属性绑定指令 《Vue零基础入门教程》第十一课:事…...

以AI算力助推转型升级,暴雨亮相CCF中国存储大会
2024年11月29日-12月1日,CCF中国存储大会(CCF ChinaStorage 2024)在广州市长隆国际会展中心召开。本次会议以“存力、算力、智力”为主题,由中国计算机学会(CCF)主办,中山大学计算机学院、CCF信…...

【VMware】Ubuntu 虚拟机硬盘扩容教程(Ubuntu 22.04)
引言 想装个 Anaconda,发现 Ubuntu 硬盘空间不足。 步骤 虚拟机关机 编辑虚拟机设置 扩展硬盘容量 虚拟机开机 安装 gparted sudo apt install gparted启动 gparted sudo gparted右键sda3,调整分区大小 新大小拉满 应用全部操作 调整完成...

3D Bounce Ball Game 有什么技巧吗?
关于3D Bounce Ball Game(3D弹球游戏)的开发,以下是一些具体的技巧和实践建议: 1. 物理引擎的使用: 在Unity中,使用Rigidbody组件来为游戏对象添加物理属性,这样可以让物体受到重力影响并发…...

【SQL】实战--组合两个表
题目描述 表: Person ---------------------- | 列名 | 类型 | ---------------------- | PersonId | int | | FirstName | varchar | | LastName | varchar | ---------------------- personId 是该表的主键(具有唯一值的列)…...

Spring基于注解实现 AOP 切面功能
前言 在Spring AOP(Aspect-Oriented Programming)中,动态代理是常用的技术之一,用于在运行时动态地为目标对象生成代理对象, 并拦截其方法调用。Spring AOP 默认使用两种类型的动态代理机制:JDK 动态代理和…...

设计模式 更新ing
设计模式 1、六大原则1.1 单一设计原则 SRP1.2 开闭原则1.3 里氏替换原则1.4 迪米特法则1.5 接口隔离原则1.6 依赖倒置原则 2、工厂模式 1、六大原则 1.1 单一设计原则 SRP 一个类应该只有一个变化的原因 比如一个视频软件,区分不同的用户级别 包括访客࿰…...

Elasticsearch 进阶
核心概念 索引(Index) 一个索引就是一个拥有几分相似特征的文档的集合。比如说,你可以有一个客户数据的索引,另一个产品目录的索引,还有一个订单数据的索引。一个索引由一个名字来标识(必须全部是小写字母),并且当我们要对这个索…...

【AI】Sklearn
长期更新,建议关注、收藏、点赞。 友情链接: AI中的数学_线代微积分概率论最优化 Python numpy_pandas_matplotlib_spicy 建议路线:机器学习->深度学习->强化学习 目录 预处理模型选择分类实例: 二分类比赛 网格搜索实例&…...

通过 JNI 实现 Java 与 Rust 的 Channel 消息传递
做纯粹的自己。“你要搞清楚自己人生的剧本——不是父母的续集,不是子女的前传,更不是朋友的外篇。对待生命你不妨再大胆一点,因为你好歹要失去它。如果这世上真有奇迹,那只是努力的另一个名字”。 一、crossbeam_channel 参考 crossbeam_channel - Rust crossbeam_channel…...

【老白学 Java】对象的起源 Object
对象的起源 Object 文章来源:《Head First Java》修炼感悟。 上一篇文章中,老白学习了抽象类和抽象方法,不禁感慨,原来 Java 还可以这样玩。 同时又有了新的疑问,这些父类从何而来的? 本篇文章老白来聊一聊…...

Ubuntu Linux操作系统
一、 安装和搭建 Thank you for downloading Ubuntu Desktop | Ubuntu (这里我们只提供一个下载地址,详细的下载安装可以参考其他博客) 二、ubuntu的用户使用 2.1 常规用户登陆方式 在系统root用户是无法直接登录的,因为root用户的权限过…...

SpringBoot 打造的新冠密接者跟踪系统:企业复工复产防疫保障利器
摘 要 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互联网时代才发现能补上自古…...

嵌入式Linux(SOC带GPU树莓派)无窗口系统下搭建 OpenGL ES + Qt 开发环境,并绘制旋转金字塔
树莓派无窗口系统下搭建 OpenGL ES Qt 开发环境,并绘制旋转金字塔 1. 安装 OpenGL ES 开发环境 运行以下命令安装所需的 OpenGL ES 开发工具和库: sudo apt install cmake mesa-utils libegl1-mesa-dev libgles2-mesa-dev libdrm-dev libgbm-dev2. 安…...

webGL入门教程_06变换矩阵与绕轴旋转总结
变换矩阵与绕轴旋转总结 目录 1. 变换矩阵简介2. 平移矩阵3. 缩放矩阵4. 旋转矩阵 4.1 绕 Z 轴旋转4.2 绕 X 轴旋转4.3 绕 Y 轴旋转 5. 组合变换矩阵6. 结论 1. 变换矩阵简介 在计算机图形学中,变换矩阵用于在三维空间中对物体进行操作,包括ÿ…...

生成树详解(STP、RSTP、MSTP)
目录 1、STP 1.概述 2.基本概念 3.端口角色及其作用 4.报文结构 5.STP的端口状态 6.三种定时器 7.STP选举步骤 8.配置BPDU的比较原则 9.TCN BPDU 10.临时环路的问题 11.传统STP的不足 拓扑变更处理过程 2、RSTP 1.端口角色 2.端口状态 3.P/A(Propo…...

【QNX+Android虚拟化方案】128 - QNX 侧触摸屏驱动解析
【QNX+Android虚拟化方案】128 - QNX 侧触摸屏驱动解析 一、QNX 侧触摸屏配置基于原生纯净代码,自学总结 纯技术分享,不会也不敢涉项目、不泄密、不传播代码文档!!! 本文禁止转载分享 !!! 汇总链接:《【QNX+Android虚拟化方案】00 - 系列文章链接汇总》 本文链接:《【…...

C#中的集合初始化器
C#中的集合初始化器是一种简洁的语法,允许在声明集合的同时初始化其元素。这种语法特别适用于初始化实现了IEnumerable接口并具有Add方法的集合类型,如List<T>、Dictionary<TKey, TValue>等。 集合初始化器的基本用法 集合初始化器的基本语…...

cartographer建图与定位应用
文章目录 前言一、安装cartographer1.安装环境2.源码编译2.1 下载2.2 编译 二、gazebo仿真2d建图0.准备仿真环境1.编写lua文件2.编写启动文件3.建图保存 三、cartographer定位 move_base导航3.1 编写启动文件3.2 启动launch 总结 前言 本文介绍cartographer在ubuntu18.04下的…...

专业解析 .bashrc 中 ROS 工作空间的加载顺序及其影响 ubuntu 机器人
专业解析 .bashrc 中 ROS 工作空间的加载顺序及其影响 在使用 ROS(Robot Operating System)进行开发时,通常会涉及多个 Catkin 工作空间(Catkin Workspace)。这些工作空间包含不同的 ROS 包和节点,可能相互…...

Apache Doris 现行版本 Docker-Compose 运行教程
特别注意!Doris On Docker 部署方式仅限于开发环境或者功能测试环境,不建议生产环境部署! 如有生产环境或性能测试集群部署诉求,请使用裸机/虚机部署或K8S Operator部署方案! 原文阅读:Apache Doris 现行版…...

Flink四大基石之窗口(Window)使用详解
目录 一、引言 二、为什么需要 Window 三、Window 的控制属性 窗口的长度(大小) 窗口的间隔 四、Flink 窗口应用代码结构 是否分组 Keyed Window --键控窗 Non-Keyed Window 核心操作流程 五、Window 的生命周期 分配阶段 触发计算 六、Wi…...

NGINX配置https双向认证(自签一级证书)
一 生成自签证书 以下是生成自签证书(包括服务端和客户端的证书)的步骤,以下命令执行两次,分别生成客户端和服务端证书和私钥。具体执行可以先建两个目录client和server,分别进入到这两个目录下执行下面的命令。 生成私钥: 首先&…...

Flink双流Join
在离线 Hive 中,我们经常会使用 Join 进行多表关联。那么在实时中我们应该如何实现两条流的 Join 呢?Flink DataStream API 为我们提供了3个算子来实现双流 join,分别是: join coGroup intervalJoin 下面我们分别详细看一下这…...

【数据结构实战篇】用C语言实现你的私有队列
🏝️专栏:【数据结构实战篇】 🌅主页:f狐o狸x 在前面的文章中我们用C语言实现了栈的数据结构,本期内容我们将实现队列的数据结构 一、队列的概念 队列:只允许在一端进行插入数据操作,在另一端…...