当前位置: 首页 > news >正文

从零开始使用Surya-OCR最新版本0.6.1——最强文本检测模型:新添表单表格检测识别

目录

一、更新概述

二、环境安装

        1.基础环境配置

        2.模型参数下载

        3.参数地址配置——settings.py

三、指令使用

      1.命令指令运行


一、更新概述

        surya项目Github地址:https://github.com/VikParuchuri/surya

        号称今年最强OCR的surya近期迎来新的更新,Vik大佬更新了表格检测的模型。

        最新surya——0.6.1版本的识别效果如下。现在还可以识别文章阅读的行文顺序,对表格内的数字信息也可以很好的提取。

二、环境安装

        1.基础环境配置

        在之前使用surya的0.3.0版本中使用的是torch1.12.1,更新后的surya的0.6.0版本需要更高的torch环境,因此需要重新创建虚拟环境,并安装高于2.3.0的Pytorch。

        此处python版本虽然官方文档说和0.3.0版本一样3.9+即可,但使用3.9会红字报错,因为一些代码使用和书写规范在3.9后发生改变,最好使用版本在3.10+以上,如果坚持使用3.9,按下面使用部分报错修改处,处理源码。

# 创建虚拟conda环境
conda create -n surya0.6 python=3.10
# 激活环境
conda activate surya0.6# 安装更高版本pytorch
pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu118# 或者官网稳定版2.4.1
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118## cpu版本
pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cpu

        pytorch安装好了以后直接pip安装最新版surya即可。在编写此文时最新版的为0.6.1版本。

# 安装最新版本surya
pip install --upgrade surya-ocr

         最好将其最新的源码也下载下来,方便后续项目的查看和调试。

        Github地址Surya:https://github.com/VikParuchuri/surya

        2.模型参数下载

        和之前一样如果想直接使用surya需要有良好的“科学上网”配置,因为源码或安装库里面都不直接下载好的了模型参数,第一次使用会到huggingface下载对应模型参数。

        因此有两种解决办法,一是使用huggingface的国内镜像网站hf-mirror;或者提前下载好模型参数到项目目录,在设置中修改模型地址。本文选择后者。

        huggingface作者surya模型参数保存地址:https://huggingface.co/vikp

        (推荐)国内hugging-mirror镜像地址:https://hf-mirror.com/models?search=vikp 

        下载好的模型参数可以在surya源码下载处新建一个huggingmodel子文件夹,下存放各种模型参数。

        3.参数地址配置——settings.py

        推荐将模型下载到本地后,再在surya项目环境安装包源码处修改全局参数中关于模型加载地址部分,这样更不容易报错。

        首先打开在conda中安装的虚拟环境文件夹地址,在以下文件路径中。所有安装在虚拟环境中的库都在此路径下。

miniconda\envs\surya0.6\Lib\site-packages

        在所有安装库中找到surya名称的文件,再打开就可以看到settings.py文件了。

        根据之前源码拆解博文修改其中的模型配置参数。

        博文快速链接:https://blog.csdn.net/qq_58718853/article/details/137815688

三、指令使用

      1.命令指令运行

        有了上述环境准备后,可以直接使用指令快速使用。只需将实际本地图片地址替换下方Data_Path即可。

# ocr文本检测识别
surya_ocr Data_Path# detect文本行检测
surya_detect Data_Path# layout板式分析
surya_layout Data_PATH# table表格检测
surya_table Data_PATH# order文本阅读顺序
surya_order Data_PATH

        首先实验一下检测模型(只需要surya_det3)是否可以使用。结果会在项目项新建一个results文件夹。

         再来测试一下ocr模型。(需要surya_det3和surya_rec2模型)

        还有表格模型。(需要surya_rec2和surya_layout3和surya_tablerec模型)

        2.可视化结果

        只需在上述命令行指令后面加上“--images”即可完成可视化保存。

# 可视化保存
surya_detect DataPath --images

        本文随意截取了两张csdn界面的图像,使用surya进行识别检测测试。

        文本行检测模型可视化结果如下。其检测框似乎还不错,至少有95%以上的正确框。

        板式分析layout模型检测效果如下。

        表格检测模型效果如下。

相关文章:

从零开始使用Surya-OCR最新版本0.6.1——最强文本检测模型:新添表单表格检测识别

目录 一、更新概述 二、环境安装 1.基础环境配置 2.模型参数下载 3.参数地址配置——settings.py 三、指令使用 1.命令指令运行 一、更新概述 surya项目Github地址:https://github.com/VikParuchuri/surya 号称今年最强OCR的surya近期迎来新的更新,Vik…...

linux中级wed服务器(https搭建加密服务器)

一。非对称加密算法: 公钥:公共密钥,开放 私钥:私有密钥,保密 1.发送方用自己的公钥加密,接受方用发送方的私钥解密:不可行 2.发送方用接受方的公钥加密,接受方用自己的私钥解密…...

聊一聊为什么企业数字化转型总是三天热度

听到“数字化转型”,是不是脑子里立马蹦出各种炫酷词汇:AI、大数据、物联网、区块链……瞬间觉得公司马上就要起飞?可惜,现实往往是:转型刚刚起步时大家热血沸腾,结果没过多久一哄而散。最终,这…...

2025年NPDP产品经理认证考试时间和报考条件

在报考2025年NPDP认证考试前,了解NPDP相关考试信息是非常重要的,可以帮助我们更好地制定备考计划,提高学习效率。 NPDP考试时间 NPDP考试每年举办两次,分别在5月和11月进行,且考试一般安排在周末,以便在职的专业人士…...

微信小程序文字转语音播报案例

插件申请 在小程序官方申请同声传译插件,地址: mp.weixin.qq.com 引入插件 在app.json中加入 "plugins": {"WechatSI": {"version": "0.3.6","provider": "wx069ba97219f66d99"}},封装…...

QT SSDP 局域网检测支持扫描通信

一. 什么是SSDP? 简单服务发现协议(SSDP,Simple Service Discovery Protocol)是一种应用层协议,简单服务发现协议是在HTTPU和HTTPMU的基础上实现的协议。简单服务发现协议(SSDP)提供了在局域网里面发现设备的机制。客户端可以通过使用SSDP,根据自己的需要,在局域网查找特…...

python_学习2(仅为本人学习记录)

二、变量与字符串 1、变量的声明和赋值 a.变量在使用前必须要先赋值 b.删除变量,可以通过del语句删除。 a123 del a c.链式赋值 xy123 相当于 x123;y123 d.解包赋值 a,b,c1,2,3 相当于 a1 b2 c3 使用解包赋值给变量交换值:a,b3,4 a,bb,a 2、基本…...

手动将python的flask程序打包成exe在windows上执行

1、安装pyinstaller工具 (venv) PS D:\django\locallibrary> pip install pyinstaller Collecting pyinstallerDownloading pyinstaller-6.11.0-py3-none-win_amd64.whl.metadata (8.4 kB) Requirement already satisfied: setuptools>42.0.0 in d:\django\locallibrary…...

老生常谈,MySQL事务隔离级别

在 MySQL 关系型数据库中,事务隔离级别主要有以下四种: 1)读未提交(READ UNCOMMITTED): 这是最低的隔离级别,在该级别下,一个事务可以看到另一个事务尚未提交的数据修改。这可能会…...

百度翻译以及另外三款翻译工具推荐!!!

在这个全球化的时代,翻译工具已经成为我们生活中不可或缺的一部分。我们需要使用翻译工具来克服语言障碍,无论是出国旅行、商务谈判还是学术研究。那么,市场上有各种各样的翻译工具。有哪些好用的在线翻译软件呢?别担心&#xff0…...

Redis JSON介绍和命令大全

Redis JSON介绍和命令大全 Redis JSON先说说JSON是什么再说说JSON Path先推荐两个网站JSONPath JAVA clents Redis JSON 安装内存json命令语法命令url命令解释JSON.ARRAPPENDJSON.ARRINDEXJSON.ARRINSERTJSON.ARRLENJSON.ARRPOPJSON.ARRTRIMJSON.CLEARJSON.DEBUG MEMORYJSON.DE…...

yolo自动化项目实例解析(八)自建UI-键鼠录制回放

项目中关于键鼠的操作,不像我们之前自动化那样一步一步去定义的,而是用C写了一个记录键鼠的操作,通过回放的方法来实现的 一、通讯系统 1、创建websocket服务器 首先通过事件循环asyncio 和websockets,创建一个持久化的服务端进程…...

C++ 面向对象知识汇总(超详细)

学习交流:0voice GitHub 1.什么是类? 在C中,类(Class) 是一种用户定义的数据类型,用来描述具有相同特征和行为的一组对象。类是面向对象编程(OOP)的核心概念,它通过将…...

stm32使用SIM900A模块实现MQTT对接远程服务器

SIM900A模块是一种GSM/GPRS无线通信模块,它可以通过SIM卡连接移动通信网络,并通过串口或USB接口与微控制器或计算机进行通信。 SIM900A驱动代码如下: #include "stm32f10x.h" #include "stdio.h" #include "stdlib.h" #include "sim900a…...

MATLAB Simulink (一)直接序列扩频通信系统

MATLAB & Simulink (一)直接序列扩频通信系统 写在前面1 系统原理1.1 扩频通信系统理论基础1.1.1 基本原理1.1.2 扩频通信系统处理增益和干扰容限1.1.3 各种干扰模式下抗干扰性能 1.2 直接序列扩频通信系统理论基础1.2.1 基本原理1.2.2 物理模型 2 方…...

标准数字隔离器主要特性和应用---腾恩科技

在现代电子系统中,不同电路部分之间需要可靠的隔离,尤其是在高压环境或必须保持敏感信号完整性的情况下。一种这样的解决方案是使用标准数字隔离器。这些组件在电路的不同部分之间提供电气隔离,确保安全、降噪和可靠的信号传输。本文深入探讨…...

Spring事务的七种传播行为

Spring事务的七种传播行为 1.事务的传播行为是什么?2.具体传播行为2.1 REQUIRED ,默认,存在事务则加入该事务,不存在则新建一个事务2.2 REQUIRES_NEW,每次新开启事务,新老事务相互独立2.3 NESTED&#xff0…...

win10怎么卸载软件干净?电脑彻底删除软件的方法介绍,一键清理卸载残留!

电脑上经常会下载各种各样的软件来协助我们办公,不同的软件能够满足不同的需求。 但是不少软件可能使用频率没有那么高,甚至完全不使用。这个时候就需要将这些不常用的电脑软件卸载掉了,卸载软件能够释放一定的存储空间,提高电脑…...

excel中,将时间戳(ms或s)转换成yyyy-MM-dd hh:mm.ss或毫秒格式

问题 在一些输出为时间戳的文本中,按照某种格式显示更便于查看。 如下,第一列为时间戳(s),第二列是转换后的格式。 解决方案: 在公式输入框中输入:yyyy/mm/dd hh:mm:ss TEXT((A18*3600)/8640070*36519, "yyy…...

机房巡检机器人有哪些功能和作用

随着数据量的爆炸式增长和业务的不断拓展,数据中心面临诸多挑战。一方面,设备数量庞大且复杂,数据中心内服务器、存储设备、网络设备等遍布,这些设备需时刻保持良好运行状态,因为任何一个环节出现问题都可能带来严重后…...

Redis Search系列 - 第一讲 创建索引

目录 一、引言二、全文检索基本概念三、创建索引 一、引言 Redis Search 是 Redis 的一个模块,用于提供全文搜索和二级索引功能。它允许在 Redis 数据库中执行复杂的搜索查询,并支持多种数据类型和查询操作。以下是 Redis Search 的一些关键特性&#x…...

bat 重置 Navicat 试用

bat 脚本文件 echo off set dnInfo set dn2ShellFolder set rpHKEY_CURRENT_USER\Software\Classes\CLSID :: reg delete HKEY_CURRENT_USER\Software\PremiumSoft\NavicatPremium\Registration14XCS /f %针对<strong><font color"#FF0000">navicat<…...

【真题笔记】09-12年系统架构设计师要点总结

【真题笔记】09-12年系统架构设计师要点总结 41 视图DSSA&#xff08;特定领域架构&#xff09;集成系统数据库管理设计模式操作符运算符综合布线备份数据库集成工作流技术软件质量保证需求管理需求开发结构化方法企业战略数据模型事务数据库主题数据库系统设计原型开发静态分析…...

Node + HTML搭建自己的ChatGPT [基础版]

文章目录 明明外面的ChatGPT产品那么多了&#xff0c;为什么要在本地搭建自己的ChatGPT呢&#xff1f;整体架构流程1. 获取APIKey1.1 常见的AI模型1.2 为什么选DeepSeek1.3 怎么获取DeepSeek的APIKey1.3.1 注册并登录DeepSeek开放平台1.3.2 选择API keys1.3.3 创建API key1.3.4…...

关于小程序审核需要提交订单列表页面path的修改办法

小程序又又又又又搞事情啦&#xff5e;&#xff5e;&#xff5e; 从12月31号起&#xff0c;所有有订单生成逻辑的小程序在审核过程中&#xff0c;必须要填写订单列表页面的path才可以进行审核 在代码层面上会有一些小的改动&#xff0c;下面就告诉大家怎么去修改吧。 第一步…...

使用 Nginx 在同一端口部署两个前端项目并配置子路径

在现代 Web 开发中&#xff0c;我们经常需要在同一台服务器上部署多个前端项目。这不仅可以节省资源&#xff0c;还可以简化管理。本文将指导你如何使用Nginx在同一端口上部署两个前端项目&#xff0c;并通过配置子路径来区分它们。 环境准备 首先&#xff0c;我们需要准备两…...

怎么选择独立站SEO效果好的wordpress模板

选择独立站SEO效果好的WordPress模板需要考虑多个因素&#xff0c;包括模板的代码质量、加载速度、SEO友好性以及与SEO插件的兼容性。以下是一些具体的建议&#xff1a; 1. 代码简洁&#xff1a;选择代码简洁的WordPress主题&#xff0c;因为干净的代码不仅使网站更加安全可靠…...

深度学习速通系列:超长法律文件隐私过滤(基于预训练模型Bert)

法律文件隐私过滤 网上使用bert的中文模型进行命名识别教程少的可怜,摸索了一周的时间,硬是把法律文书的人名全部识别出来了,目前可以达到98.9999%(开玩笑的,不过准确率保守估计是有90%以上).注意:这个法律文书目前只是针对裁决书,其他还没测试过,可支持超长文本识别 github仓…...

【数据结构与算法】之队列详解

队列&#xff08;Queue&#xff09;是一种重要的线性数据结构&#xff0c;遵循先进先出、后进后出的原则。本文将更详细地介绍队列的概念、特点、Java 实现以及应用场景。 模运算小复习&#xff1a; a % b 的值总是小于b 5 % 4 1 5 % 2 1 1 % 5 1 4 % 5 4 1. 队列…...

python最新h5st4.9.1调用源码(2025-10-25)

废话不多说&#xff0c;直接上源码&#xff0c;需要技术支持的私。 一、调用js方法&#xff1a; # -*- coding: utf-8 -*- """ -------------------------------------------------Author: byc6352File: jdh5st.pyTime: 2024/10/25 08:03Technical Support:by…...

java做购物网站/什么是搜索引擎营销

文章目录 1. 网页的相关概念2. 常用的游览器及内核3. web标准4. HTML语法规范4.1 基本语法概述4.2 标签关系5. HTML基本结构标签6. DOCTYPE和lang以及字符集的作用6.1 文档类型声音标签6. 2 lang语言种类6.3 字符集7. 标签语义8. 标题标签9. 段落标签和换行标签10. HTML格式化1…...

二级域名网站可以做关键词优化吗/今日广东头条新闻

Emacs v25.1 在win7 卡顿得厉害&#xff0c;滚动条拖动一下&#xff0c;就卡半天没反应&#xff0c;就像中了病毒一样。 解决&#xff1a; 打开菜单Options->Set Default Font&#xff0c;将字体改为宋体。 然后再回到Options菜单&#xff0c;点Save Options。这一步可千…...

做百度移动端网站优化/张家界百度seo

Tensorflow中,什么是Logits,它和我们常用的Feature有什么不同&#xff1f; 在tensorflow中经常会用到三个函数 tf.nn.softmax_cross_entropy_with_logits(label one_hot_label, logits logits) tf.nn.softmax_cross_entropy(label one_hot_label, logits logits) tf.nn.so…...

政务网站建设工作的通知/seo关键词排名优化销售

两者操作流程图 请先看图再结合例子记忆 1. 普通的 input 元素 在页面上&#xff0c;有这样一个 input 元素。 <input id"myInput" type"text" value"Jethro" />;我们分别用 input.value 和 getAttribute() 两种方式获取它 value 属性的…...

上海松江做网站建设/朋友圈的广告推广怎么弄

https://stackoverflow.com/questions/37714462/numpy-einsum-broadcasting https://obilaniu6266h16.wordpress.com/2016/02/04/einstein-summation-in-numpy/ https://cloud.tencent.com/developer/article/1369762...

wordpress详细安装教程/网络营销事件

本人从Angular2时代开始用&#xff0c;当时全国都没什么人敢碰Angular2&#xff0c;我们就靠着啃它源代码中的注释&#xff0c;熟悉了Angular2的用法&#xff0c;并在实用中&#xff0c;还给Angular2团队提交bug。因此&#xff0c;这里提供给大家最实用的比较&#xff0c;帮助大…...