[目标检测] OCR: 文字检测、文字识别、text spotter
概述
OCR技术存在两个步骤:文字检测和文字识别,而end-to-end完成这两个步骤的方法就是text spotter。
文字检测数据集摘要
daaset | 语言 | 体量 | 特色 |
---|---|---|---|
MTWI | 中英文 | 20k | 源于网络图像,主要由合成图像,产品描述,网络广告(淘宝) |
MSRA-TD500 | 中英文 | ||
SynthText | 800k img + 8000k text | 合成数据 | |
CTW1500 | 中文 | 32k | 野外场景 |
ICDAR 2015 | |||
ICDAR 2019-ReCTS | 中文 | 标识牌上的文字(店铺名等) | |
ICDAR2019-ArT | 中英文 | 组合Total-Text+SCUT-CTW1500+Baidu Curved Scene Text | |
ICDAR2019-LSVT | 中英文 | 30k full annotation + 40k weakly annotation | Large-scale Street View Text with Partial Labeling, |
ICDAR2017-DeText | Text Extraction from Biomedical Literature Figures, 生物医学文献图形中的文本提取 | ||
ICDAR 2011 (Born-Digital Images)、ICDAR 2017 | 英文 | ||
CurvedSynText150k | 英文 | ||
Total-Text | 英文+少量中文 | 1.5k | 各种形状的文本,包括水平的,多取向的和弯曲的 |
Lecture Video DB | |||
IMGUR | handwriting | ||
KAIST | |||
ILST | 印度语言 | 三种印度语言(Devanagari 、 Telugu 和Malayalam)的场景文本识别数据集 | |
VinText | |||
BID | 巴西身份证件数据集 | ||
RCTW | 12k+ | 手机野外拍摄,包括街景、海报、菜单、室内场景以及手机应用的截图 | |
HierText (Google) | 英文 | 自然图像或者文献 |
OCR方法
前沿text spotter方法
- PSENet、PAN、PAN++(PAMI 2021)
- DeepSolo (CVPR2023)
方法框架
- mmocr: 集成方法并不是最新的(2022年以前的),其中预训练方法只支持英文,文字检测方法还可以检测出中文,文字识别无法识别中文,text spotter尚未介入到统一的接口中。
Github high star
- tesseract(57.7k star):大概率是文字识别模型,C/C++,提供command line tool。
- PaddleOCR(38.1k star): 80+ language support。提供轻量化、提供在线demo(后面有测试),provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices。
- EasyOCR(21.8k star): pytorch based,文字检测基于CRAFT,识别基于LSTM+Transformer。Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.提供 在线DEMO。
- tesseract.js (33.2k star): pure Javascript OCR for more than 100 Languages。
- UniOCR (20.6k star): 提供一个界面。
- OCRmyPDF (11.8k star): 解析pdf图片,基于tesseract。
PaddleOCR(PP-OCRv4)测试图如下
(1)弧形分布文字检测和识别都不准
(2) 放大了也识别不出来,应该和training data相关
Reference
- https://mmocr.readthedocs.io/en/dev-1.x/
相关文章:
[目标检测] OCR: 文字检测、文字识别、text spotter
概述 OCR技术存在两个步骤:文字检测和文字识别,而end-to-end完成这两个步骤的方法就是text spotter。 文字检测数据集摘要 daaset语言体量特色MTWI中英文20k源于网络图像,主要由合成图像,产品描述,网络广告(淘宝)MS…...
Windows环境下删除MySQL
文章目录 一、关闭MySQL服务1、winR打开运行,输入services.msc回车2、服务里找到MySQL并停止 二、卸载MySQL软件1、打开控制模板--卸载程序--卸载MySQL相关的所有组件 三、删除MySQL在物理硬盘上的所有文件1、删除MySQL的安装目录(默认在C盘下的Program …...
uniapp:uview-plus的一些记录
customStyle 并不是所有的组件都有customStyle属性来设置自定义属性,有的还是需要通过::v-deep来修改内置样式 form表单 labelStyle 需要的是一个对象 :labelStyle"{color: #333333,fontSize: 32rpx,fontWeight: 500}"dateTimePicker选择器设置默认值…...
OLTP 与 OLAP 系统说明对比和大数据经典架构 Lambda 和 Kappa 说明对比——解读大数据架构(五)
文章目录 前言OLTP 和 OLAPSMP 和 MPPlambda 架构Kappa 架构 前言 本文我们将研究不同类型的大数据架构设计,将讨论 OLTP 和 OLAP 的系统设计,以及有效处理数据的策略包括 SMP 和 MPP 等概念。然后我们将了解经典的 Lambda 架构和 Kappa 架构。 OLTP …...
步骤大全:网站建设3个基本流程详解
一.领取一个免费域名和SSL证书,和CDN 1.打开网站链接:https://www.rainyun.com/z22_ 2.在网站主页上,您会看到一个"登陆/注册"的选项。 3.点击"登陆/注册",然后选择"微信登录"选项。 4.使用您的…...
利用Sentinel解决雪崩问题(二)隔离和降级
前言: 虽然限流可以尽量避免因高并发而引起的服务故障,但服务还会因为其它原因而故障。而要将这些故障控制在一定范围避免雪崩,就要靠线程隔离(舱壁模式)和熔断降级手段了,不管是线程隔离还是熔断降级,都是对客户端(调…...
基于springboot的房产销售系统源码数据库
基于springboot的房产销售系统源码数据库 摘 要 随着科学技术的飞速发展,各行各业都在努力与现代先进技术接轨,通过科技手段提高自身的优势;对于房产销售系统当然也不能排除在外,随着网络技术的不断成熟,带动了房产…...
【MATLAB】基于Wi-Fi指纹匹配的室内定位-仿真获取WiFi RSSI数据(附代码)
基于Wi-Fi指纹匹配的室内定位-仿真获取WiFi RSSI数据 WiFi指纹匹配是室内定位最为基础和常见的研究,但是WiFi指纹的采集可以称得上是labor-intensive和time-consuming。现在,给大家分享一下我们课题组之前在做WiFi指纹定位时的基于射线跟踪技术仿真WiFi…...
深圳晶彩智能ESP32-3248S035R使用LovyanGFX实现手写板
深圳晶彩智能ESP32-3248S035R介绍 深圳晶彩智能出品ESP32-3248S035R为3.5寸彩色屏采用分辨率480x320彩色液晶屏,驱动芯片是ST7796。板载乐鑫公司出品ESP-WROOM-32,Flash 4M。型号尾部“R”标识电阻膜的感压式触摸屏,驱动芯片是XPT2046。 Lo…...
【Spring Boot】深入解密Spring Boot日志:最佳实践与策略解析
💓 博客主页:从零开始的-CodeNinja之路 ⏩ 收录文章:【Spring Boot】深入解密Spring Boot日志:最佳实践与策略解析 🎉欢迎大家点赞👍评论📝收藏⭐文章 目录 Spring Boot 日志一. 日志的概念?…...
ISTQB选择国内版,还是国际版呢
1, ISTQB简介 ISTQB(International Software Testing Qualifications Board)是一个国际软件测试资格认证机构,旨在提供一个统一的软件测试认证标准。ISTQB成立于2002年,是非盈利性的组织,由世界各地的国家或地区软件测…...
头歌-机器学习 第11次实验 softmax回归
第1关:softmax回归原理 任务描述 本关任务:使用Python实现softmax函数。 相关知识 为了完成本关任务,你需要掌握:1.softmax回归原理,2.softmax函数。 softmax回归原理 与逻辑回归一样,softmax回归同样…...
Qt for MCUs 2.7正式发布
本文翻译自:Qt for MCUs 2.7 released 原文作者:Qt Group高级产品经理Yoann Lopes 翻译:Macsen Wang Qt for MCUs的新版本已发布,为Qt Quick Ultralite引擎带来了新功能,增加了更多MCU平台的支持,并且我们…...
共享IP和独享IP如何选择,两者有何区别?
有跨境用户在选择共享IP和独享IP时会有疑问,不知道该如何进行选择,共享IP和独享IP各有其特点和应用场景,选择哪种方式主要取决于具体需求和预算。以下是对两者的详细比较: 首先两者的主要区别在于使用方式和安全性:共…...
文心一言VSchatGPT4
文心一言和GPT-4各有优势,具体表现在不同的测试场景下。 在某些测试场景中心一言的表现优于GPT-4,例如在故事的完整度和情节吸引力方面,文心一言表现得更加符合指令,情节更吸引人。这可能得益于其模型在训练时对中文语境的深入理…...
Linux 目录结构与基础查看命令
介绍 目录结构如下 /bin:存放着用户最经常使用的二进制可执行命令,如cp、ls、cat等。这些命令是系统管理员和普通用户进行日常操作所必需的。 /boot:存放启动系统使用的一些核心文件,如引导加载器(bootstrap loader…...
【matlab】如何解决打开缓慢问题(如何让matlab在十几秒内打开)
【matlab】如何解决打开缓慢问题(如何让matlab在十几秒内打开) 找到我们解压缩时Crack中的license_standalone.lic文件,将其拷贝 在安装matlab的路径下新建一个文件,粘贴上面的license_standalone.lic文件 在桌面鼠标移动到matl…...
【stata】求滚动波动情况
0.计算对象 计算 t t t、 t 1 t1 t1、 t 2 t2 t2 这三起滚动波动情况 V o l i , t l n ( ∑ n t n t 2 ( g n − g ˉ ) 2 3 ) Vol_{i,t} ln(\sqrt{\frac{\sum_{nt}^{nt2}(g_{n}-\bar{g})^2}{3}}) Voli,tln(3∑ntnt2(gn−gˉ)2 ) e . g e.g e.g: 假设 200…...
The C programming language (second edition,KR) exercise(CHAPTER 2)
E x c e r c i s e 2 − 1 Excercise\quad 2-1 Excercise2−1:输出结果如图1和图2所示,这道练习题需要文章1和文章2的知识。 #include <stdio.h> #include <limits.h>float getFloat(char sign, unsigned char exp, unsigned mantissa); do…...
rust实现循环链表
作为一个计算机技术专家,针对你的问题,我将首先解释如何使用Rust语言实现循环链表,并提供相应的代码示例。然后,我将解释一个可能的报错问题及其解决方法。 循环链表的实现 在Rust中实现循环链表,首先需要定义链表节…...
2. Spring的创建和Bean的存取
经过前面的学习我们已经大体明白了 IOC 思想以及它的实现方式 DI ,本节要讲的是如何Spring框架实现实现DI。 本节目标: Spring(Core) 项目创建将对象存储到 Spring 中将对象(bean)从 Spring 中取出 1. 创建 Spring 项目 与开篇演示的 Spring Boot 项目不…...
策略模式【行为模式C++】
1.概述 策略模式是一种行为设计模式, 它能让你定义一系列算法, 并将每种算法分别放入独立的类中, 以使算法的对象能够相互替换。 策略模式通常应用于需要多种算法进行操作的场景,如排序、搜索、数据压缩等。在这些情况下&#x…...
php中session相关知识(目前了解部分)
#记录学习知识 一.ini_set() 在PHP中,ini_set() 函数用于在脚本运行时设置指定的配置选项的值。这些配置选项可以是PHP的核心设置,例如文件上传的最大大小、脚本的最大执行时间、错误报告级别等。使用 ini_set() 可以临时改变PHP.ini文件中的设置&am…...
从零实现诗词GPT大模型:GPT是怎么生成内容的?
专栏规划: https://qibin.blog.csdn.net/article/details/137728228 再开始编写GPT之前,我们得对GPT是怎么生成内容的有一个大致的了解。目前的神经网络我们大多都可以看成是一个黑盒,即我们把数据输送给网络后,网络给我我们输出,我们可以不用关心这个黑盒里到底是怎么实现…...
8路HDMI+8路AV高清视频流媒体编码器JR-3218HD
产品简介: JR-3218HD高清音视频编码产品支持8路高清HDMI音视频采集功能,8路AV视频采集功能,8路3.5MM独独立音频接口采集功能。编码输出双码流H.264格式,音频MP3/AAC格式。编码码率可调,画面质量可控制。支持HTTP/RTSP…...
LangChain入门:14.LLMChain:最简单的链的使用
摘要 本文将介绍LangChain库中LLMChain工具的使用方法。LLMChain将提示模板、语言模型(LLM)和输出解析器整合在一起,形成一个连贯的处理链,简化了与语言模型的交互过程。我们将探讨LLMChain的技术特点、应用场景以及它解决的问题…...
深入理解k8s kube-proxy
1、概述 我觉得只要大家知道kube-proxy是用来配置网络规则的而不是转发流量的,真正的流量由iptables/ipvs来转发就可以了。 网络是k8s的一个关键部分。理解k8s中网络组件如何工作可以帮助更好的设计和配置我们的应用。 kube-proxy就是K8s网络的核心组件。它把我们…...
Spark-机器学习(1)什么是机器学习与MLlib算法库的认识
从这一系列开始,我会带着大家一起了解我们的机器学习,了解我们spark机器学习中的MLIib算法库,知道它大概的模型,熟悉并认识它。同时,本篇文章为个人spark免费专栏的系列文章,有兴趣的可以收藏关注一下&…...
java的正则表达式校验,包含了中国几乎所有运营商手机号码的校验格式
时间2024年4月14日22:25:00 代码 String PHONE_REGEX "^1([38][0-9]|4[579]|5[0-3,5-9]|6[6]|7[0135678]|9[89])\\d{8}$";解释 这个Java代码段定义了一个常量 PHONE_REGEX,它包含了一个正则表达式,用于匹配中国大陆的手机号码。下面是对这…...
C#简单工厂模式的实现
using System.Diagnostics.Metrics; using System.Runtime.InteropServices; using static 手写工厂模式.Program;namespace 手写工厂模式 {internal class Program{public interface eats {void eat();}//定义了一个接口public class rice : eats{public void eat() {Console.…...
网站开发设计资讯/企业网站制作与维护
每天一点点,记录工作中实操可行 hive json数组解析 hive中有字段A长这个样子,想把其中的name值全部解析出来 [{"itemRateId":"73288842","name":"东北有机大米饭","rating":4,"ratingContent&…...
wordpress 查看sql/上海网络优化seo
本文为高赞 GitHub 开源项目盘点,且 推荐的开源项目已经收录到 Awesome GitHub Repo,本期推荐 : 1. 抖音团队开源的 UI 解决方案 2. 一个轻量级 SQLite 可视化工具 3. 一个可将Markdown 转为微信小程序 WXML 的渲染库 4. 一个超级全的第三方…...
免费网站建站一级av/网络培训平台
http://ticktick.blog.51cto.com/823160/d-15 原创 Android音频开发(7):使用 OpenSL ES AP.. 2016-05-08 19:19:47本文主要介绍了 Android OpenSL ES 的框架设计和常见 API 的用法,并给出了示例代码,让初学者能够更加…...
阿里巴巴国际站网页设计教程/公众号开发网站公司
代码 package dataStructureAndAlgorithms;public class SwapSort_bubbleSort {// 增序冒泡排序public static void sort(int[] array) {int length array.length;boolean endFlag true;// i表示这一轮排序要将i位置上的元素确定下来。// 最先确定的是最后一个元素ÿ…...
企业网站例子/营销网站策划方案
随着高考成绩公布,考生们即将填报志愿,那些心中“种草”已久的专业与未来四年的大学生活,仿佛已触手可及。计算机专业,作为一个老牌专业,一直受到广泛关注,得到了不少人的青睐。但计算机专业真的有想象中那…...
syntax highlighter for wordpress/黑帽seo教程
毫无PS痕迹 你的第一本Photoshop书 目录 《毫无PS痕迹-你的本Photoshop书》全书分为四大部分: 第1、2章讲解色彩和图像的原理与基础知识要点。 第3至11章全面讲解了使用Photoshop进行各种设计创作的方法与技巧。这包括色彩调整工具的使用、极其重要的选区、蒙版与图…...