HalconDotNet实现OCR详解
文章目录
- 一、基于字符分割的 OCR
- 二、基于模板匹配的 OCR
- 三、基于深度学习的 OCR
- 四、基于特征提取的 OCR
- 五、基于区域建议的 OCR
一、基于字符分割的 OCR
字符分割是 OCR 中的一个重要步骤。首先,对包含文本的图像进行预处理,如去噪、二值化等操作,以提高图像质量。然后,根据字符的特征,如连通区域、轮廓等,将图像中的字符分割出来。可以使用投影法、连通区域分析等方法进行字符分割。对于粘连的字符,可能需要进行特殊处理,如形态学操作或基于笔画宽度的分割方法。分割后的字符可以单独进行识别,提高识别的准确性。
C# 示例代码:
using HalconDotNet;class CharacterSegmentationOCR
{public void PerformOCR(){// 读取图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 预处理:二值化HObject binaryImage;HOperatorSet.Threshold(image, out binaryImage, 128, 255);// 连通区域分析进行字符分割HObject connectedRegions;HOperatorSet.Connection(binaryImage, out connectedRegions);// 对每个连通区域进行单独处理HTuple regionCount;HOperatorSet.CountObj(connectedRegions, out regionCount);for (int i = 1; i <= regionCount; i++){HObject singleRegion;HOperatorSet.SelectObj(connectedRegions, out singleRegion, i);// 对单个字符区域进行识别,可以使用 Halcon 的 OCR 引擎HTuple recognizedText;using (new HOperatorSet()){HOperatorSet.ReadOcrClassMlp("ocr_model_file.omc", out recognizedText);HOperatorSet.DoOcrMultiClassMlp(singleRegion, recognizedText, out _, out _, out _, out _, out _, out _);}Console.WriteLine($"Recognized character: {recognizedText}");singleRegion.Dispose();}// 释放资源image.Dispose();binaryImage.Dispose();connectedRegions.Dispose();}
}
二、基于模板匹配的 OCR
模板匹配 OCR 方法首先创建一系列不同字符的模板图像。对于待识别的图像,将其与每个模板进行比较,计算相似度。相似度可以通过多种方式计算,如归一化互相关等。根据相似度最高的模板确定对应的字符。这种方法对于字体较为固定、图像质量较好的情况效果较好。但需要预先创建大量的模板,并且对于字体变化、变形等情况可能不够鲁棒。
C# 示例代码:
using HalconDotNet;class TemplateMatchingOCR
{public void PerformOCR(){// 读取待识别图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 加载字符模板HObject charTemplates = new HObject();for (char c = 'A'; c <= 'Z'; c++){HObject template = new HObject();HOperatorSet.ReadImage(out template, $"template_{c}.jpg");charTemplates = charTemplates.ConcatObj(template);template.Dispose();}// 进行模板匹配HTuple recognizedCharacters = new HTuple();HTuple scores = new HTuple();HOperatorSet.FindTemplate(image, charTemplates, -0.39, 6.28, 0.5, 1, 0.5, out _, out scores);for (int i = 0; i < scores.Length; i++){if (scores[i] > 0.8){recognizedCharacters = recognizedCharacters.ConcatObj((HTuple)charTemplates[i]);}}Console.WriteLine($"Recognized text: {recognizedCharacters}");// 释放资源image.Dispose();charTemplates.Dispose();}
}
三、基于深度学习的 OCR
深度学习在 OCR 中取得了显著的成果。通过使用深度神经网络,如卷积神经网络(CNN)和循环神经网络(RNN)的组合,可以自动学习字符的特征,无需手动设计特征提取器。首先,收集大量的标注文本图像数据集,对神经网络进行训练。训练过程中,网络不断调整权重和参数,以最小化预测结果与真实标签之间的误差。在识别阶段,将待识别图像输入训练好的网络,网络输出预测的字符序列。深度学习方法对于复杂背景、字体变化、变形等情况具有较好的鲁棒性。
C# 示例代码:
using HalconDotNet;
using Halcon.OCR;class DeepLearningOCR
{public void PerformOCR(){// 读取图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 创建 OCR 引擎HOcrEngine ocrEngine = new HOcrEngine();ocrEngine.InitOcrEngine("deep_learning_model_file.omc");// 进行 OCR 识别HTuple recognizedText;ocrEngine.ApplyOcr(image, out recognizedText);Console.WriteLine($"Recognized text: {recognizedText}");// 释放资源image.Dispose();ocrEngine.Dispose();}
}
四、基于特征提取的 OCR
特征提取是 OCR 中的关键步骤之一。通过提取字符的特征,可以减少数据维度,提高识别的效率和准确性。常见的特征包括几何特征(如字符的高度、宽度、面积等)、统计特征(如灰度直方图、矩特征等)和结构特征(如字符的笔画结构、轮廓特征等)。对于不同的字体和图像质量,可以选择不同的特征组合。然后,使用分类器对提取的特征进行分类,确定字符的类别。
C# 示例代码:
using HalconDotNet;class FeatureExtractionOCR
{public void PerformOCR(){// 读取图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 预处理:二值化HObject binaryImage;HOperatorSet.Threshold(image, out binaryImage, 128, 255);// 连通区域分析HObject connectedRegions;HOperatorSet.Connection(binaryImage, out connectedRegions);// 提取特征HTuple features = new HTuple();HTuple regionCount;HOperatorSet.CountObj(connectedRegions, out regionCount);for (int i = 1; i <= regionCount; i++){HObject singleRegion;HOperatorSet.SelectObj(connectedRegions, out singleRegion, i);// 提取几何特征和统计特征HTuple area, width, height;HOperatorSet.AreaCenter(singleRegion, out area, out _, out _);HOperatorSet.RegionFeatures(singleRegion, "width", out width);HOperatorSet.RegionFeatures(singleRegion, "height", out height);features = features.ConcatObj(area.ConcatObj(width.ConcatObj(height)));singleRegion.Dispose();}// 使用分类器进行识别HTuple recognizedCharacters;// 假设已经训练好分类器// 使用分类器对特征进行分类,得到识别结果recognizedCharacters = Classifier.Predict(features);Console.WriteLine($"Recognized text: {recognizedCharacters}");// 释放资源image.Dispose();binaryImage.Dispose();connectedRegions.Dispose();}
}
五、基于区域建议的 OCR
区域建议方法首先在图像中生成可能包含字符的区域建议。可以使用基于深度学习的目标检测算法,如 Faster R-CNN 等,来生成区域建议。然后,对每个区域建议进行字符识别。这种方法可以有效地处理复杂背景下的文本识别问题,并且可以同时识别多个字符区域。通过对区域建议进行筛选和合并,可以提高识别的准确性和效率。
C# 示例代码:
using HalconDotNet;
using Halcon.OCR;class RegionProposalOCR
{public void PerformOCR(){// 读取图像HObject image = new HObject();HOperatorSet.ReadImage(out image, "text_image.jpg");// 创建 OCR 引擎HOcrEngine ocrEngine = new HOcrEngine();ocrEngine.InitOcrEngine("ocr_model_file.omc");// 使用区域建议算法生成可能的字符区域HObject regionProposals;// 假设已经有区域建议算法生成的区域regionProposals = GenerateRegionProposals(image);// 对每个区域进行 OCR 识别HTuple recognizedText = new HTuple();HTuple regionCount;HOperatorSet.CountObj(regionProposals, out regionCount);for (int i = 1; i <= regionCount; i++){HObject singleRegion;HOperatorSet.SelectObj(regionProposals, out singleRegion, i);HTuple tempRecognizedText;ocrEngine.ApplyOcr(singleRegion, out tempRecognizedText);recognizedText = recognizedText.ConcatObj(tempRecognizedText);singleRegion.Dispose();}Console.WriteLine($"Recognized text: {recognizedText}");// 释放资源image.Dispose();regionProposals.Dispose();ocrEngine.Dispose();}private HObject GenerateRegionProposals(HObject image){// 这里假设使用一个虚构的区域建议算法生成区域HObject dummyRegions = new HObject();// 根据具体需求生成区域建议并返回return dummyRegions;}
}
相关文章:
HalconDotNet实现OCR详解
文章目录 一、基于字符分割的 OCR二、基于模板匹配的 OCR三、基于深度学习的 OCR四、基于特征提取的 OCR五、基于区域建议的 OCR 一、基于字符分割的 OCR 字符分割是 OCR 中的一个重要步骤。首先,对包含文本的图像进行预处理,如去噪、二值化等操作&#…...
手搓一个Agent#Datawhale 组队学习Task3
书接上回,首先回顾一下Task2的一些补充: Task2主要任务是从零预训练一个tiny-llama模型,熟悉一下Llama的模型架构和流程。然后测试一下模型的效果。总的来说,因为某些未知的原因,loss一直没有降下去,导致最…...
基于SpringBoot+Vue+MySQL的在线酷听音乐系统
系统展示 用户前台界面 管理员后台界面 系统背景 随着互联网技术的飞速发展,网络已成为人们日常生活中不可或缺的一部分。在线音乐服务因其便捷性和丰富性,逐渐成为用户获取音乐内容的主要渠道。然而,传统的音乐播放平台往往存在歌曲资源有限…...
大数据实时数仓Hologres(一):Hologres 简单介绍
文章目录 Hologres 简单介绍 一、什么是实时数仓 Hologres 二、产品优势 1、专注实时场景 2、亚秒级交互式分析 3、统一数据服务出口 4、开放生态 5、MaxCompute查询加速 6、计算存储分离架构 三、应用场景 搭建实时数仓 四、产品架构 1、Shared Disk/Storage &am…...
【鸿蒙HarmonyOS NEXT】数据存储之分布式键值数据库
【鸿蒙HarmonyOS NEXT】数据存储之分布式键值数据库 一、环境说明二、分布式键值数据库介绍三、示例代码加以说明四、小结 一、环境说明 DevEco Studio 版本: API版本:以12为主 二、分布式键值数据库介绍 KVStore简介: 分布式键值数据库…...
基于springboot+小程序的儿童预防接种预约管理系统(疫苗1)(源码+sql脚本+视频导入教程+文档)
👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 本儿童预防接种预约微信小程序可以实现管理员和用户。 1、管理员功能有个人中心,用户管理,儿童信息管理,疫苗信息管理,儿童接种管理&#x…...
计算物理精解【8】-计算原理精解【5】
文章目录 logistic模型多元回归分析多元回归分析概览1. 多元回归的概念与重要性2. 多元回归在实际应用中的例子3. 多元回归在预测和解释数据中的优势和局限性4. 多元回归的优缺点及改进建议 多元线性回归分析详解一、原理二、性质三、计算四、例子与例题五、应用场景六、优缺点…...
【Linux】 tcp | 解除服务器对tcp连接的限制 | 物联网项目配置
一、修改tcp连接限制 1、编辑 vi /etc/sysctl.conf 2、内容 net.ipv4.tcp_keepalive_intvl 75 net.ipv4.tcp_keepalive_probes 9 net.ipv4.tcp_keepalive_time 7200 net.ipv4.ip_local_port_range 1024 65535 net.ipv4.ip_conntrack_max 20000 net.ipv4.tcp_max_tw_bucket…...
如何隐藏Windows10「安全删除硬件」里的USB无线网卡
本方法参照了原文《如何隐藏Windows10「安全删除硬件」里的USB无线网卡》里面的方法,但是文章中的描述我的实际情况不太一样,于是我针对自己的实际情况进行了调整,经过测试可以成功隐藏Windows10「安全删除硬件」里的USB无线网卡。 先说一下…...
【QT Quick】基础语法:导入外部JS文件及调试
在 QML 中,可以使用 JavaScript 来实现业务逻辑的灵活性和简化开发。接下来我们会学习如何导入 JavaScript 文件,并在 QML 中使用它,同时也会介绍如何调试这些 JavaScript 代码。 导入 JavaScript 文件 在 QML 中导入 JavaScript 文件的方式…...
【质优价廉】GAP9 AI算力处理器赋能智能可听耳机,超低功耗畅享未来音频体验!
当今世界,智能可听设备已经成为了流行趋势。随后耳机市场的不断成长起来,消费者又对AI-ANC,AI-ENC(环境噪音消除)降噪的需求逐年增加,但是,用户对于产品体验的需求也从简单的需求,升…...
用Flutter几年了,Flutter每个版本有什么区别?
用Flutter几年了,你知道Flutter每个版本有什么区别吗?不管是学习还是面试我们可能都需要了解这个信息。 Flutter 每个版本的用法基本都是一样的,每隔几天或者几周就会更新一个版本, 2018 年 12 月 5 日发布了1.x 版本&#…...
解决Qt每次修改代码后首次运行崩溃,后几次不崩溃问题
在使用unique_ptr声明成员变量后,我习惯性地在初始化构造列表中进行如下构造: 注意看,我将m_menuBtnGroup的父类指定为ui->center_menu_widget,这便是导致崩溃的根本原因,解决办法便是先用this初始化,后…...
语言的变量交换
不用第三个变量交换两个变量在面试题或者笔试题中无数次被提到,事实上,有些答案是理论性的,不是准确的。以整型为例,如下对比不同交换方式的差异。 不同的交换方式 利用中间变量c a; 00C02533 8B 45 F8 mov eax,dword ptr [a] 0…...
【muduo源码分析】「阻塞」「非阻塞」「同步」「异步」
欢迎来到 破晓的历程的 博客 ⛺️不负时光,不负己✈️ 文章目录 引言何为「muduo库」安装muduo库阻塞、非阻塞、同步、异步数据准备数据准备 引言 从本篇博客开始,我会陆续发表muduo库源码分析的相关文章。感谢大家的持续关注!!…...
顶顶通呼叫中心中间件-机器人话术挂机后是否处理完成事件
前言 问题:机器人放音的过程中,如果用户直接挂机就会继续匹配下一个流程,如果匹配上的是放音节点,还会进行放音,那么在数据库表中就会多出一条放音记录。 解决方法 一、话术添加一个全局挂机节点 需要在话术中添加一…...
Springboot Mybatis 动态SQL
动态SQL <?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE mapperPUBLIC "-//mybatis.org//DTD Mapper 3.0//EN""https://mybatis.org/dtd/mybatis-3-mapper.dtd"> <mapper namespace"com.wzb.SqlImprove2024…...
ORM的了解
什么是ORM?为什么要用ORM?-CSDN博客 C高级编程(99)面向资源的设计思想(ORM)_c orm-CSDN博客 ORM:Object-Relational-Mapping 对象关系映射 -------------------------- 我想对数据库中的表A进行增删改…...
关于大模型的10个思考
9月28日,第四届“青年科学家50论坛”在南方科技大学举行,美国国家工程院外籍院士沈向洋做了《通用人工智能时代,我们应该怎样思考大模型》的主题演讲,并给出了他对大模型的10个思考。 以下是他10个思考的具体内容: 1…...
CFR( Java 反编译器)---> lambda 表达式底层实现机制
一、安装教程 CFR(Class File Reader)是一个流行的Java反编译器,它可以将编译后的.class文件或整个.jar文件转换回Java源代码。以下是CFR的下载和使用教程: 下载CFR 访问CFR的官方网站或GitHub仓库:CFR的最新版本和所…...
基于算法竞赛的c++编程(28)结构体的进阶应用
结构体的嵌套与复杂数据组织 在C中,结构体可以嵌套使用,形成更复杂的数据结构。例如,可以通过嵌套结构体描述多层级数据关系: struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...
JavaScript 中的 ES|QL:利用 Apache Arrow 工具
作者:来自 Elastic Jeffrey Rengifo 学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。 想获得 Elastic 认证吗?了解下一期 Elasticsearch Engineer 培训的时间吧! Elasticsearch 拥有众多新功能,助你为自己…...
中南大学无人机智能体的全面评估!BEDI:用于评估无人机上具身智能体的综合性基准测试
作者:Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位:中南大学地球科学与信息物理学院论文标题:BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接:https://arxiv.…...
8k长序列建模,蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂
蛋白质结合剂(如抗体、抑制肽)在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上,高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术,但这类方法普遍面临资源消耗巨大、研发周期冗长…...
ffmpeg(四):滤镜命令
FFmpeg 的滤镜命令是用于音视频处理中的强大工具,可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下: ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜: ffmpeg…...
根据万维钢·精英日课6的内容,使用AI(2025)可以参考以下方法:
根据万维钢精英日课6的内容,使用AI(2025)可以参考以下方法: 四个洞见 模型已经比人聪明:以ChatGPT o3为代表的AI非常强大,能运用高级理论解释道理、引用最新学术论文,生成对顶尖科学家都有用的…...
代理篇12|深入理解 Vite中的Proxy接口代理配置
在前端开发中,常常会遇到 跨域请求接口 的情况。为了解决这个问题,Vite 和 Webpack 都提供了 proxy 代理功能,用于将本地开发请求转发到后端服务器。 什么是代理(proxy)? 代理是在开发过程中,前端项目通过开发服务器,将指定的请求“转发”到真实的后端服务器,从而绕…...
AI,如何重构理解、匹配与决策?
AI 时代,我们如何理解消费? 作者|王彬 封面|Unplash 人们通过信息理解世界。 曾几何时,PC 与移动互联网重塑了人们的购物路径:信息变得唾手可得,商品决策变得高度依赖内容。 但 AI 时代的来…...
MySQL 知识小结(一)
一、my.cnf配置详解 我们知道安装MySQL有两种方式来安装咱们的MySQL数据库,分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷,但是文件存放起来数据比较冗余,用二进制能够更好管理咱们M…...
论文阅读笔记——Muffin: Testing Deep Learning Libraries via Neural Architecture Fuzzing
Muffin 论文 现有方法 CRADLE 和 LEMON,依赖模型推理阶段输出进行差分测试,但在训练阶段是不可行的,因为训练阶段直到最后才有固定输出,中间过程是不断变化的。API 库覆盖低,因为各个 API 都是在各种具体场景下使用。…...
