当前位置: 首页 > news >正文

深圳市建设工程监理协会网站/seo好seo

深圳市建设工程监理协会网站,seo好seo,网站源码文件安装教程,p2p网站制作目录 1 古彝文与古典保护 2 古文识别的挑战 2.1 西文与汉文OCR 2.2 古彝文识别难点 3 合合信息:古彝文保护新思路 3.1 图像矫正 3.2 图像增强 3.3 语义理解 3.4 工程技巧 4 总结 1 古彝文与古典保护 彝文指的是云南、贵州、四川等地的彝族人使用的文字&am…

目录

1 古彝文与古典保护

2 古文识别的挑战

2.1 西文与汉文OCR

2.2 古彝文识别难点

3 合合信息:古彝文保护新思路

3.1 图像矫正

3.2 图像增强

3.3 语义理解

3.4 工程技巧

4 总结


1 古彝文与古典保护

彝文指的是云南、贵州、四川等地的彝族人使用的文字,区别于现代意义上的彝文,古彝文指的是在民间流通使用的原生态彝文,多达87046字。古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。

古彝文字义对照图

古籍是不可再生的宝贵资源,应当得到妥善保护。中国的古籍在历史上迭经水火兵燹等自然灾害、人为灾害受到破坏甚至毁灭,现在的古籍与中华民族在整个历史发展过程中形成的典籍相比已经是万不存一,所以保护古籍就显得更为重要。

目前,包括Google在内,全球已有多家技术厂商正在使用AI技术对古籍进行保护。在国内,合合信息携手上海大学,以校企联合、产研一体的形式攻关古彝文识别工作,为中华传统文化的保护与传承贡献自己的一份力!

2 古文识别的挑战

2.1 西文与汉文OCR

在印刷体的文字识别领域,开展最早,且技术上最成熟的是国外的西方文字识别技术。早在 1929 年,德国的科学家Taushek已经取得了一项光学字符识别(optical character recognition, OCR)专利。自上个世纪五十年代以来,欧美国家就开始研究关于西方各个国家的文字识别技术,以便对日常生活中产生的大量文字材料进行数字化处理。经过长时间的不断研究和完善,西文的OCR技术已经有一套完备的识别方案,并广泛地用在西文的各个领域中。

说到光学字符识别大家可能比较陌生,但或多或少都应该听说过OCR,通俗来讲,OCR技术采用电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字

国内关于印刷体文字识别技术的研究起步于上世纪七十年代末,并且主要关注于汉字的识别。通过借鉴印刷体英文识别和印刷体数字识别的方法和经验,近年我国对印刷体汉字的识别技术研究有了飞速的发展,该识别技术已经相当成熟并成功地应用在实际生活中的各个领域。但国外的研究成果主要集中在英文、法文等文字的识别,国内的研究主要集中在印刷体汉字识别上。 古彝文识别技术的研究相对起步比较晚,而且研究也比较少。尽管古彝文的识别可以借鉴其他文字识别的方法和经验,但由于彝文的特殊性,相关技术也无法完全移植到相关识别任务中

2.2 古彝文识别难点

相对于汉字识别的研究而言,古彝文识别技术难度更大,具体而言

  • 版式多样

    汉文与彝文古籍的各类原稿的排版风格都不统一,字符间距和行距有密有疏,彝文古籍虽然没有大小字混排、双列夹字的校注传统,但也时常出现加字、替字、整句倒置和文字方向不统一等现象,给文字定位造成挑战;

  • 手写识别难

    近年来,深度学习由于其卓越的学习能力成为机器学习最流行的技术,被广泛应用在人工智能方面的各个领域中,并产生了革命性的影响。其中,基于端到端(End to End)的深度学习方法可以直接从原始数据的输入到目标结果的输出,减少了因中间环节错误影响整体结果的可能性。端到端的方法在数据量越大时会显示出更好的适应性,它可以减少人工预处理和后续处理的过程,使模型尽可能地从原始输入映射到最终输出。

    然而,和汉文古籍一样,不同的彝文缮写员之间手写风格差异很大,这就需要大量的数据库来建立识别模型。古彝文目前没有公开数据集,而通晓此种文字的人越来越少,导致标注工作量大而人手少,数据量严重不足,亟须引入AI技术构建模型,以弥补本项目训练样本不足;

毕节市彝文文献翻译研究中心展示古籍修复原件(陈宗玉供图)

  • 图像质量差

    由于彝文古籍的保存环境更为艰苦,文本呈现墨色深浅不一、字符间距和行距大小不一的情况。

  • 笔画相近,异体众多

    彝文字从来没有统一过,不仅异体字(两个或多个视觉上完全不同的字)很多,还存在大量的“变体字”,也即各个地方的布摩为防止敌方破译其经书而故意在现有字形上增加或减少一两个笔画产生的,如下图所示的四个字都表示“种类”的意思

表示“种类”的彝文字的四个变体(邵文苑供图)

3 合合信息:古彝文保护新思路

在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,并取得优秀的应用效果,为古彝文识别提供了技术支持;合合信息智能文字识别技术可对图像质量进行增强,提升文字识别效率与准确性。

3.1 图像矫正

因为相机硬件不符合理论上透视相机模型针孔无限小的假设,所以真实图像会产生明显的径向失真——场景中的线条在图像中显示为曲线。径向畸变(Radial Distortion)有两种类型:筒体畸变(Barrel Distortion)枕形失真(Pincushion Distortion)。此外由于相机组装过程中,透镜不能和成像面严格平行,会引入切向畸变(Tangential Distortion),再加上视觉文档图像的拍摄视角一般不垂直于文档平面,产生文档图像的变形和扭曲。例如比较厚重的书籍在展开后其书脊两侧文字区会出现向内弯曲的情况。由此可见,扭曲文档的形变情况要比平面文档要复杂,对其分析和矫正的难度也比平面文档图像要高。

传统扭曲文档的校正方式是对选择的区域进行特征提取 ,以分类回归的方式得到最后的文本区域。例如:

  • 基于连通域的方法。使用边缘的文本检测以及字符的检测方式来分离文本像素和非文本像素。利用图像的底层特征如色彩、亮度、灰度值、纹理、梯度等特点,将图像中具有最类似特征的像素点汇总作为文本候选区域的连通域,再对候选区域进行分类、合并进而来获取文本区域;
  • 基于滑动窗口的方法。采用自顶向下检测方式,利用设计的算法来产生文本候选区域,根据阈值将划分为文本或非文本区域。这种方法的关键是采用随机森林、自适应增强等算法对复杂特征进行提取。

然而,面对古文古籍这类很复杂的文本场景时,图像受遮挡、模糊等因素的影响,加上文本在纵横比、比例、方向呈现的方式不同,传统算法的稳定性变差。

合合信息采用基于偏移场的学习方法大大改善了上述缺陷。偏移场是一种具有中间监督的堆叠U-Net网络,用于直接预测从扭曲图像到校正图像的正向映射。通过扭曲未失真的图像创建高质量的图像合成数据集,而数据驱动和学习的方法可以极大地涵盖各种真实世界条件,提高了模型泛化能力,达到商用级别。偏移场学习对网络进行端到端训练,因此没有使用手工制作的低级特征,所以在提供大规模训练数据的前提下,它可以处理各种文档类型——包括古彝文等古籍文档;且可以作为一种有效的方法部署在现实世界中应用。

3.2 图像增强

因为古籍的物理局限性,往往存在斑点、阴影等影响文字提取和识别的噪声,此时需要借助图像增强技术进行预处理。

从 2017 年开始,生成对抗网络在图像阴影去除方向的应用陆续被人提出并不断完善,以达到图像阴影去除效果进一步的提升。

GAN网络由生成器网络与判别器网络两部分共同构成。其核心思想是通过两个子网各自的最优变化,达到全局的最优效果。生成器网络的核心作用是通过一系列的网络结构生成可以骗过判别器网络的数据,判别器网络的核心作用是通过网络设计可以不被生成器网络生成的数据所骗过。生成器网络与判别器网络二者互相制约,共同成长,形成表现良好的网络结构。有时,网络内部还借助空洞卷积、注意力机制、特征融合、编码器等方法的一个或多个特性进行优化。生成器网络与判别器网络共同训练的过程如图所示

图中蓝色虚线代表判别器分布,黑色虚线代表真实数据,绿线实线代表生成器生成的数据。从左往右依次展示了生成对抗网络模型训练的过程中,生成器网络与判别器网络的变化过程。可见随着训练迭代次数的增加,生成器网络生成的数据逐渐接近数据库中原始的真实数据。直到判别器网络已经不能很好的判断出,它接收到的两种数据,哪个是生成器生成的数据,哪个是数据库中真实的数据,此时,生成对抗网络达到最佳效果,停止迭代。下面展示的是GAN网络对缺失信息、遮挡信息的修复效果。

来源项目:Awesome-Image-Inpainting

3.3 语义理解

编解码的概念广泛应用于各个领域,在 NLP 领域,人们使用语言一般包括三个步骤:

接受听到或读到的语言 -> 大脑理解 -> 输出要说的语言。

语言是一个显式存在的东西,但大脑是如何将语言进行理解、转化、存储的,则是一个目前仍未探明的东西。因此,大脑理解语言这个过程,就是大脑将语言编码成一种可理解、可存储形式的过程,这个过程就叫做语言的编码。相应的,把大脑中想要表达的内容,使用语言表达出来,就叫做语言的解码。在语言模型中,编码器和解码器都是由一个个的Transformer组件拼接在一起形成的

具体到古彝文识别中,就是将输入的古文单词图像的多帧序列转化成一个固定长度的背景向量,完成编码工作,将生成的固定长度的向量再通过一定的方式转化为对应的输出字母序列,完成解码工作

而在这种模型中,输入的古文单词图像往往是一个包含多帧图像的序列,在进行编码解码工作时,要想从输入的一系列信息中关注到与图像对应的输出最相关的显著区域,显然是很困难的。近年来,注意力机制被广泛的应用在图像识别和NLP领域

举例:将"who are you"翻译为"你是谁",传统的模型处理方式是一个seq-to-seq的模型,其包含一个encoder端和一个decoder端,其中encoder端对"who are you"进行编码,然后将整句话的信息传递给decoder端,由decoder解码出"我是谁"。在这个过程中,decoder是逐字解码的,在每次解码的过程中,如果接收信息过多,可能会导致模型的内部混乱,从而导致错误结果的出现。而在生成"你"的时候和单词"you"关系比较大,和"who are"关系不大,所以我们更希望在这个过程中能够使用Attention机制,将更多注意力放到"you"上,而不要太多关注"who are",从而提高整体模型的表现

在古彝文识别中,合合信息就借助了注意力机制完成语义理解。

3.4 工程技巧

像这类大型深度学习项目,往往需要辅以一系列工程技巧达到良好的落地效果,其中很普遍但重要的方法是模型蒸馏。

为什么需要蒸馏?在神经网络的轻量化技术中,蒸馏作为模型压缩类别内的一种举足轻重的技术流派,它的核心思想是让一个性能强大但网络复杂体积庞大不便于移动部署的模型作为教师模型,去引导一个性能较弱但网络简单体积较小易于在移动设备上部署的学生模型,知识从教师模型提取后直接迁移到学生模型中,此期间不经过另外的模型对知识重新提取优化。直接知识蒸馏一般模型数量相对较少,计算要求简单,在实际的任务场景中有广泛的应用。

由于知识的转移不受模型结构的限制,该方法具有很强的灵活性,因此,自 2015年,Hinton等人系统总结了知识蒸馏的概念后,知识蒸馏受到了国内外研究者的广泛关注并不断被后续的研究者所改进。

合合信息借助这些工程方法,在不损失或少量损失性能的基础上,将古文识别的推断速度大大提升。

4 总结

近三年来,合合信息智能文字识别技术先后在ICDAR、ICPR等人工智能国际竞赛中斩获15项冠军,学术成果在CVPR、AAAI、ACL等顶会上发表,相关项目获中国图象图形学学会(CSIG)科技进步奖二等奖。

合合信息深耕人工智能16年,C端产品全球累计用户下载量超过23亿,享有国内外发明专利113项,为超过30个行业提供智能解决方案。合合信息提供了深受全球用户喜爱的效率工具,例如C端的名片全能王、扫描全能王、启信宝等。

合合信息在古文字识别领域已有了一定的积累和成果。在2021年、2022年的世界人工智能大会上,合合信息展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。相信在不远的将来,合合信息会通过古彝文识别项目,为文物保护、文化传承带来更多期待。

相关文章:

焕新古文化传承之路,AI为古彝文识别赋能

目录 1 古彝文与古典保护 2 古文识别的挑战 2.1 西文与汉文OCR 2.2 古彝文识别难点 3 合合信息:古彝文保护新思路 3.1 图像矫正 3.2 图像增强 3.3 语义理解 3.4 工程技巧 4 总结 1 古彝文与古典保护 彝文指的是云南、贵州、四川等地的彝族人使用的文字&am…...

毛玻璃动画交互效果

效果展示 页面结构组成 从上述的效果展示页面结构来看,页面布局都是比较简单的,只是元素的动画交互比较麻烦。 第一个动画交互是两个圆相互交错来回运动。第二个动画交互是三角绕着圆进行 360 度旋转。 CSS 知识点 animationanimation-delay绝对定位…...

Audio2Face的工作原理

预加载一个3D数字人物模型(Digital Mark),该模型可以通过音频驱动进行面部动画。 用户上传音频文件作为输入。 将音频输入馈送到预训练的深度神经网络中。 Audio2Face加载预制的3d人头mesh 3D数字人物面部模型由大量顶点组成,每个顶点都有xyz坐标。 深度神经网络输入音频特征,…...

【面试题】2023前端面试真题之JS篇

前端面试题库 (面试必备) 推荐:★★★★★ 地址:前端面试题库 表妹一键制作自己的五星红旗国庆头像,超好看 世界上只有一种真正的英雄主义,那就是看清生活的真相之后,依然热爱生活。…...

Mysql 分布式序列算法

接上文 Mysql分库分表 1.分布式序列简介 在分布式系统下,怎么保证ID的生成满足以上需求? ShardingJDBC支持以上两种算法自动生成ID。这里,使用ShardingJDBC让主键ID以雪花算法进行生成,首先配置数据库,因为默认的注…...

Windows/Linux双系统卸载Ubuntu

参考:双系统下完全卸载ubuntu...

asp.net core mvc 视图组件viewComponents

ASP.NET Core MVC 视图组件(View Components)是一种可重用的 UI 组件,用于在视图中呈现某些特定的功能块,例如导航菜单、侧边栏、用户信息等。视图组件提供了一种将视图逻辑与控制器解耦的方式,使视图能够更加灵活、可…...

如何保持终身学习

文章目录 2.1. 了解你的大脑2.2 学习是对神经元网络的塑造2.3 大脑的一生 3.学习的心里基础3.1 固定思维与成长思维3.2 我们为什么要学习 4. 学习路径4.1 构建知识模块4.2 大脑是如何使用注意力的4.3 提高专注力4.4 放松一下,学的更好4.5 巩固你的学习痕迹4.6 被动学…...

【RV1103】RTL8723bs (SD卡形状模块)驱动开发

文章目录 前言硬件分析Luckfox Pico的SD卡接口硬件原理图LicheePi zero WiFiBT模块总结 正文Kernel WiFi驱动支持Kernel 设备树支持修改一:修改二: SDK全局配置支持 wifi全局编译脚本支持编译逻辑拷贝rtl8723bs的固件到文件系统的固定目录里面去 上电后手…...

LeetCode 周赛上分之旅 #49 再探内向基环树

⭐️ 本文已收录到 AndroidFamily,技术和职场问题,请关注公众号 [彭旭锐] 和 BaguTree Pro 知识星球提问。 学习数据结构与算法的关键在于掌握问题背后的算法思维框架,你的思考越抽象,它能覆盖的问题域就越广,理解难度…...

kubernetes-v1.23.3 部署 kafka_2.12-2.3.0

文章目录 [toc]构建 debian 基础镜像部署 zookeeper配置 namespace配置 gfs 的 endpoints配置 pv 和 pvc配置 configmap配置 service配置 statefulset 部署 kafka配置 configmap配置 service配置 statefulset 这里采用的部署方式如下: 使用自定义的 debian 镜像作为…...

位置编码器

目录 1、位置编码器的作用 2、代码演示 (1)、使用unsqueeze扩展维度 (2)、使用squeeze降维 (3)、显示张量维度 (4)、随机失活张量中的数值 3、定义位置编码器类,我…...

Lua多脚本执行

--全局变量 a 1 b "123"for i 1,2 doc "Holens" endprint(c) print("*************************************1")--本地变量(局部变量) for i 1,2 dolocal d "Holens2"print(d) end print(d)function F1( ..…...

Spirng Cloud Alibaba Nacos注册中心的使用 (环境隔离、服务分级存储模型、权重配置、临时实例与持久实例)

文章目录 一、环境隔离1. Namespace(命名空间):2. Group(分组):3. Services(服务):4. DataId(数据ID):5. 实战演示:5.1 默…...

26663-2011 大型液压安全联轴器 课堂随笔

声明 本文是学习GB-T 26663-2011 大型液压安全联轴器. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围 本标准规定了大型液压安全联轴器的分类、技术要求、试验方法及检验规则等。 本标准适用于联接两同轴线的传动轴系,可起到限制…...

ChatGPT架构师:语言大模型的多模态能力、幻觉与研究经验

来源 | The Robot Brains Podcast OneFlow编译 翻译|宛子琳、杨婷 9月26日,OpenAI宣布ChatGPT新增了图片识别和语音能力,使得ChatGPT不仅可以进行文字交流,还可以给它展示图片并进行互动,这是一次ChatGPT向多模态进化的…...

二、VXLAN BGP EVPN基本原理

VXLAN BGP EVPN基本原理 1、BGP EVPN2、BGP EVPN路由2.1、Type2路由——MAC/IP路由2.2、Type3路由——Inclusive Multicast路由2.3、Type5路由——Inclusive Multicast路由 ————————————————————————————————————————————————…...

Evil.js

Evil.js install npm i lodash-utils什么?黑心996公司要让你体统跑路了? 想在离开前给你们的项目留点小礼物? 偷偷地把本项目引入你们的项目吧,你们的项目会有但不仅限于如下的神奇效果: 仅在周日时: 当…...

使用sqlmap的 ua注入

文章目录 1.使用sqlmap自带UA头的检测2.使用sqlmap随机提供的UA头3.使用自己写的UA头4.调整level检测 测试环境:bWAPP SQL Injection - Stored (User-Agent) 1.使用sqlmap自带UA头的检测 python sqlmap.py -u http://127.0.0.1:9004/sqli_17.php --cookie“BEEFHOO…...

华为云云耀云服务器L实例评测 | 实例评测使用之体验评测:华为云云耀云服务器管理、控制、访问评测

华为云云耀云服务器L实例评测 | 实例评测使用之体验评测:华为云云耀云服务器管理、控制、访问评测 介绍华为云云耀云服务器 华为云云耀云服务器 (目前已经全新升级为 华为云云耀云服务器L实例) 华为云云耀云服务器是什么华为云云耀…...

resultmap

自定义映射resultMap resultMap处理字段和属性的映射关系 若字段名和实体类中的属性名称不一致,则可以通过resultMap设置自定义映射 建moudel项目【实现多对一、一对多的表操作demo】 temp员工表、dept部门表 导入依赖【mysql驱动、junit、mybatis、日志依赖log4…...

宽带光纤接入网中影响家宽业务质量的常见原因有哪些

1 引言 虽然家宽业务质量问题约60%发生在家庭网(见《家宽用户家庭网的主要质量问题是什么?原因有哪些》一文),但在用户的眼里,所有家宽业务质量问题都是由运营商的网络质量导致的,用户也因此对不同运营商家…...

C++ - 封装 unordered_set 和 unordered_map - 哈希桶的迭代器实现

前言 unordered_set 和 unordered_map 两个容器的底层是哈希表实现的,此处的封装使用的 上篇博客当中的哈希桶来进行封装,相当于是在 哈希桶之上在套上了 unordered_set 和 unordered_map 。 哈希桶的逻辑实现: C - 开散列的拉链法&…...

gradle中主模块/子模块渠道对应关系通过配置实现

前言: 我们开发过程中,经常会面对针对不同的渠道,要产生差异性代码和资源的场景。目前谷歌其实为我们提供了一套渠道包的方案,这里简单描述一下。 比如我主模块依赖module1和module2。如果主模块中声明了2个渠道A和B&#xff0c…...

28383-2012 卷筒料凹版印刷机 学习笔记

声明 本文是学习GB-T 28383-2012 卷筒料凹版印刷机. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围 本标准规定了卷筒料凹版印刷机的型式、基本参数、要求、试验方法、检验规则、标志、包装、运输与 贮存。 本标准适用于机组式的卷筒料凹版…...

stable diffusion学习笔记【2023-10-2】

L1:界面 CFG Scale:提示词相关性 denoising:重绘幅度 L2:文生图 女性常用的负面词 nsfw,NSFW,(NSFW:2),legs apart, paintings, sketches, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, (…...

flink选择slot

flink选择slot 在这个类里修改 package org.apache.flink.runtime.resourcemanager.slotmanager.SlotManagerImpl; findMatchingSlot(resourceProfile):找到满足要求的slot(负责从哪个taskmanager中获取slot)对应上图第8,9&…...

世界前沿技术发展报告2023《世界信息技术发展报告》(六)网络与通信技术

(六)网络与通信技术 1. 概述2. 5G与光通讯2.1 美国研究人员利用电磁拓扑绝缘体使5G频谱带宽翻倍2.2 日本东京工业大学推出可接入5G网络的高频收发器2.3 美国得克萨斯农工大学通过波束管理改进5G毫米波通信2.4 联发科完成全球首次5G NTN卫星手机连线测试2…...

spark SQL 任务参数调优1

1.背景 要了解spark参数调优,首先需要清楚一部分背景资料Spark SQL的执行原理,方便理解各种参数对任务的具体影响。 一条SQL语句生成执行引擎可识别的程序,解析(Parser)、优化(Optimizer)、执行…...

算法练习2——移除元素

LeetCode 27 移除元素 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。 不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并 原地 修改输入数组。 元素的顺序可以改变。你不需要考虑…...