当前位置: 首页 > news >正文

探索古彝文AI识别技术:助力中国传统文化的传承与发扬

目录

⭐️ 写在前面

⭐️ 一、什么是古彝文

1.1 古彝文介绍

1.2 古彝文与其他古文字示例

1.3  古彝文的重要性

⭐️二、AI识别技术的挑战与前景

2.1 挑战

2.2 前景

⭐️三、合合信息AI识别技术

3.1 智能文字识别技术👍👍

3.2 古文识别应用

⭐️四、AI技术效果

4.1 猜字识字

4.2 AI文档能力修复古籍

⭐️五、中秋祝福💝🫶


⭐️ 写在前面

随着科技的不断发展,OCR(Optical Character Recognition,光学字符识别)技术在各个领域得到了广泛应用。

-

近年来,古彝文作为一种具有悠久历史和独特魅力的文字,逐渐受到了学者们的关注。探索古彝文识别OCR技术,不仅有助于挖掘、整理和传承中国传统文化,还能为现代科技与文化的交流搭建桥梁。

⭐️ 一、什么是古彝文

1.1 古彝文介绍

彝文指的是云南、贵州、四川等地的彝族人使用的文字,其造字、使用方法在不同的区域之间表现出明显的差异。

1980年发布的四川规范彝文有819字,2012年发布的滇川黔桂通用彝文有5598字。

这两种彝文主要用于现代语境,在仪式、节庆、旅游景点等场合彰显彝族非物质文化遗产的传承,或用于民族地区相关政策和宣传文件的翻译,以及当代母语作家文学的创作。

区别于上述现代意义上的彝文,今天我们所谓的“古彝文”指的是在民间流通使用的原生态彝文,根据《滇川黔桂彝文字集》,这些文字多达87046字。

彝文起源于何时,尚未有官方的定论。有学者认为,古彝文的起源距今至少数千年,是世界上最古老的文字之一。

下图是毕节市彝文文献翻译研究中心展示古籍修复原件

下图是毕节市彝文文献翻译研究中心展示汉译书稿

1.2 古彝文与其他古文字示例

如下图所示,分别是:

  • 古埃及文字
  • 古埃及象形文章
  • 象形文
  • 古彝文字义
  • 古彝文字

可以看到,古彝文与其他古文字中可能存在某些相似关联

1.3  古彝文的重要性

对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。

⭐️二、AI识别技术的挑战与前景

AI技术在古彝文识别方面有着巨大的潜力,但也面临一些挑战。可以分为以下几个方面:

  1. 版式多样,文字识别存在挑战
  2. 手写风格差异很大,手写识别难
  3. 彝文古籍图像质量差
  4. 彝文字笔画相近,增加AI识别难度

2.1 挑战

2.1.1 版式多样

汉文与彝文古籍的各类原稿的排版风格都不统一,字符间距和行距有密有疏,彝文古籍虽然没有大小字混排、双列夹字的校注传统,但也时常出现加字、替字、整句倒置和文字方向不统一等现象,这样会给文字定位造成挑战。

2.1.2 手写识别难

和汉文古籍一样,不同的彝文缮写员之间手写风格差异很大,这就需要大量的数据库来建立识别模型。

👇

古彝文目前没有公开数据集,而通晓此种文字的人越来越少,导致标注工作量大而人手少,数据量严重不足,亟须引入AI技术构建模型,以弥补本项目训练样本不足。

2.1.3 图像质量差

汉文和彝文古籍都经历了数代传承、战火与自然风蚀的洗礼,难免出现页面残缺、霉斑污渍等影响图像质量问题。

此外,由于彝文古籍的保存环境更为艰苦,文本还呈现墨色深浅不一、字符间距和行距大小不一的情况。合合信息智能文字识别技术可对图像质量进行增强,提升文字识别效率与准确性。

2.1.4 笔画相近,增加识别难度:

彝文字从来没有统一过,不仅异体字(两个或多个视觉上完全不同的字)很多,还存在大量的“变体字”,也即各个地方的布摩为防止敌方破译其经书而故意在现有字形上增加或减少一两个笔画产生的。

比如:下图中表示“种类”的彝文字[mo21]/[mɯ33]的四个变体(邵文苑供图)

比如下面两个形似,但是确实两个完全不同的文字,分别为“酒”、“仪礼”

2.1.5 异体众多

古彝文每个字的异体写法少则2-3个,多则几十种,前文已提及未经整理规范的古彝文字符数高达了87000余个,比康熙字典的字数还多,给识别带来极大困难。

除此以外,彝文古籍还存在“同音字混用”的现象:为了不使某些字的写法失传,布摩会在抄写两句重复经文时,会故意让第一句话采用本字,而在第二句中的相同位置用同音字来替换,合合信息智能文字识别技术将有助于应对文字识别中“理解、认知”层面的难题。

2.2 前景

随着科技的不断发展,这些挑战是可以克服的。古彝文是中国传统文化中的重要组成部分,其传承与发扬具有深远的意义。

AI识别技术为古彝文的识别和传承提供了有力的工具,可以帮助我们更好地理解和传承彝族文化。通过AI识别技术,我们可以将古彝文带入数字时代,为中国传统文化的传承和发扬做出新的贡献,让这一宝贵的文化遗产得以继续传承下去。

⭐️三、合合信息AI识别技术

3.1 智能文字识别技术👍👍

智能文字识别技术是合合信息核心技术之一,主要由智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心模块组成。

其中,智能图像处理技术可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景,以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。

近三年来,合合信息智能文字识别技术先后在ICDAR、ICPR等人工智能国际竞赛中斩获16项冠军,学术成果在CVPR、AAAI、ACL等顶会上发表,相关项目获中国图象图形学学会(CSIG)科技进步奖二等奖。

3.2 古文识别应用

合合信息在古文字识别领域已有了一定的积累和成果。在2021年、2022年的世界人工智能大会上,合合信息展现了智能文字识别技术在甲骨文、西周钟鼎文(金文)中的应用,获得了包括央视、人民日报、新华社等上百家主流媒体的关注。

虽然古彝文的识别研究尚处于起步阶段,但在引入先进的AI技术来建立统一的数据库以后,对于增强古彝文研究的连续性、降低繁琐的检索工作无疑有极大帮助。与古彝文数字化相关的研究目前还相对稀少,本项目将填补当前国内外研究的空白。

在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,并取得优秀的应用效果,为古彝文识别提供了技术支持。

校企合作

2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,旨在完成以国家珍贵古籍《西南彝志》为中心的“贵州古彝文图像识别及数字化校对项目”。

👏👏👏👏

双方将不断探索用智能文字识别技术赋能海量古彝文原籍数字化的道路,这一工作在民族传统文化日渐濒危的当下有着独特的意义。

合合信息前期在甲骨文、金文中所作的研究,也让古彝文识别成为一件“水到渠成”的事情:甲骨文和古彝文追溯源头都属于骨刻文,文字自骨刻文起,后发展出甲骨文、金文、小篆、隶书、楷书等,文字间的识别有相通之处。

此次与上海大学联合开启的“贵州古彝文图像识别及数字化校对项目”校企合作,也成为合合信息智能文字识别技术赋能小语种保护及古文化传承的重要里程碑事件。

⭐️四、AI技术效果

4.1 猜字识字

合合信息旗下扫描全能王与上海大学、华南理工大学共同研发识别古彜文基础编码已经完成,此基础编码将帮助后续古彜文的检测、识别、标注,帮助学者解读更多古彜文古籍。

4.2 AI文档能力修复古籍

AI文档能力修复古籍呈现高清

  • 利用智能高清滤镜将古籍水印、残旧等痕迹去除复现高清古籍
  • 相关识别及古彜文编码仍在测试完善中

⭐️五、中秋祝福💝🫶

中秋快到啦,我们用古彝文写一个中秋祝福吧!来看下🙉🙉

猜猜这是什么意思?👇👇

哈哈哈,肯定猜不到,这个祝福送给大家:✌️✌️😘

愿:

身体倍棒,

多吃多走多看看,

少病少痛少感冒

相关文章:

探索古彝文AI识别技术:助力中国传统文化的传承与发扬

目录 ⭐️ 写在前面 ⭐️ 一、什么是古彝文 1.1 古彝文介绍 1.2 古彝文与其他古文字示例 1.3 古彝文的重要性 ⭐️二、AI识别技术的挑战与前景 2.1 挑战 2.2 前景 ⭐️三、合合信息AI识别技术 3.1 智能文字识别技术👍👍 3.2 古文识别应用 ⭐…...

mysql面试题2:说一说MySQL的架构设计?一条 MySQL 语句执行的步骤?

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:说一说MySQL的架构设计? MySQL的架构设计主要包括以下几个组件: 连接器(Connector):负责与客户端建立连接,并进行身份验证和授权。 查询缓存…...

UPnP协议和SSDP协议

1、两种协议 UPnP协议:Universal Plug and Play,广义的即插即用。UPnP协议的目的:当有新设备连接上网络,网络上的其他设备能够马上知道有新设备加入,然后这些设备能互相宣传和发现彼此,以便能使用和控制彼…...

notepad++配置python2环境

(1)python2版本下载:Index of /ftp/python/2.7.8/https://www.python.org/ftp/python/2.7.8/ (2) 配置notepad环境 1.打开Notepad,点击“插件”-“插件管理器”,在“可用”选项卡中&#xff0c…...

在ThinkAdmin中弹出层关闭后回调

在thinkadmin里面,窗口的的一些方法全部都集成在admin.js里面,在之前的文章中也有出现过类似的问题,就是对动态加载的数据进行统计,那时候写也是想记录下,现在自己都不记得是哪个站用的了,所以在这里也把这…...

vue3 和vue2 的比较

文章目录 生命周期多根节点Composition API组合式APIOptions API与composition API对比优化逻辑组织优化逻辑复用 异步组件(Suspense)Suspense组件 响应式原理性能体积优化编译优化diff算法优化静态提升数据劫持(响应式系统)优化 生命周期 vue3在组合AP…...

算法通过村第八关-树(深度优先)黄金笔记|寻找祖先

文章目录 前言最近公共祖先问题总结 前言 提示:生活就是一场有很多规则,却没有裁判的比赛。 --约瑟夫布罗茨基《悲伤与理智》 最近公共祖先问题 参考题目地址:236. 二叉树的最近公共祖先 - 力扣(LeetCode) 如果将搜索…...

postgresql|数据库|数据库测试工具pgbench之使用

前言: 数据库是项目中的重要组件,也是一个基础的重要组件,其地位说是第一我想应该是没有什么太多问题的。 那么,数据库的设计这些方面是不用多说的,关键的第一步,主要是涉及数据库的部署方式,…...

代码随想录Day51 | 309.最佳买卖股票时机含冷冻期

309. 买卖股票的最佳时机含冷冻期 class Solution { public:int maxProfit(vector<int>& prices) {int n prices.size();if (n 0) return 0;vector<vector<int>> dp(n, vector<int>(4, 0));dp[0][0] - prices[0]; // 持股票for (int i 1; i &l…...

libopenssl 实现私钥加密公钥解密

在需要验证可信来源时&#xff0c;需要用到签名验签。因此&#xff0c;需要使用私钥加密&#xff0c;公钥解密&#xff0c;取得被加密的信息。这就会使用到私钥加密&#xff0c;公钥解密的场景了。 参考&#xff1a; https://github.com/openssl/openssl/issues/20493 https:/…...

代码随想录 Day - 51|#309 最佳买卖股票时机含冷冻期|#714 买卖股票的最佳时机含手续费

清单 ● 309.最佳买卖股票时机含冷冻期 ● 714.买卖股票的最佳时机含手续费 LeetCode #309 最佳买卖股票时机含冷冻期 1. 题目 给定一个整数数组&#xff0c;其中第 i 个元素代表了第 i 天的股票价格 。 设计一个算法计算出最大利润。在满足以下约束条件下&#xff0c;你可…...

.net 使用IL生成代理类实现AOP对比Java Spring Boot的AOP

首先&#xff0c;我们需要定义一个接口&#xff0c;代表我们要代理的目标对象的功能&#xff1a; // 日志记录器接口 public interface ILogger {/// <summary>/// 记录日志/// </summary>/// <param name"message">日志消息</param>void L…...

美容店预约小程序搭建流程

随着科技的不断发展&#xff0c;小程序已经成为了人们生活中不可或缺的一部分。对于美容店来说&#xff0c;搭建一个预约小程序不仅可以提高工作效率&#xff0c;还可以增加客户数量、提高服务质量。那么&#xff0c;如何搭建一个美容店预约小程序呢&#xff1f;本文将为你详细…...

ppt 作图 如何生成eps格式

需求 ppt中画的图&#xff0c;按照eps格式导出。 环境 软件: ppt, Gsview(用来将ps格式转成eps), Adobe 操作系统&#xff1a; win11 思路 直接在ppt里选择adobe打印机&#xff0c;将图片以文件形式打印到ps格式的文件中&#xff0c;再由gsview转化成eps。 建议在本身就…...

渗透测试中的前端调试(上)

一、前言 前端调试是安全测试的重要组成部分。它能够帮助我们掌握网页的运行原理&#xff0c;包括js脚本的逻辑、加解密的方法、网络请求的参数等。利用这些信息&#xff0c;我们就可以更准确地发现网站的漏洞&#xff0c;制定出有效的攻击策略。前端知识对于安全来说&#xff…...

跨境电商引流之Reddit营销,入门保姆级攻略

在当今竞争激烈的在线市场中&#xff0c;企业不断寻求新的方法来加强其数字营销工作。Reddit 是最受欢迎的社交媒体平台之一&#xff0c;为企业提供了巨大的潜力&#xff0c;可以通过引人入胜且相关的内容来接触目标受众。然而&#xff0c;将 Reddit 用于营销目的需要仔细考虑某…...

Linux下虚拟网卡的基本命令

文章目录 创建虚拟网卡查看虚拟网卡删除虚拟网卡 创建虚拟网卡 # 创建tap模式的虚拟网卡tap0 sudo ip tuntap add mode tap tap0 # 开启网卡 sudo ip link set tap0 up # 设置网卡的ip地址和子网掩码 sudo ip addr add 192.168.1.1/24 dev tap0查看虚拟网卡 # 查看虚拟网卡ta…...

conan入门(二十七):因profile [env]字段废弃导致的boost/1.81.0 在aarch64-linux-gnu下交叉编译失败

今天在尝试用conan 1.60.0使用aarch64-linux-gnu编译器交叉编译boost/1.81.0时报错了&#xff1a; conan install boost/1.81.0 -pr:h aarch64-linux-gnu.jinja -pr:b default --build boost输出如下&#xff1a; Configuration (profile_host): [settings] archarmv8 arch_b…...

BFS专题7 多终点迷宫问题

题目&#xff1a; 样例&#xff1a; 输入 3 3 0 0 0 1 0 0 0 1 0 输出 0 1 2 -1 2 3 -1 -1 4 思路&#xff1a; 单纯的 BFS 迷宫问题&#xff0c;只是标记一下每个点的 step&#xff0c;注意初始化答案数组都为 -1. 代码详解如下&#xff1a; #include <iostream> #…...

ES6中对象新增了哪些扩展?

一、属性的简写 当对象字面量的属性名与变量名相同时&#xff0c;可以省略属性名&#xff0c;直接使用变量名作为属性名。 const x 10; const y 20;// ES6之前 const obj1 { x: x, y: y };// ES6属性简写 const obj2 { x, y };注意&#xff1a;简写的对象方法不能用作构造…...

蓝桥杯每日一题2023.9.22

4960. 子串简写 - AcWing题库 题目描述 题目分析 原本为纯暴力但是发现会超时&#xff0c;可以加入前缀和&#xff0c;从前往后先记录一下每个位置c1出现的次数 再从前往后扫一遍&#xff0c;如果遇到c2就将答案加上此位置前的所有c1的个数&#xff08;直接加上此位置的前缀…...

vscode左键无法跳转到定义的文件

之前用vscode的时候&#xff0c;明明是可以ctrl键鼠标左键跳转到定义文件的&#xff0c;突然之间就不行了&#xff0c;鼠标移到引入上根本都没有下划线&#xff0c;无法跳转 解决方法&#xff1a; 项目的根目录新建 jsconfig.json 文件&#xff0c;代码如下 {"compiler…...

c、c++排序的相关知识(归并排序、计数排序、稳定性等)

排序&#xff0c;是对给定的一组数&#xff0c;按照某种逻辑关系&#xff0c;进行位置上的移动。由于排序至少需要将所有数过一遍&#xff08;正常情况下&#xff0c;非特殊数组&#xff09;&#xff0c;因此排序的时间复杂度一定不能小于O&#xff08;N&#xff09;。 归并排…...

oracle定时任务的使用

常见错误&#xff1a; PLS-00225: subprogram or cursor xxx reference is out of scope # job名字太长PLS-00201: identifier COUNT_JOB.SUBMIT must be declared # DBMS_JOB.SUBMIT是固定写法创建存储过程 -- 建表 CREATE TABLE TEST_A(TEST_ADD_DATA DATE); -- 存储过程 C…...

VSCode 配置 Lua 开发环境(清晰明了)

概述 由于 AutoJS 学得已经差不多了&#xff0c;基本都会了&#xff0c;现在开始向其他游戏脚本框架进发&#xff0c; Lua 语言很强大&#xff0c;就不多说&#xff0c; 按键精灵、触动精灵等等都是用该语言编程脚本的&#xff0c;由于按键精灵、触动精灵 和 AutoJS 类似,不是…...

JS合并2个远程pdf

要在HTML和JavaScript中读取远程PDF文件的矢量数据并合并两个PDF文件&#xff0c;您可以使用pdf-lib和Axios库。以下是使用pdf-lib和Axios在HTML和JavaScript中读取和合并远程PDF文件的步骤&#xff1a; 1. 引入 首先&#xff0c;确保您在HTML文件中引入了pdf-lib和Axios库。…...

TikTok的伦理挑战:虚拟世界与现实世界的交汇

在数字时代&#xff0c;社交媒体平台已经不再只是一个信息传播的工具&#xff0c;它已经深刻地改变了我们的社交行为、价值观和伦理观。 而在这一领域的佼佼者之一&#xff0c;TikTok&#xff0c;正面临着伦理挑战&#xff0c;这是虚拟世界与现实世界交汇的产物。 本文将深入…...

C# 获取磁盘空间大小的方法

方法一&#xff1a;利用System.IO.DriveInfo.GetDrives方法来获取 /// 获取指定驱动器的空间总大小(单位为B)////// 只需输入代表驱动器的字母即可 &#xff08;大写&#xff09;///public static long GetHardDiskSpace(string str_HardDiskName){long totalSize new long();…...

JVM机制理解与调优方案

作者&#xff1a;逍遥Sean 简介&#xff1a;一个主修Java的Web网站\游戏服务器后端开发者 主页&#xff1a;https://blog.csdn.net/Ureliable 觉得博主文章不错的话&#xff0c;可以三连支持一下~ 如有需要我的支持&#xff0c;请私信或评论留言&#xff01; 前言 很多Java开发…...

Django的设计模式及模板层

Django的设计模式及模板层 设计模式MVC和MVT MVC 代表 Model-View-Controller(模型-视图-控制器)模式。 M 模型层(Model),主要用于对数据库层的封装 V 视图层(View),用于向用户展示结果 (WHAT HOW) C 控制(Controller&#xff0c;用于处理请求、获取数据、返回结果(重要) 作…...

怎么免费建设金融网站/爱站网关键词密度

1 gzip[rootlocalhost ~]# gzip a.sh #压缩后文件后缀为.gz[rootlocalhost ~]# gzip -d a.sh.gz #解压gz文件[rootlocalhost ~]# zcat a.sh.gz #查看压缩文件2 bzip[rootlocalhost ~]# bzip2 a.sh #压缩后文件后缀为bz2[roo…...

华为手机价格大全/抖音seo招商

17 有两个整型变量dog和cat,若要从磁盘文件把数据读到其中,正确的形式是( ). BA、fscanf(dog ,2,1,fp);B、fscanf(fp,"%d%d",&dog ,&cat);C、fscanf(dog ,cat,2,1,fp);D、fscanf(fp,"%d",&dog ,&cat);二、程序设计&#xff1a;/*---------…...

做垃圾网站/公司关键词seo

he information you entered did not match your profile in the D&B database. Before submitting your organization information, look up your D&B profile. 这个一般是邓白氏编码的企业名称&#xff0c;您可能填写错误了 可以上他们的官网查询一下&#xff1a; ht…...

wordpress文章增加字段/推广网站文案

需求&#xff1a;每月末定时回收主机密码&#xff0c;但是规定我堡垒机与各主机不能做公钥&#xff0c;只能明文。。。本来准备用python 的paramiko 模块做的&#xff0c;但是还是没弄好&#xff0c;就先用shell吧。。。有的地方写的比较挫。。 scp_shell.sh #!/usr/bin/expect…...

芜湖市建设办网站/今日头条热点新闻

我的朋友开了家屁小公司&#xff0c;纯粹的三五个人十来条枪。每年还不死&#xff0c;但活的也很辛苦。平时做的也就是两三万的单子&#xff0c;运气好能做8-10万的单子。那天&#xff0c;突然给我打了电话&#xff0c;说要请我吃饭。 饭肯定是不能白吃的。朋友告诉我&#xf…...

九创wordpress/新闻20条摘抄大全

2019独角兽企业重金招聘Python工程师标准>>> Mybatis学习&#xff08;一&#xff09;原生态的JDBC编程总结 Mybatis学习&#xff08;二&#xff09;Mybatis框架的原理 Mybatis学习&#xff08;三&#xff09;搭建mybatis的入门程序的运行环境 Mybatis学习&#xff0…...