当前位置: 首页 > news >正文

智能文字识别技术——AI赋能古彝文保护

前言

人工智能在古彝文古籍保护方面具有巨大的潜力和意义。通过数字化、自动化和智能化的手段,可以更好地保护和传承古彝文的文化遗产,促进彝族文化的传承和发展。

文章目录

  • 前言
  • 一、古彝文是什么?
    • 1.1古彝文的背景
    • 1.2古彝文古籍保护背景
  • 二、古彝文识别的重难点
    • 2.1古彝文原籍难以获取
    • 2.2古彝文翻译过程繁琐
  • 三、合合信息智能文字识别技术
  • 四、古彝文识别的意义
  • 五、总结

一、古彝文是什么?

1.1古彝文的背景

古彝文是中国彝族人民使用的一种古老文字系统,彝族是中国的一个少数民族,主要分布在云南、四川、贵州等地。古彝文起源于公元前13世纪左右,是彝族人民长期积累和发展的产物,具有悠久的历史和独特的文化内涵。

古彝文的使用范围广泛,包括文献、神话、诗歌、歌谣、家谱等各个方面。彝族人民利用古彝文记录了丰富的历史、文化、宗教和社会信息。古彝文不仅是彝族人民的重要交流工具,也是他们传承文化、宣扬思想、表达情感的重要媒介。

然而,由于历史的变迁和社会的变化,古彝文的使用逐渐减少,目前,古彝文面临着保护和传承的挑战,相关机构和学者正致力于研究和保护古彝文,以确保其珍贵的文化遗产不会失落。

1.2古彝文古籍保护背景

目前,包括Google在内,全球许多技术厂商都在使用AI、OCR等数字化技术来保护古籍。国内如龙泉寺还发明了名为“佛原生”的AI技术,利用基于深度学习的单字识别引擎成功地将《六十华严》的大藏经版本进行电子化。

这些项目和技术的出现,为古籍保护和数字化提供了新的可能性。促进人工智能领域与古彝文保护领域的合作与共享,吸引更多的人工智能专家和学者参与到古彝文的保护工作中。通过跨学科和跨领域的合作,可以充分发挥人工智能在古彝文保护方面的作用,提高保护效果。

然而,数字化技术在古籍保护方面仍面临一些挑战。古籍的复杂性、纸质的脆弱性以及文字的特殊性都需要我们持续努力去解决。同时,还需要加强对数字化古籍的存储、备份和安全性的考虑,以确保这些宝贵的文化遗产得到长期的保护和传承。

二、古彝文识别的重难点

2.1古彝文原籍难以获取

首先,彝族祭司布摩通常不愿意出售祖传书籍。对他们来说,出售书籍被认为是一种耻辱,因为这些书籍承载着祖先的智慧和文化传承。他们更倾向于将这些书籍传承给合适的继承人,而不是出售给外部的研究者。

其次,有些彝族祭司在去世时会要求将自己的经书与自己一同火化。这意味着这些书籍可能会被毁灭,使得获取古彝文原籍更加困难。

此外,古彝文研究者需要在当地长期驻扎,并与彝族社区建立良好的关系。这需要时间和耐心,以获得当地人的信任和支持。只有与古彝文传承人建立起密切的关系,才有可能获得他们的授权和许可,进而获取古彝文原籍。

拿到古籍后,页面如有残缺、粘滞,需要小心翼翼地分开,然后分页粘贴至更大幅的纸张上,以便翻检查阅,一些因年代久远出现脆化的纸片还需重新拼接,像这样:

2.2古彝文翻译过程繁琐

1、古彝文翻译过程繁琐的原因主要有以下几点:

  1. 1.古彝文的保护和研究较为困难:古彝文是一种古老的文字系统,目前尚未被数字化,也没有预留的Unicode编码区段。在翻译过程中,需要彝文缮写员手工抄写彝文字,并将国际编码与彝文字对应起来。
  2. 彝语母语者的参与:如果翻译家的母语不是彝语,他们需要在彝语母语者的帮助下进行音译。这种合作过程可能需要时间和精力,增加了翻译的困难度。
  3. 3.多次翻译过程:首先,翻译家需要逐字用汉语进行直译,将古彝文的文字转化为汉语的文字。然后,他们需要用流畅的汉语进行意译,将古彝文的意思转化为汉语的表达方式。这种多次转换增加了翻译的复杂性和耗时性。

这种四行体彝汉文对译的方式,既保留了古籍原貌,又使得翻译内容易于理解。虽然这种方式在数字化方面存在一些困难,但它为保护古籍和传承彝族文化做出了重要的贡献。

过去的古籍翻译通常到这一步就结束了,速度较快的翻译者可能只需一两年就能出版一本译著,而较慢的可能需要数年时间。具体情况取决于原稿的长度。

如果能够有效建立起古彝文的数据库和翻译系统,高效识别古彝文字将成为可能。

三、合合信息智能文字识别技术

在过去的十几年中,合合信息以智能文字识别技术为核心,在图像的复杂版式识别、结构化智能理解层面做了大量的研究,学术成果在CVPR、AAAI、ACL等顶会上发表,并取得优秀的应用效果,这为古彝文研究提供了技术支持。

智能文字识别技术是合合信息核心技术之一,主要由智能图像处理、基于深度学习的复杂场景文字识别,自然语言处理(NLP)三大核心模块组成。其中,智能图像处理技术可对曲面、阴影、摩尔纹等文档图像进行精准的矫正处理,为接下来的文字信息提取、识别创造了良好的条件;复杂场景文字识别技术可适应多语言、多版式、多样式等复杂场景,以进行文字提取,并结合领先的NLP技术,对识别出的结果进行语义理解。

作为世界上最古老的文字之一,古彝文是中华文明地图上神秘而耀眼的印记。合合信息联合上海大学、华南理工大学团队针对现有的西南彝志、云贵一带古彝文字符开展统一编码,并于近期发布了业内首个古彝文基础编码数据库(简称“数据库”)。

据悉,数据库包含上千个古彜文基础编码,通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛,以数字化手段助力传统文化保护、创新之路。

研究古彝文字集,有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护,同时通过建立古彝文数据库,填补当前国内外研究的空白。合合信息与华南理工大学共同成立文档图像分析识别与理解联合实验室,联合上海大学社会学院,共同解决数据库建设中的学术性、技术性难点。

此外,合合信息旗下扫描全能王还推出“智能高清滤镜”。该功能基于AI技术及智能扫描引擎,可自动检测图像中存在的问题并判定图像的优化方式,实现模糊、阴影、手指、屏幕纹等干扰因素一键全处理。使用者无需思考拍摄角度、光源、背景,只要点击单拍、多拍、扫描等任意拍摄按钮,便可得到一张如原稿打印般清晰、平整的图片。

左图为原图,右图为智能高清滤镜功能识别后的彝文古籍

这些努力为古彝文的研究和传承开辟了新的道路。未来,随着技术的不断进步,我们有望实现更高效、准确的古彝文识别和翻译,为古彝文的保护和传承做出更大的贡献。

四、古彝文识别的意义

古彝文识别的意义在于保护和传承文化遗产、促进语言和文化研究、保护和推广文化多样性,以及提供学习和教育资源。通过数字化技术的应用,我们可以更好地理解和传承彝族文化,促进文化的多元发展和交流。

近两年世界人工智能大会期间,合合信息展示的甲骨文识别、西周钟鼎文识别项目更是成为了场上的“人气黑马”,其背后涉及到的技术点“弯曲矫正”“复杂场景文字识别”等技术已被应用于以扫描全能王为代表的产品中,优化图像处理效果,提升文字识别精度,去满足更多群体更多元的需求。

比如“手写擦除”功能,原理就是用智能文字识别技术将待处理图像划分为手写“擦除区域”和印刷题干等“非擦除区域”,对噪点、阴影、背景杂乱等复杂场景进行处理,同时运用切边矫正、图像增强等滤镜技术,去擦除试卷、作业上的手写笔记,并且为用户呈现清晰美观的卷面图像,在家长、学生中很受欢迎。

五、总结

合合信息前期在甲骨文、金文中所作的研究,让古彝文识别成为一件“水到渠成”的事情。

此次合合信息与上海大学联合开启的“贵州古彝文图像识别及数字化校对项目”校企合作,将填补当前国内外研究的空白,也将成为合合信息智能文字识别技术赋能小语种保护及古文化传承的重要里程碑事件。

未来,合合信息还将重点关注自然语言处理领域,不断精进AI“读懂”古文的能力,去实现更多理解层面的事情,以此更好地促进学术研究效率提升,并通过降低古文理解门槛,在文旅、文创领域触达更广泛的社会群体,让传统文化焕发新的生机。

相关文章:

智能文字识别技术——AI赋能古彝文保护

前言 人工智能在古彝文古籍保护方面具有巨大的潜力和意义。通过数字化、自动化和智能化的手段,可以更好地保护和传承古彝文的文化遗产,促进彝族文化的传承和发展。 文章目录 前言一、古彝文是什么?1.1古彝文的背景1.2古彝文古籍保护背景 二、…...

Linux压缩和解压命令大全:tar、gzip和zip完整教程

文章目录 linux中的压缩和解压命令简介什么是压缩和解压为什么要使用压缩和解压命令压缩命令tar命令创建.tar文件压缩目录压缩多个文件或目录 gzip命令压缩文件压缩后删除原文件压缩整个目录 zip命令创建.zip文件压缩文件或目录设置压缩级别 解压命令tar命令解压.tar文件解压到…...

Vue3 reactive和ref详解

reactive Vue3.0中的reactive reactive 是 Vue3 中提供的实现响应式数据的方法。在 Vue2 中响应式数据是通过 defineProperty 来实现的,在 Vue3 中响应式数据是通过 ES6 的 Proxy来实现的。reactive 参数必须是对象 (json / arr)如果给 reactive 传递了其它对象 默…...

jvs-rules(规则引擎)和jvs智能bi(自助式数据分析)9.22更新内容

规则引擎更新功能 新增: 1.新增节点匹配筛选 用于做多个条件的数据筛选,以便将符合条件的数据传递给下一个节点进行处理,通常用于实现复杂的查询逻辑。 2.复合变量节点新增判断条件选项说明 用户可以根据自己的需求,为复合变量节点添加不…...

Leetcode算法题练习(一)

目录 一、前言 二、移动零 三、复写零 四、快乐数 五、电话号码的字母组合 六、字符串相加 一、前言 大家好,我是dbln,从本篇文章开始我就会记录我在练习算法题时的思路和想法。如果有错误,还请大家指出,帮助我进步。谢谢&…...

Xilinx FPGA 7系列 GTX/GTH Transceivers (5)-- Aurora 8b10b 信号传输实战--小试牛刀

第一节:Xilinx FPGA 7系列 GTX/GTH Transceivers (1)–了解了GTX硬件的基础知识 第二节:IBERT GTX --通过Ibert IP测试链路通信 第三节:aurora 8b10b single lane 4byte–学习官方历程 第四节:aurora 8b10b single lane 4byte–修改官方例子,发收递增数。 GTX/GTH Transc…...

第三章:最新版零基础学习 PYTHON 教程(第七节 - Python 运算符—Python 成员身份和身份运算符)

Python 提供了两个成员资格运算符来检查或验证值的成员资格。它测试序列(例如字符串、列表或元组)中的成员资格。 in 运算符: “in”运算符用于检查序列中是否存在字符/子字符串/元素。如果在序列中找到指定元素,则求值为 True,否则求值为 False。例如, CSDNforCSDN 中…...

【Java 基础篇】Java 注解详解

在 Java 编程中,注解(Annotation)是一种元数据,它提供了关于程序代码的额外信息。注解不直接影响程序的执行,但可以在运行时提供有关程序的信息,或者让编译器执行额外的检查。 本文将详细介绍 Java 注解的…...

MVVM框架下两窗口的消息传递

副窗口关闭的时候将bool类型传递出去 var message new CloseWindowMessage {MedicineView_DialogResult true }; //CloseWindowMessage是存储bool类型的标记类 Messenger.Default.Send(message); 主窗体中添加关闭处理的方法 private void HandleCloseWindowMessage(Clo…...

ROS2 从头开始​​:第6部分 - ROS2 中的 DDS,用于可靠的机器人通信

一、说明 在这篇文章中,我们将重点关注 ROS 2的通信栈DDS,其中这是介于管理节点通信与控制节点通信环节,是上位机决策体系与下位机的控制体系实现指令-执行-反馈的关键实现机制。 二、ROS工程的概念框架 现代机器人系统非常复杂,因为需要集成各种类型的传感器、执行器和其…...

WebSocket的那些事(6- RabbitMQ STOMP目的地详解)

目录 一、目的地类型二、Exchange类型目的地三、Queue类型目的地四、AMQ Queue类型目的地五、Topic类型目的地 一、目的地类型 在上节 WebSocket的那些事(5-Spring STOMP支持之连接外部消息代理)中我们已经简单介绍了各种目的地类型,如下图&…...

SQL SELECT 语句基础

在数字化的世界中,数据已经成为了一种无处不在的资源。从游戏开发到商业智能,数据分析都是不可或缺的一部分。SQL(结构化查询语言)是一种用于与数据库进行交互的编程语言,而SELECT 语句则是其中最基础也最常用的查询方式。 本文将通过对《三国志》游戏的角色数据进行分析…...

golang工程——protobuf使用及原理

相关文档 源码:https://github.com/grpc/grpc-go 官方文档:https://www.grpc.io/docs/what-is-grpc/introduction/ protobuf编译器源码:https://github.com/protocolbuffers/protobuf proto3文档:https://protobuf.dev/programmin…...

CocosCreator3.8研究笔记(二十三)CocosCreator 动画系统-动画编辑器相关功能面板说明

国庆假期,闲着没事,在家研究技术~ 上一篇,我们介绍了动画剪辑、动画组件以及基本的使用流程,感兴趣的朋友可以前往阅读: CocosCreator 动画系统-动画剪辑和动画组件介绍。 今天,主要介绍动画编辑器相关功能…...

免费 AI 代码生成器 Amazon CodeWhisperer 初体验

文章作者:浪里行舟 简介 随着 ChatGPT 的到来,不由让很多程序员感到恐慌。虽然我们阻止不了 AI 时代到来,但是我们可以跟随 AI 的脚步,近期我发现了一个神仙 AI 代码生产工具 CodeWhisperer ,它是一项基于机器学习的服…...

谷歌扩展下载

Chrome 扩展下载安装网站推荐 # 1. 极简插件优质crx应用 ●地址:https://chrome.zzzmh.cn ●推荐:★★★★★ 一个非常良心 & 干净 & 简洁的 Chrome 扩展下载网站,体验非常不错! 侧边栏可以通过类型对扩展进行筛选和排序&…...

Mac上如何修复损坏的音频?试试iZotope RX 10,对音频进行处理,提高音频质量!

iZotope RX 10是一款由iZotope公司开发的音频修复和编辑软件。它被广泛用于电影、电视、音乐和游戏等行业的音频后期制作,以及声音设计和修复工作。 在RX 10中,iZotope从头开始重新设计了全新的Repair Assistant修复助手,并且推出了相应的修…...

Mysql各种锁

一.不同存储引擎支持的锁机制 Mysql数据库有多种数据存储引擎,Mysql中不同的存储引擎支持不同的锁机制 MyISAM和MEMORY存储引擎采用的表级锁 InnoDB存储引擎支持行级锁,也支持表级锁,默认情况下采用行级锁 二.锁类型的划分 按照数据操作…...

【算法导论】快速排序

文章目录 1. 快速排序的描述 1.1基本描述1.2 PARTITOION函数1.3 快速排序C完整代码 2. 快速排序的性能2.1 最坏时间复杂度2.2 平均时间复杂度 1. 快速排序的描述 1.1基本描述 快速排序是一种时间复杂度为 O(n^2) 的排序算法。虽然最坏情况时间复杂度很差,但他的平…...

QT之QScriptEngine的用法介绍

QT之QScriptEngine的用法介绍 成员函数用法举例 成员函数 1)QScriptEngine::evaluate(const QString &program, const QString &fileName QString(), int lineNumber 1) 执行 JavaScript 代码并返回结果。 2)QScriptEngine::evaluate(const…...

vim 工具的使用

注:以下操作都在普通模式下进行 光标的移动操作 gg 定位到代码的第一行 shiftg 定位到代码的最后一行 nshiftg 定位到第n行 shift6: 特定一行的开始 shift4 特定一行的结尾 上下左右的移动光标 h: 向左移动光标 j: 向下移动光标 k: 向上移动光标 l: 向右移动光标 …...

RPA有什么优势?RPA的8大优势!建议学习!

随着科技的不断发展,越来越多的企业开始寻求数字化转型,以提高生产力和效率。在这个过程中,RPA(Robotic Process Automation)机器人流程自动化技术逐渐成为企业数字化转型的重要工具之一。本文将从八个方面阐述RPA的优…...

初级篇—第二章SELECT查询语句

文章目录 什么是SQLSQL 分类SQL语言的规则与规范阿里巴巴MySQL命名规范数据导入指令 显示表结构 DESC基本的SELECT语句SELECTSELECT ... FROM列的别名 AS去除重复行 DISTINCT空值参与运算着重号查询常数过滤数据 WHERE练习 运算符算术运算符加减符号乘除符号取模符号 符号比较运…...

PostMan的学习

PostMan的学习 目录 环境变量和全局变量接口关联内置动态参数以及自定义动态参数实现业务闭环Postman断言批量运行collection数据驱动之CSV文件和JSON文件测试必须带请求头的接口Mock Serviers 服务器Cookie鉴权NewmanPostManNewManjenkins实现接口测试持续集成 参考资料&am…...

配置OSPF路由

OSPF路由 1.OSPF路由 1.1 OSPF简介 OSPF(Open Shortest Path First,开放式最短路径优先)路由协议是另一个比较常用的路由协议之一,它通过路由器之间通告网络接口的状态,使用最短路径算法建立路由表。在生成路由表时,…...

CCF CSP认证 历年题目自练Day17

CCF CSP认证 历年题目自练Day17 题目一 试题编号: 201803-1 试题名称: 跳一跳 时间限制: 1.0s 内存限制: 256.0MB 问题描述: 问题描述   近来,跳一跳这款小游戏风靡全国,受到不少玩家的喜爱…...

基于Matlab实现多因子选股模型(附上源码+数据)

本文将介绍如何使用MATLAB实现多因子选股模型。我们将使用市盈率和市净率两个因子来进行选股,并通过简单的代码案例来演示该过程。 文章目录 引言简单案例总结源码数据下载 引言 多因子选股模型是一种常用的股票选股方法,通过综合考虑多个因子的信息来…...

【中秋国庆不断更】OpenHarmony多态样式stateStyles使用场景

Styles和Extend仅仅应用于静态页面的样式复用,stateStyles可以依据组件的内部状态的不同,快速设置不同样式。这就是我们本章要介绍的内容stateStyles(又称为:多态样式)。 概述 stateStyles是属性方法,可以根…...

Qt扩展-QCustomPlot绘图基础概述

QCustomPlot绘图基础概述 一、概述二、改变外观1. Graph 类型2. Axis 坐标轴3. 网格 三、案例1. 简单布局两个图2. 绘图与多个轴和更先进的样式3. 绘制日期和时间数据 四、其他Graph:曲线,条形图,统计框图,… 一、概述 本教程使用…...

二、局域网联机

目录 1.下载资源包 2.配置NetworkManager 3.编写测试UI 1.下载资源包 2.配置NetworkManager (1)在Assets/Prefabs下创建Network Prefabs List 相应设置如下: (2) 创建空物体“NetworkManager”并挂载NetworkMan…...

最专业的手机网站制作/舆情网站直接打开怎么弄

我在熊猫数据框中有一组计算的OHLCVA每日证券数据,如下所示:>>> type(data_dy)>>> data_dyOpen High Low Close Volume Adj CloseDate2012-12-28 140.64 141.42 139.87 140.03 148806700 134.632012-12-31 13…...

外贸网站建设费用多少/seo sem推广

PAYJS开通微信分账功能以来,有很多同学咨询相关情况。很多同学关心有没有什么办法,可以让自己的商户号快速开通企业付款功能。这里就介绍下微信分账的具体相关内容,可以完美解决问题。一、什么是微信分账? 微信分账的推出主要有三…...

类似凡科网的网站/小程序开发收费价目表

缘起 随着互联网企业的不断发展,产品项目中的模块越来越多,用户体验要求也越来越高,想实现小步快跑、快速迭代的目的越来越难,还有应用之间的互相调用等等问题,插件化技术应用而生。如果没有插件化技术,美…...

建设电子商务网站需要什么设备/seo的工作内容主要包括

2017年5月12日 09:57:48 星期五 最近接触了几天的composer, 不吹不黑, 简单说下用法吧 官方说要先用PHP命令行下载installer, 其实作用就是检测当前的PHP环境是否支持, 再一个就是自动下载composer.phar包 其实可以直接下载composer.phar放到某个地方 怎么跟你的PHP项目结合呢 …...

合同下载网站/想要推广页

题意&#xff1a; 给定n,a&#xff0c;求区间 [ 1 , 1<<n ] 的数b 满足 的个数 分析&#xff1a;打出暴力程序可以发现当a为奇数的时候结果为一&#xff1b; 当a为偶时 &#xff0c; a^b2^(kb)mod 2^n ; 结果肯定为0 &#xff1b; 那就有b^a mod 2^n0 ; 则 b也为偶数 &a…...

有没有做catalog的网站/seo排名怎么看

许久没有写博客和看博客了&#xff0c; 但其实这段时间还是有一些东西能够与大家分享的&#xff0c;只是真的有点懒了&#xff0c;没有及时的回复大家的留言&#xff0c;非常的内疚。从今天起将与大家分享一些对于大家来说旧的&#xff0c;对于我来说也是旧的内容。微软在Excha…...