ChatGPT大升级,文档图像识别领域迎来技术革新
- 写在前面
- ChatGPT迎来重大升级
- 冲击与机遇并存
- 大模型时代的思考与探索
- ■ 像素级OCR统一模型- UPOCR
- ■ OCR大一统模型- SPTS v3
- ■ 文档识别分析+LLM应用
- 写在最后
- 问卷抽奖
写在前面
2023 年 12 月 31 日第十九届中国图象图形学学会青年科学家会议在广州召开,该会议由中国图象图形学学会主办,旨在促进青年科学家之间的交流与合作,提升我国在图像图形领域的科研水平和创新能力。
由中国图象图形学学会和上海合合信息(INTSIG)联合承办的《垂直领域大模型论坛》中,针对在以 ChatGPT 为代表的大语言模型时代下大模型技术对于图像图形学领域的研究方向或者说落地应用是否会有价值、有哪些价值进行了深入探讨。包括合合信息丁凯教授在内的多位业内专家针对大模型时代文档与图像识别领域的新探索进行了介绍。
ChatGPT迎来重大升级
2023 年 9 月 25日 OpenAI 宣布推出全新 GPT-4V(Vision)多模态大模型,ChatGPT 迎来重大升级!
GPT-4V 在原先基础上增加了图像与语音的输入能力,旨在为用户带来更加多元化的使用方式,让 ChatGPT 与人们的交流更加丰富多样。它的主要功能包括语音功能,提供 5 种不同的语音选项,具有高准确率的语音识别和语音合成功能;图像输入功能,用户可以拍摄自己感兴趣的事物,并上传到 GPT-4V 中,它还具有处理文本和图像形式的输入的能力,能够基于混合输入模式产生文本输出;自然语言任务处理,文本摘要、问答、文本生成、情感分析、机器翻译等;看图作答和识别地点,对于用户提供的图片,GPT-4V 能够识别并回答有关地点的问题。此外还有物体检测、文本识别、人脸识别、验证码求解等等。可以看出 GPT-4V 功能强大且在多个领域都有着广泛应用前景,包括图像与文档识别领域。
那么随着 GPT-4V 多模态大模型横空出世,是否会对 OCR 文档识别领域造成巨大冲击?来自上海合合信息的丁凯博士在中国图像图形学学会(CSIG)青年科学家会议 2023 中为我们做出了详细解答……
冲击与机遇并存
不可否认 GPT-4V 在文档识别领域中取得了重大成就,但同时也应关注到在这个领域(OCR 文档识别)中的一些核心问题是仍然存在的,诸如图像质量、文字识别、版面分析等,这些问题仍需解决。同时 GPT-4V 也会为文档识别领域带来诸多变化,那么从研究层面来看,冲击与机遇是并存的。
通过对 GPT-4V 文档处理领域的详细分析与的场景测试发现,GPT-4V 在场景文字识别、手写文档识别、几何图形与文字结合场景识别、公式识别、表格识别、信息抽取等方面做的都非常好,水平可以说完全超过了传统中的任何一种技术。
但即使水平如此之高,GPT-4V 也并非完全解决了 OCR 文档识别领域中的所有问题。在测试过程中短板也很明显,首先就是对中文的识别,无论是手写还是印刷文字,GPT-4V 在识别之后都是输出大量与实际文章无关的内容,而且一些简单的手写公式 GPT-4V 也是无法完美识别的。
此外对于长文档,仍然有文档解析和识别的前置依赖,ChatGPT 调用了开源的 PyPDF2,而该插件效果一般,且输出不支持表格结构、不支持扫描件、不支持处理复杂版式、不支持定位到原文。
综上可以看到 GPT-4V 的优势在于对端到端解决识别和理解问题、认知能力、支持识别和理解文档元素类型的能力远超传统算法,但是对于长文档需要依赖外部的OCR/文档解析引擎,这就说明外部引擎的性能会严重影响 GPT-4V 处理文档的性能,短板也非常明显。对于篡改检测、文本分割擦除、元素检测识别等像素级 OCR 任务时 GPT-4V 更是能力不足甚至是还没有具备此能力。
GPT-4V 在处理大规模行为数据方面的能力,以及在语言生成和理解方面的突破,它能够更自然、更复杂地处理和分析不同类型的行为特征,例如语言、声音、图像等。但 GPT-4V 并没有专门针对文档图像识别领域进行优化,因此我们应该做的是充分利 用GPT-4V 的潜力,对其进行适当的调整和改进,以适应文档识别的特定需求和挑战。同时其他OCR技术和工具仍然有其独特的优势和应用场景,因此 GPT-4V 并不会完全取代其他技术,而是一种与其共存并相互促进发展的关系,OCR 文档图像识别领域依然有着很大的研究空间。
大模型时代的思考与探索
基于对以上 GPT-4V 与文档识别领域的分析和思考,其实为 OCR 文档识别领域的研究提供了新的方向,更高的识别精度与处理效率也成为了新的不断增长的应用需求。基于此,像素级 OCR 统一模型、OCR 大一统模型、文档识别分析+LLM 应用新方向应运而生。
■ 像素级OCR统一模型- UPOCR
像素级 OCR 统一模型是一种先进的OCR技术,旨在实现高精度的文字识别和图像处理。该模型将 OCR 技术和图像处理技术相结合,通过对图像进行像素级别的分析和处理,实现高精度的文字识别和图像处理。它可以用于各种类型的图像识别和处理任务,如车牌识别、人脸识别、遥感图像处理等。同时,该模型还可以根据不同的应用场景进行定制和优化,以满足不同用户的需求。
UPOCR(Towards Unified Pixel-Level OCR Interface)就是一个通用的 OCR 模型,统一了不同像素级 OCR 任务的范式、架构和训练策略。它将文本擦除、分割、篡改检测等像素级 OCR 任务进行了统一,引入可学习的任务提示来指导基于 ViT 的编码器-解码器架构。UPOCR 的通用能力在文本擦除、文本分割和篡改文本检测任务上得到了广泛验证,显著优于现有的专门模型。
■ OCR大一统模型- SPTS v3
OCR 大一统模型可以理解为是一种将多种 OCR 算法和模型集成在一起的模型,旨在实现更高效、更准确的文字识别。这种模型可以结合不同算法的优势,提高 OCR 的识别精度和适应性。通常包括多种算法和模型,如基于规则的方法、基于模板的方法、基于机器学习的方法和深度学习方法等。这些算法和模型可以在不同的场景和任务中发挥各自的优势,从而提高 OCR 的识别精度和效率。
当前的文档图像识别分析过程中有着非常多的任务,包括文本识别、段落识别、版面分析、表格识别、公式识别等等,将这些任务定义为序列预测的形式,然后通过不同的 prompt 引导模型完成不同的 OCR 任务,支持篇章级的文档图像识别分析,输出 Markdown/HTML/Text 等标准格式,最后将文档理解相关的工作交给 LLM 去做。
基于这样的思想,基于 SPTS 的 OCR 大一统模型 SPTS v3 应运而生,将多种 OCR 任务定义为序列预测的形式,通过不同的 prompt 引导模型完成不同的 OCR 任务。
SPTS v3 目前主要关注以下任务:端到端检测识别、表格结构识别、手写数学公式识别。
根据长期的训练与分析,SPTS v3 在各个性能方面已有着很不错的效果。但是当前的任务数量还不是很多,还有大量工作需要做,功能和任务范围都有着很大的扩展空间。
■ 文档识别分析+LLM应用
对于文档识别分析领域与 LLM 应用相结合,合合信息提出的技术框架是这样的,当输入文档图像后,通过文档识别与版面分析技术获取文档信息,接下来进行文档的切分和召回,最后进行 LLM 问答。
将文档识别技术与 LLM(Large Language Model)应用相结合确实是一个有前景的领域,有许多潜在的应用和思考方向。比如:
-
文档的摘要与总结。结合文档识别技术和大语言模型,对长篇文档进行自动摘要或总结,为用户提供简洁、关键的信息;
-
自动问答。基于文档识别技术的问答系统根据文档内容回答用户的问题;
-
文档分类与主题识别。利用文档识别技术对文档进行分类和主题识别,可以用于自动整理文档、摘要、信息抽取等任务等等。
不仅仅是这些,将大语言模型结合至文档图像识别领域将会互相催生出更多的研究主题与方向,同时这也要求各厂家与开发者不断探索新的技术和方法。
写在最后
以 GPT-4V 为代表的多模态大模型技术极大的推进了文档识别与分析领域的技术进展,也给传统的 IDP 技术带来了挑战。但是大模型并没有完全解决 IDP 领域面临的问题,很多问题仍然值得我们继续研究。
如何结合大模型的能力更好的解决 IDP 的问题,值得在未来做更多的思考和探索。合合信息的 TextIn(Text Intelligence)研究团队便是一个典型代表。作为一个专注于智能文档处理领域的团队,经过 16 年的专注和深耕,该团队在智能文档图像识别、文字识别、自然语言处理等方面取得了显著的成果。他们在智能文档处理技术领域进行了广泛而深入的研究,涵盖了文档图像分析与预处理、文档解析与识别、版面分析与还原、文档信息抽取与理解、AI 安全以及知识化、存储检索和管理等多个关键技术。
而这些研究成果也都汇聚到了合合 TextIn 智能文字识别产品中,合合信息将他们的研究成果通过这样一个智能文档处理云平台提供给全球的用户和企业,只要访问 textin.com 我们便可以体验到一站式智能文字识别服务。
问卷抽奖
最后大家可填写下方问卷参与抽奖,合合信息将抽 10 人送出 50 元京东卡(12 号开奖)。
问卷链接:https://qywx.wjx.cn/vm/exOhu6f.aspx
相关文章:
ChatGPT大升级,文档图像识别领域迎来技术革新
写在前面ChatGPT迎来重大升级冲击与机遇并存大模型时代的思考与探索■ 像素级OCR统一模型- UPOCR■ OCR大一统模型- SPTS v3■ 文档识别分析LLM应用 写在最后问卷抽奖 写在前面 2023 年 12 月 31 日第十九届中国图象图形学学会青年科学家会议在广州召开,该会…...
2023年全国职业院校技能大赛软件测试—测试报告模板参考文档
ERP(资源协同)管理平台测试报告 目录 ERP(资源协同)管理平台测试报告 1. 概述...
【BCC动态跟踪PostgreSQL】
BPF Compiler Collection (BCC)是基于eBPF的Linux内核分析、跟踪、网络监控工具。其源码存放于GitCode - 开发者的代码家园 想要监控PostgreSQL数据库的相关SQL需要在编译PostgreSQL的时候开启dtrace。下文主要介绍几个和PostgreSQL相关的工具,其他工具可根据需求自行了解。 …...
汽车架构解析:python cantools库快速解析arxml
文章目录 前言一、安装cantools二、官方说明文档三、cantools方法1、解析message的属性2、解析pdu中的signals3、根据message查找signals4、报文组成bytes 四、总结 前言 曾经有拿cantools来解析过dbc,用得比较浅,不知道可以用来解析arxml。最近有个需求…...
Vue 之 修饰符汇总
一、简介 在Vue中,修饰符是一种特殊的语法,用于修改指令或事件绑定的行为,它们以点号(.)的形式添加到指令或事件的后面,并可以改变其默认行为或添加额外的功能,如:禁止事件冒泡、数…...
如何通过内网穿透实现无公网IP远程访问内网的Linux宝塔面板
文章目录 一、使用官网一键安装命令安装宝塔二、简单配置宝塔,内网穿透三、使用固定公网地址访问宝塔 正文开始前给大家推荐个网站,前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。…...
综合跨平台全端ui自动化测试框架Airtest——AirtestIDE录制微信小程序脚本教学
前言 有在自动化测试领域的小伙伴应该都知道,app和小程序自动化这一类的自动化测试在实际操作中有时候很棘手让人心烦,动不动就是用appium写代码脚本维护什么的,不仅步骤繁琐,环境配置方面也是繁琐无比,动不动就与客户…...
如何在ArcGIS Pro中指定坐标系
在进行制图的时候,为了实现某些特定的效果,需要指定特定的坐标系,但是现有的数据可能不是所需要的坐标系,这时候就需要对现有的数据坐标系进行处理,这里为大家介绍一下ArcGIS Pro中指定坐标系的方法,希望能…...
macOS 老版本系统恢复中出现“MacBook Pro无法与恢复服务器取得联系”
macOS 老版本系统恢复中出现“MacBook Pro无法与恢复服务器取得联系” 网络问题系统时间问题镜像索引问题 网络问题 系统时间问题 镜像索引问题 恢复模式的 “实用工具 > 系统终端” 里执行如下 nvram IASUCatalogURLhttps://swscan.apple.com/content/catalogs/others/i…...
[C#]使用OpenCvSharp实现二维码图像增强超分辨率
【官方框架地址】 github.com/shimat/opencvsharp 【算法介绍】 借助于opencv自带sr.prototxt和sr.caffemodel实现对二维码图像增强 【效果展示】 【实现部分代码】 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; usin…...
优化|流形优化系列(一)
简介 流形优化是非线性优化的一个分支,它主要关注在特定的几何结构下进行优化。在流形优化中,优化问题通常是在黎曼流形上进行的,而非欧几里得空间。黎曼流形是带有黎曼度量的流形,该度量为流形上的每个点都定义了一个内积。这种…...
torch.where()函数
在深度学习的实现中,处理条件逻辑是一项常见而重要的任务。PyTorch 提供了一个强大的函数 torch.where(),它使得基于条件的张量操作变得既简单又高效。本文将深入探讨 torch.where() 的用法,并通过示例展示它在不同场景中的应用。 什么是 to…...
盖子的c++小课堂——第二十三讲:背包问题
前言 又是一次漫长的更新(我真不是故意的aaaaaaaaaaaaaaa),先不多说了,直接给我~坐下~说错了说错了,直接开始~ 背包问题----动态规划 背包问题(knapsack problem) 动态规划(dyna…...
k8s安装hostPath方式存储的PostgreSQL15
1.配置 PostgreSQL 的 ConfigMap cat > postgres-configmap.yaml << EOF apiVersion: v1 kind: ConfigMap metadata:name: postgres-configlabels:app: postgresnamespace: dev data:POSTGRES_DB: postgresdbPOSTGRES_USER: postgresadminPOSTGRES_PASSWORD: admin12…...
51单片机之按键和数码管
51单片机之按键和数码管 ✍前言:♐独立按键😀独立按键的原理😀软件实现按键控制LED灯的亮灭 ♐数码管😊数码管显示数字或者字母的原理🐉共阳极数码管🐉共阴极极数码管🐉4位1体数码管 Ƕ…...
【Oracle】 - 数据库的实例、表空间、用户、表之间关系
Oracle是一种广泛使用的关系型数据库管理系统,它具有高性能、高可靠性、高安全性等特点。1Oracle数据库的结构和组成是一个复杂而又有趣的话题,本文将介绍Oracle数据库的四个基本概念:数据库、实例、表空间和用户,以及它们之间的关…...
ssm基于HTML5的交流论坛的设计与实现+vue论文
摘 要 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互联网时代才发现能补上自古…...
JDBC*
*JDBC数据库连接步骤 1.将JDBC驱动的jar添加到项目的依赖中。 2.加载JDBC驱动 例如: Class.forName("com.mysql.jdbc.Driver"); 3.连接数据库 例如: Connection con DriverManager.getConnection(URL,us…...
Zookeeper注册中心实战
Java学习手册面试指南:https://javaxiaobear.cn Spring Cloud Zookeeper通过自动配置和绑定到 Spring 环境和其他 Spring 编程模型习惯用法,为 Spring Boot 应用程序提供Apache Zookeeper集成。通过一些简单的注释,您可以快速启用和配置应用…...
1-02VS的安装与测试
一、概述 对于一名C语言程序员而言,进行C语言程序的开发一般需要一个文本编辑器加上一个编译器就足够了。但为了方便起见,我们选择使用集成开发环境——Visual Studio(简称VS)。安装Visual Studio 下面讲一下如何安装VS࿰…...
ctfshow——PHP特性
文章目录 web 89web 90web 91web 92web 93web 94web 95web 96web 97web 98web 99web 100——优先级、eval()用法web 101——RefelctionClass反射类web 102——php伪协议、hex2bin()web103web 104——sha1绕过web 105 web 89 使用人工分配 ID 键的数值型数组绕过preg_match. 两个…...
K8S陈述式资源管理
陈述式 命令行:kubectl命令行工具 优点:90%以上的场景都可以满足,对增,删,查比较方便,对改不是很友好 缺点:命令比较冗长,复杂,难记 声明式 k8s当中的yaml文件来实现资…...
详解Python内置函数 !!!
内置函数就是Python给你提供的, 拿来直接用的函数,比如print,input等。 文章目录 前言 一、和数字相关 1. 数据类型 2. 进制转换 3. 数学运算 二、和数据结构相关 1. 序列 2. 数据集合 3. 相关内置函数 三、和数据结构相关 四、和迭代器生成器相关 五、字…...
使用Vue3 + Vite创建uni-app项目(Webstorm)
使用Vue3 Vite创建uni-app项目(Webstorm) 参考:前端VUE3Vite UniAPP-- 框架搭建_uniapp vite-CSDN博客 // 参考github.com的库:https://github.com/dcloudio/uni-preset-vue npx degit dcloudio/uni-preset-vue#vite-ts vite-vu…...
【js】js实现多个视频连续播放:
文章目录 一、效果:二、实现:三、案例: 一、效果: 二、实现: <!DOCTYPE html> <html> <head><title>Video Player</title><style>#progressBar { width: 800px;height: 20px;b…...
使用openssl 生成pfx格式证书时报错:unable to load certificates
问题现象包如下: 之前在centos上使用openssl部署证书服务器以及颁发证书的时候遇到的问题,在进行个人证书生成之后需要形成pfx格式证书,结果过程中报错了。网上类似资料比较少,做个记录。 生成pfx格式证书的命令: o…...
微信小程序 分享按钮 监听用户分享成功
代码 <view><button class"btnLq ed flex justify-center" open-type"share" click"getAward">点击分享</button> </view>export default {data(){return{shareMd:false,//分享埋点}},onShow(){//if(this.shareMd){uni.…...
数据结构-怀化学院期末题
题目: 利用希尔排序算法实现线性表的排序。希尔排序是根据给定的增量序列将线性表分隔成某个“增量”的记录组成一个子序例,在子序列中采用直接插入排序完成。 输入 第一行为元素个数n(1<n<1000),第二行为n个元素值(整数),即…...
跟cherno手搓游戏引擎【1】:配置与入口点
环境配置: 编译环境:VS2019 创建两个项目: 设置Sandbox为启动项: 设置sandbox的配置属性-常规-输出目录\中间目录为如下: 预处理定义:为了配置一些只有windows才能用的函数。 设置YOTOEngin(我…...
25计算机专业考研经验贴之准备篇
Hello各位小伙伴,大家新年好! 马上就要进入寒假假期了,25考研也该提上日程了。今天先跟大家分享一下大家在假期可以先做起来的准备工作。 【选择学校】 择校是个非常重要的内容,因为不同学校的考试内容是不一样的,有些…...
宁波设计公司有哪些/seo优化个人博客
“为改变而来。”恒云太总经理潘峰的话掷地有声。恒云太的表现堪称一条“快鱼”,它能在高等级数据中心这池水中激起多大的涟漪?它的进入能否掀起一次高等级数据中心建设和运维的新高潮? 未来5年将投资60亿元,目标是在全球范围内建…...
深圳市找工作直招/网站优化排名易下拉软件
E - 菲波拉契数制 Time Limit: 3000/1000MS (Java/Others) Memory Limit: 65535/65535KB (Java/Others) Submit Status我们定义如下数列为菲波拉契数列: F(1)1 F(2)2 F(i)F(i−1)F(i−2)(i>3) 给定任意一个数,我们可以把它表示成若干互不相同的菲…...
a站b站/上海互联网管理系统推广公司
求拓扑排序,题目保证有结果,拓扑排序的关键词是入度,过程和广度优先搜索有点类似,同时是判断有向图是不是无环的一个方法 #include <bits/stdc.h>#define fi first #define se second #define pb push_back #define mk mak…...
wordpress工单/营销型网站的公司
代码生成器 路径:接口菜单–》生成代码 生成代码界面如下图: 包含的开发语言有: cURLJavaPHPGoPythonNodeRRustStrestDartMATLABElixirAnsibleBrowserJsonStringC# 举几个例子: C# // Generated by ApiPost: https://www.apipost.cn/…...
外管局网站做延期收款报告/收录网站
作为一个想一次通过PMP考试的老考试人。 刷题、报班、看视频、看教材甚至是通过人的经验贴都不会放过的我,只要是与通过PMP考试有关的都想去看看了解了解,避避坑。 但是内容有太多,而且考试的经验也就只能看看,在自己身上好像没…...
东莞疫情最新动态/优化推广网站怎么做
在做用户信息统计时,发现 安卓6.0系统用户返回的Mac地址都是 02:00:00:00:00:00,被误判为作弊用户,实际上是谷歌在6.0及以后版本对获取wifi及蓝牙MacAddress 做的改动。 Most notably, Local WiFi and Bluetooth MAC addresses are no longe…...