当前位置: 首页 > news >正文

【OCR】——端到端文字识别GOT-OCR2.0不香嘛?

代码:https://github.com/Ucas-HaoranWei/GOT-OCR2.0?tab=readme-ov-file
在线demo:https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo

0.前言

最早做ocr的时候,就在想如何能做一个端到端的模型,就不用先检测再识别,最起码只用只用维护一个模型。现在他来了。而且鲁棒性,适用面都很强。但是部署。。。

1.效果实测

可以通过在线demo实测,效果强的可怕。
在这里插入图片描述

2.论文解读

在这里插入图片描述

2.1 主要贡献

  • 实现了一种端到端的OCR模型。
  • 多样的输入,多样的输出,还支持交互式。
  • 在输入端,该模型支持切片和整页样式中常用的场景和文档样式图像。在输出端,GOT 可以通过简单的提示生成普通或格式化的结果(markdown/tikz/smiles/kern)。此外,该模型具有交互式OCR特征,即由坐标或颜色引导的区域级识别。此外,我们还将动态分辨率和多页OCR技术应用于GOT,以获得更好的实用性

2.2 网络结构

在这里插入图片描述
encoder:编码器结构是 VitDet基本版本,参数约为 80M,它将 1024×1024×3 输入图像转移到 256×1024 图像token,然后,这些图像标记通过 1024×768 线性层投影到语言模型。
qwen-0.5B:大语言模型

2.3 训练细节

第一阶段:encoder训练

受 LVLM 设计的启发,解码器可以通过训练有素的语言模型进行初始化。然而,我们没有为 OCR-2.0 模型找到合适的预训练编码器,所以我们必须自己训练一个。我们希望新的OCR编码器能够很好地处理各种输入形状(切片和整个页面)中常用的场景和文档文本识别。

编码器结构是 VitDet基本版本,再接一个小的decoder OPT-125M

第二阶段:微调大预言decoder
在视觉编码器的预训练步骤之后,我们将其连接到更强大的语言模型,以构建 GOT 的最终架构。在这里,我们采用 Qwen-0.5B作为解码器,因为它的参数数量相对较少,同时结合了多种语言的先验知识。连接器的尺寸(即线性嵌入层)调整为 1024×1024,以与 Qwen-0.5B 的输入通道对齐。因此,GOT 具有无缝的编码器-解码器范式,总共有大约 580M 的参数,这在计算上更友好,更容易部署在具有 4G 内存的消费级 GPU 上。编码器的高压缩率(1024×1024 光像素到 256 个图像标记)为解码器节省了大量标记空间以生成新的标记。同时,解码器的令人满意的解码上下文长度(我们使用大约 8K max-length)确保 GOT 可以有效地输出密集场景下的 OCR 结果

第三阶段:prompt微调

作为高交互特征,细粒度OCR是由空间坐标或颜色控制的区域级视觉感知。用户可以在问题提示中添加框坐标(框引导的 OCR)或颜色文本(颜色引导的 OCR),以请求感兴趣区域 (RoI) 内的识别,避免其他不相关字符的输出

2.4 实验结果

  1. open-source Fox benchmark上的结果
    在这里插入图片描述
  2. 论文中效果图
    在这里插入图片描述

3. other

  • 核心就是一个encoder+decoder模式的ocr,这和最开始的end2end ocr的核心是一样的,只是以前是用cnn+transformer,或者transformer+transformer,现在encoder,decoder都用了更大的模型,更多的数据。

相关文章:

【OCR】——端到端文字识别GOT-OCR2.0不香嘛?

代码:https://github.com/Ucas-HaoranWei/GOT-OCR2.0?tabreadme-ov-file 在线demo:https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo 0.前言 最早做ocr的时候,就在想如何能做一个端到端的模型,就不用先检测再…...

SkyWalking 和 ELK 链路追踪实战

一、背景 最近在给项目搭建日志平台的时候,采用的方案是 SkyWalking ELK 日志平台,但发现 ELK 日志平台中的日志没有 Trace ID,导致无法追踪代码报错的整体链路。 空哥提示:Trace ID 是分布式追踪中用来唯一标识一个服务请求或事…...

ETCD的封装和测试

etcd是存储键值数据的服务器 客户端通过长连接watch实时更新数据 场景: 当主机A给服务器存储 name: 小王 主机B从服务器中查name ,得到name-小王 当主机A更改name 小李 服务器实时通知主机B name 已经被更改成小李了。 应用:服务注册与发…...

基于大数据爬+数据可视化的民族服饰数据分析系统设计和实现(源码+论文+部署讲解等)

博主介绍:CSDN毕设辅导第一人、全网粉丝50W,csdn特邀作者、博客专家、腾讯云社区合作讲师、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌ 技术范围…...

torch.optim.lr_scheduler.ReduceLROnPlateau

torch.optim.lr_scheduler.ReduceLROnPlateau 是 PyTorch 中的一种学习率调度器,主要用于在模型训练过程中根据某些指标(如验证损失)动态调整学习率。它是一种基于性能指标动态调整学习率的策略,而不是预定义的固定时间调整。 主要…...

Linux 搭建ftp服务

FTP是什么? FTP(文件传输协议,File Transfer Protocol)是一种用于在计算机之间传输文件的网络协议。它基于客户端-服务器模型,允许用户从远程服务器上传、下载和管理文件。 FTP的主要作用 文件传输:FTP最基…...

阳光电源嵌入式面试题及参考答案

讲一讲声明变量的时候应该注意哪些内容。 在声明变量时,首先要考虑变量的类型。不同的数据类型有不同的用途和占用的存储空间大小。例如,基本数据类型如整型(int)通常占用 4 个字节,用来存储整数;而浮点型(float)用于存储带有小数部分的数字,占用 4 个字节,双精度浮点…...

PS的功能学习(形状、文字、图层)

关于图层 如果是在一个已经有其他图层的文档界面下,拉一张新图进来,就会自动转换成智能对象 注意,放大之后再栅格化,是会根据原本的防矢量图规则放大之后,再变回像素图层,这个变回来的像素图层是“在原像素…...

项目实例_FashionMNIST_CNN

前言 提醒: 文章内容为方便作者自己后日复习与查阅而进行的书写与发布,其中引用内容都会使用链接表明出处(如有侵权问题,请及时联系)。 其中内容多为一次书写,缺少检查与订正,如有问题或其他拓展…...

Ubuntu 安装 web 服务器

安装 apach sudo apt install apache2 -y 查看 apach2 版本号 apache2 -v 检查是否启动服务器 sudo service apache2 status 检查可用的 ufw 防火墙应用程序配置 sudo ufw app list 关闭防火墙 sudo ufw disable 更改允许通过端口流量 sudo ufw allow Apache Full 开启…...

burp的编解码,日志,比较器

声明! 学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关&a…...

2.1、模版语法

2.1.1、插值语法 1、代码示例 <body><!-- 准备容器 --><div id"app"><!-- 在data中声明的 --><!--1、 data中声明的变量 --><h1>{{msg}}</h1><h1>{{sayHello()}}</h1><!-- 不在data中的变量不可以 -->…...

最小二乘法拟合出二阶响应面近似模型

背景&#xff1a;根据样本试验数据拟合出二阶响应面近似模型&#xff08;正交二次型&#xff09;&#xff0c;并使用决定系数R和调整的决定系数R_adj来判断二阶响应面模型的拟合精度。 1、样本数据&#xff08;来源&#xff1a;硕士论文《航空发动机用W形金属密封环密封性能分析…...

【汽车】-- 常见的汽车悬挂系统

汽车悬挂系统是车辆的重要组成部分&#xff0c;其主要功能是连接车轮和车身&#xff0c;减缓路面颠簸对车身的影响&#xff0c;提高行驶的平顺性、舒适性和操控性。以下是常见的汽车悬挂系统类型及其特点&#xff1a; 1. 独立悬挂系统 每个车轮可以独立上下运动&#xff0c;不…...

VMware Workstation Pro 17 下载 以及 安装 Ubuntu 20.04.6 Ubuntu 启用 root 登录

1、个人免费版本 VMware Workstation Pro 17 下载链接怎么找&#xff1f;直接咕咕 VMware 找到如下链接。链接如下&#xff1a;Workstation 和 Fusion 对个人使用完全免费&#xff0c;企业许可转向订阅 - VMware 中文博客 点进去链接之后你会看到如下&#xff0c;注意安装之后仍…...

记录ubuntu22.04重启以后无法获取IP地址的问题处理方案

现象描述&#xff1a;我的虚拟机网络设置为桥接模式&#xff0c;输入ifconfig只显示127.0.0.1&#xff0c;不能连上外网。&#xff0c;且无法上网&#xff0c;用ifconfig只有如下显示&#xff1a; 1、sudo -i切换为root用户 2、输入dhclient -v 再输入ifconfig就可以看到多了…...

linux 删除系统特殊的的用户帐号

禁止所有默认的被操作系统本身启动的且不需要的帐号&#xff0c;当你第一次装上系统时就应该做此检查&#xff0c;Linux提供了各种帐号,你可能不需要&#xff0c;如果你不需要这个帐号,就移走它&#xff0c;你有的帐号越多,就越容易受到攻击。 1.为删除你系统上的用户,用下面的…...

core Webapi jwt 认证

core cookie 验证 Web API Jwt 》》》》用户信息 namespace WebAPI001.Coms {public class Account{public string UserName { get; set; }public string UserPassword { get; set; }public string UserRole { get; set; }} }》》》获取jwt类 using Microsoft.AspNetCore.Mvc…...

【Redis】Redis基础——Redis的安装及启动

一、初识Redis 1. 认识NoSQL 数据结构&#xff1a;对于SQL来说&#xff0c;表是有结构的&#xff0c;如字段约束、字段存储大小等。 关联性&#xff1a;SQL 的关联性体现在两张表之间可以通过外键&#xff0c;将两张表的数据关联查询出完整的数据。 查询方式&#xff1a; 2.…...

Oracle Recovery Tools工具一键解决ORA-00376 ORA-01110故障(文件offline)---惜分飞

客户在win上面迁移数据文件,由于原库非归档,结果导致有两个文件scn不一致,无法打开库,结果他们选择offline文件,然后打开数据库 Wed Dec 04 14:06:04 2024 alter database open Errors in file d:\app\administrator\diag\rdbms\orcl\orcl\trace\orcl_ora_6056.trc: ORA-01113:…...

常用环境部署(二十四)——Docker部署开源物联网平台Thingsboard

1、Docker和Docker-compose安装 参考网址如下&#xff1a; CENTOS8.0安装DOCKER&DOCKER-COMPOSE以及常见报错解决_centos8安装docker-compose-CSDN博客 2、 Thingsboard安装 &#xff08;1&#xff09;在/home目录下创建docker-compose.yml文件 vim /home/docker-com…...

SqlServer Doris Flink SQL 类型映射关系

SqlServer 对应 Flink SQL 数据类型映射关系 SQL Server TypeFlink SQL Typechar(n)CHAR(n)varchar(n)VARCHAR(n)nvarchar(n)VARCHAR(n)nchar(n)VARCHAR(n)textSTRINGntextSTRINGxmlSTRINGdecimal(p, s)DECIMAL(p, s)moneyDECIMAL(p, s)smallmoneyDECIMAL(p, s)numericNUMERIC…...

Java 中的方法重写

在 Java 中&#xff0c;方法重写&#xff08;Method Overriding&#xff09;是面向对象编程的一个重要概念&#xff0c;它指的是子类中存在一个与父类中相同名称、相同参数列表和相同返回类型的方法。方法重写使得子类可以提供特定的实现&#xff0c;从而覆盖&#xff08;或改变…...

v-for遍历多个el-popover;el-popover通过visible控制显隐;点击其他隐藏el-popover

场景:el-popover通过visible控制显隐;同时el-popover是遍历生成的多个。 原文档的使用visible后就不能点击其他地方使其隐藏;同时解决实现点击其他区域隐藏 <template><div><template v-for="(item,index) in arr" :key="index"><…...

从 Excel 文件中读取数据生成 SQL 语句[快捷main方法]

从 Excel 文件中读取数据生成 SQL 语句的实现 在日常工作中&#xff0c;我们经常需要从 Excel 文件中提取数据&#xff0c;并将其转换为 SQL 插入语句&#xff0c;以便于将数据导入到数据库中。在这篇文章中&#xff0c;我将展示如何使用 Java 来实现这一需求。 项目需求 我…...

从0到1实现项目Docker编排部署

在深入讨论 Docker 编排之前&#xff0c;首先让我们了解一下 Docker 技术本身。Docker 是一个开源平台&#xff0c;旨在帮助开发者自动化应用程序的部署、扩展和管理。自 2013 年推出以来&#xff0c;Docker 迅速发展成为现代软件开发和运维领域不可或缺的重要工具。 Docker 采…...

Vue框架入门

Author&#xff1a;Dawn_T17?? 目录 什么是框架 一.Vue 的使用方向 二.Vue 框架的使用场景 &#xff08;TIP&#xff09;MVVM思想 三.Vue入门案例 TIP&#xff1a;插值表达式 四.Vue-指令? &#xff08;1&#xff09;v-bind 和 v-model? ? &#xff08;2&#x…...

vue入门实战(二)父子组件显示,参数传递

经过上次的写法&#xff0c;我们已经写出每个list项&#xff0c;现在要在每个父组件下面加入自己的子项 一、新建子组件&#xff1a; smallItem.vue&#xff1a; <script> export default{props:[text,id,status] //父组件传来的参数 } </script> <template>…...

【Linux】Ubuntu:安装系统后配置

hostname&#xff1a;更改主机名 打开终端。 使用hostnamectl命令更改主机名。 sudo hostnamectl set-hostname 新的主机名你可以使用hostnamectl 命令来验证更改是否成功&#xff1a; hostnamectlChrome&#xff1a;更换默认浏览器 以下是从 Ubuntu 中移除预装的 Snap 版 Fi…...

springboot-查看版本和版本所需JDK

文章目录 访问spring管网查看springboot 项目查看当前版本查看版本所需JDK 访问spring管网 https://spring.io/ 查看springboot 项目 查看当前版本 点击调整到参考文档中去… 查看版本所需JDK...

绿色风格的网站/网店运营具体做什么

1一、课题研究的现实背景及意义(一)研究背景1&#xff0e;我国中职教育发展的新形势&#xff0c;指出了中职语文教学结合专业进行改革的重要性教育部在《关于全面推进素质教育深化中等职业教育教学改革的意见》1中指出&#xff1a;“加强文化基础教育&#xff0c;改革文化基础课…...

wordpress 主机服务主题/建网站的步骤

1 把lineEdit上的中文保存到一个字符数组里,使用 toUtf8().data()保存。 strcpy(array,ui->lineEdit->text().toUtf8().data()); 2 把array的中文字符显示在lineEdit上,使用QString::fromUtf8() ui->picturelineEdit->setText(QString::fromUtf8(array)); 3 可以…...

网站的留言功能/微信搜一搜seo优化

/* 题目&#xff1a;主线程创建两个辅助线程&#xff0c;辅助线程1使用选择排序算法对数组的前半部分排序&#xff0c;辅助线程2使用选择排序算法对数组的后半部分排序&#xff0c;主线程等待辅助线程运行結束后,使用归并排序算法归并子线程的计算结果 开发工具&#xff1a;DEV…...

中国建筑装饰网家居频道/网站优化排名首页

文章目录1. 按2. 临时生效的配置3. 永久生效的配置3.1. 自动配置3.2. 手动配置1. 按 今天在升级下载Python第三方库的时候特别慢&#xff0c;最后去升级pip的时候竟然还time out了&#xff0c;哇心态炸了。 问题想清楚了该怎么解决呢&#xff1f; 咱们可以用国内的镜像源啊&am…...

阿里云建站方案/sq网站推广

由于Winsock在被调用时是以动态链接库Winsock.dll的形式实现的&#xff0c;所以在它初始化时应首先调用WSAStartup函数&#xff0c;对Winsock DLL进行初始化&#xff0c;确定被调用的Winsock的版本号&#xff0c;并以此分配必要的资源&#xff1a; int WSAStartup( __in WORD …...

用asp做的一个网站实例源代码/中国国家培训网官网入口

1787. 使所有区间的异或结果为零 难点1 根据异或运算的性质可得知&#xff0c; 最后满足条件的序列必然是这样的结构&#xff0c; a[0],a[1],...,a[k−1],....,a[n−1]a[0],a[1],...,a[k-1],....,a[n-1]a[0],a[1],...,a[k−1],....,a[n−1]前k个数的异或结果为 0&#xff0c; 并…...