当前位置：首页 > news >正文

【OCR】——端到端文字识别GOT-OCR2.0不香嘛？

news 2026/2/7 22:05:08

代码：https://github.com/Ucas-HaoranWei/GOT-OCR2.0?tab=readme-ov-file
在线demo：https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo

0.前言

最早做ocr的时候，就在想如何能做一个端到端的模型，就不用先检测再识别，最起码只用只用维护一个模型。现在他来了。而且鲁棒性，适用面都很强。但是部署。。。

1.效果实测

可以通过在线demo实测，效果强的可怕。
在这里插入图片描述

2.论文解读

在这里插入图片描述

2.1 主要贡献

实现了一种端到端的OCR模型。
多样的输入，多样的输出，还支持交互式。
在输入端，该模型支持切片和整页样式中常用的场景和文档样式图像。在输出端，GOT 可以通过简单的提示生成普通或格式化的结果（markdown/tikz/smiles/kern）。此外，该模型具有交互式OCR特征，即由坐标或颜色引导的区域级识别。此外，我们还将动态分辨率和多页OCR技术应用于GOT，以获得更好的实用性

2.2 网络结构

在这里插入图片描述
encoder：编码器结构是 VitDet基本版本，参数约为 80M，它将 1024×1024×3 输入图像转移到 256×1024 图像token，然后，这些图像标记通过 1024×768 线性层投影到语言模型。
qwen-0.5B：大语言模型

2.3 训练细节

第一阶段：encoder训练：

受 LVLM 设计的启发，解码器可以通过训练有素的语言模型进行初始化。然而，我们没有为 OCR-2.0 模型找到合适的预训练编码器，所以我们必须自己训练一个。我们希望新的OCR编码器能够很好地处理各种输入形状(切片和整个页面)中常用的场景和文档文本识别。

编码器结构是 VitDet基本版本，再接一个小的decoder OPT-125M

第二阶段：微调大预言decoder
在视觉编码器的预训练步骤之后，我们将其连接到更强大的语言模型，以构建 GOT 的最终架构。在这里，我们采用 Qwen-0.5B作为解码器，因为它的参数数量相对较少，同时结合了多种语言的先验知识。连接器的尺寸（即线性嵌入层）调整为 1024×1024，以与 Qwen-0.5B 的输入通道对齐。因此，GOT 具有无缝的编码器-解码器范式，总共有大约 580M 的参数，这在计算上更友好，更容易部署在具有 4G 内存的消费级 GPU 上。编码器的高压缩率（1024×1024 光像素到 256 个图像标记）为解码器节省了大量标记空间以生成新的标记。同时，解码器的令人满意的解码上下文长度（我们使用大约 8K max-length）确保 GOT 可以有效地输出密集场景下的 OCR 结果

第三阶段：prompt微调

作为高交互特征，细粒度OCR是由空间坐标或颜色控制的区域级视觉感知。用户可以在问题提示中添加框坐标（框引导的 OCR）或颜色文本（颜色引导的 OCR），以请求感兴趣区域 (RoI) 内的识别，避免其他不相关字符的输出

2.4 实验结果

open-source Fox benchmark上的结果
论文中效果图

3. other

核心就是一个encoder+decoder模式的ocr，这和最开始的end2end ocr的核心是一样的，只是以前是用cnn+transformer，或者transformer+transformer，现在encoder，decoder都用了更大的模型，更多的数据。

【OCR】——端到端文字识别GOT-OCR2.0不香嘛？

0.前言

1.效果实测

2.论文解读

2.1 主要贡献

2.2 网络结构

2.3 训练细节

2.4 实验结果

3. other

相关文章：

【OCR】——端到端文字识别GOT-OCR2.0不香嘛？

SkyWalking 和 ELK 链路追踪实战

ETCD的封装和测试

基于大数据爬+数据可视化的民族服饰数据分析系统设计和实现(源码+论文+部署讲解等)

torch.optim.lr_scheduler.ReduceLROnPlateau

Linux 搭建ftp服务

阳光电源嵌入式面试题及参考答案

PS的功能学习（形状、文字、图层）

项目实例_FashionMNIST_CNN

Ubuntu 安装 web 服务器

burp的编解码，日志，比较器

2.1、模版语法

最小二乘法拟合出二阶响应面近似模型

【汽车】-- 常见的汽车悬挂系统

VMware Workstation Pro 17 下载以及安装 Ubuntu 20.04.6 Ubuntu 启用 root 登录

记录ubuntu22.04重启以后无法获取IP地址的问题处理方案

linux 删除系统特殊的的用户帐号

core Webapi jwt 认证

【Redis】Redis基础——Redis的安装及启动

Oracle Recovery Tools工具一键解决ORA-00376 ORA-01110故障（文件offline）---惜分飞

Vue记事本应用实现教程

React第五十七节 Router中RouterProvider使用详解及注意事项

【Java学习笔记】Arrays类

深入浅出：JavaScript 中的 `window.crypto.getRandomValues()` 方法

高频面试之3Zookeeper

【决胜公务员考试】求职OMG——见面课测验1

高防服务器能够抵御哪些网络攻击呢？

html css js网页制作成品——HTML+CSS榴莲商城网页设计（4页）附源码

技术栈RabbitMq的介绍和使用

排序算法总结（C++）