当前位置: 首页 > news >正文

PDF 解析格式化输出 API 数据接口

PDF 解析格式化输出 API 数据接口

支持输出 TEXT HTML XML TAG,多种格式输出,超精准识别率。

gugudata_api_cover

1. 产品功能

  • 通用的识别接口, 支持标准 PDF 文件解析;
  • 多种格式输出,支持 TEXT HTML XML TAG;
  • HTML 包含完美排版格式;
  • 基于机器学习不断提高的识别率;
  • 1M 文件毫秒级识别性能;
  • 数据持续更新与维护;
  • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面兼容 Apple ATS;
  • 全国多节点 CDN 部署;
  • 接口极速响应,多台服务器构建 API 接口负载均衡;
  • 接口调用状态与状态监控

2. API 文档

接口详情: https://www.gugudata.com/api/details/pdf2format

接口地址: https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}

数据预览: https://www.gugudata.com/preview/pdf2format

接口测试: https://api.gugudata.com/imagerecognition/pdf2format/demo

3. 请求参数

参数名参数类型是否必须默认值备注
appkeystringYOUR_APPKEY付费后获取的 APPKEY
typestringYOUR_VALUE定义输出格式,可选 text|html|xml|tag
pdffilefileYOUR_VALUE文件格式参数,待转换的 PDF 文件

4. 返回参数

参数名参数类型备注
DataStatus.StatusCodeint接口返回状态码
DataStatus.StatusDescriptionstring接口返回状态说明
DataStatus.ResponseDateTimestring接口数据返回时间
DataStatus.DataTotalCountint此条件下的总数据量,一般用于分页计算
Data.Datastring接口解析 PDF 返回数据,格式由 type 参数决定

5. 接口 HTTP 响应标准状态码

状态码状态码解释备注
200接口正常响应业务状态码参见下方 接口自定义状态码
403请求频率超限CDN 层通过 IP 请求频率智能判断,一般的高频请求不会触发此状态码

6. 接口响应状态码

状态码状态码解释备注
100正常返回可通过判断此状态码断言接口正常返回
-1请求失败请求处理请求失败
501参数错误请检查您传递的参数个数以及参数类型是否匹配
502请求频率受限一般建议每秒请求不超过 100 次
503APPKEY 权限超限/订单到期请至开发者中心检查您的 APPKEY 是否到期或是否权限超限
504APPKEY 错误请检查传递的 APPKEY 是否为开发者中心获取到的值
505请求的次数超出接口限制请检查对应接口是否有请求次数限制以及您目前的接口请求剩余次数
900接口内部响应错误接口可用性为 99.999%,如获取到此状态码请邮件联系我们

7. 开发语言请求示例代码

示例代码包含的开发语言:C#, Go, Java, jQuery, Node.js, Objective-C, PHP, Python, Ruby, Swift 等,其他语言进行对应的 RESTful API 请求实现即可。

code demo

8. 常见问题 Q&A

  • Q: 数据请求有缓存吗?

    A: 所有的数据都是直接返回的,部分周期性数据在更新周期内数据是缓存的。

  • Q: 如何保证请求时 key 的安全性?

    A: 一般建议将对我们 API 的请求放置在您应用的后端服务中发起,您应用的所有前端请求都应该指向您自己的后端服务,这样的架构也更加地纯粹且易维护。

  • Q: 接口可以用于哪些开发语言?

    A: 可以使用于所有可以进行网络请求的开发语言,用于您项目快速地进行数据构建。

  • Q: 接口的性能可以保证吗?

    A: 接口后台架构和我们给企业提供的商业项目架构一致,您可以通过访问测试接口查看接口相关返回性能与信息。


咕咕数据,专业的数据提供商,提供专业全面的数据接口、商业数据分析,让数据成为您的生产原料。

image-20200716141435988

咕咕数据基于我们七年来为企业客户提供的千亿级数据存储与性能优化、相关海量基础数据支撑,将合规的部分通用数据、通用功能抽象成产品级数据 API,大大满足了用户在产品开发过程中对基础数据的需求,同时降低了海量数据的存储与运维成本,以及复杂功能的技术门槛与人力开发成本。

除了我们已开放的分类数据与功能接口外,还有海量数据正在整理、清洗、整合、构建中,后期会开放更多的数据与云端功能接口 API 供用户使用。

目前已开放的数据接口 API

  • [条码工具] 通用二维码生成
  • [条码工具] Wi-Fi 无线网二维码生成
  • [条码工具] 通用条形码生成
  • [图像识别] 通用 OCR
  • [图像识别] 通用图片 OCR 到 Word
  • [图像识别] HTML 转 PDF
  • [图像识别] HTML 转 Word
  • [图像识别] Markdown 转 PDF
  • [图像识别] PDF 解析格式化输出
  • [区域/坐标] 全国大学高校基础信息
  • [区域/坐标] 地理坐标逆编码
  • [区域/坐标] IP 地址定位
  • [区域/坐标] 全国省市区街道区域信息
  • [区域/坐标] 地理坐标系转换
  • [元数据/字典] 历年高考省录取分数线
  • [元数据/字典] 历年高考高校录取分数线
  • [元数据/字典] 历年高考专业录取分数线
  • [新闻/资讯] 软件开发技术博文头条
  • [新闻/资讯] 获取任意链接文章正文
  • [新闻/资讯] 公众号头条文章
  • [新闻/资讯] 获取任意链接正文图片
  • [新闻/资讯] 获取公众号文章封面
  • [新闻/资讯] 幽默笑话大全
  • [短信/语音] 手机归属地查询
  • [短信/语音] 国际手机号码检查纠正
  • [文字/文本] 中文文本分词
  • [文字/文本] 中英文排版规范化
  • [文字/文本] 百万中国对联数据
  • [文字/文本] 国际标准书号 ISBN
  • [文字/文本] 简体繁体互转
  • [文字/文本] 唐诗宋词大全
  • [文字/文本] 关键字摘要智能提取
  • [文字/文本] 文本语义相似度检测
  • [文字/文本] NLP中文智能纠错
  • [文字/文本] 人工智能对联生成
  • [文字/文本] NLP 语种检测
  • [天气/空气质量] 全国天气预报信息
  • [天气/空气质量] 全国实时空气质量指数
  • [天气/空气质量] 日出与日落时间
  • [天气/空气质量] 农历与二十四节气
  • [网站工具] 获取任意站点标题与图标
  • [股票行情] 美股实时行情数据
  • [股票行情] 美股历史行情数据
  • [股票行情] 美股分时交易数据
  • [股票行情] 美股历年基本财务数据
  • [股票行情] 港股实时行情数据
  • [股票行情] 港股历史行情数据
  • [股票行情] 港股分时交易数据
  • [股票行情] 港股上市公司公告
  • [股票行情] 港股历年三大财务报表
  • [股票行情] A 股实时行情数据
  • [股票行情] A 股历史行情数据
  • [股票行情] A 股分时交易数据
  • [股票行情] A 股历年三大财务报表
  • [股票行情] 中国股票指数数据
  • [股票行情] A 股个股信息查询
  • [股票行情] A 股历年财务指标
  • [股票行情] A 股指数成分数据
  • [股票行情] A 股指数历史数据
  • [股票行情] A 股盘前数据
  • [股票行情] A 股分笔交易数据
  • [股票行情] A 股交易日历
  • [股票行情] 期权实时行情数据
  • [股票行情] 基金基本信息列表
  • [股票行情] 指数型基金基本信息
  • [股票行情] 开放式基金净值实时数据
  • [股票行情] 开放式基金净值历史数据
  • [股票行情] 科创板历史行情数据
  • [股票行情] 美股粉单实时行情数据
  • [股票行情] 分类美股实时行情数据
  • [股票行情] 公募开放式基金实时数据
  • [股票行情] 公募开放式基金历史数据
  • [股票行情] 场内交易基金实时数据
  • [股票行情] 场内交易基金历史数据
  • [股票行情] 场内交易基金分时行情
  • [体育/比赛] 历年奥运比赛数据

相关文章:

PDF 解析格式化输出 API 数据接口

PDF 解析格式化输出 API 数据接口 支持输出 TEXT HTML XML TAG,多种格式输出,超精准识别率。 1. 产品功能 通用的识别接口, 支持标准 PDF 文件解析;多种格式输出,支持 TEXT HTML XML TAG;HTML 包含完美排…...

RL笔记:基于策略迭代求CliffWaking-v0最优解(python实现)

目录 1. 概要 2. 实现 3. 运行结果 1. 概要 CliffWalking-v0是gym库中的一个例子[1],是从Sutton-RLbook-2020的Example6.6改编而来。不过本文不是关于gym中的CliffWalking-v0如何玩的,而是关于基于策略迭代求该问题最优解的实现例。 CliffWalking-v0的…...

350. 两个数组的交集 II

两个数组的交集 II 给你两个整数数组 nums1 和 nums2 ,请你以数组形式返回两数组的交集。返回结果中每个元素出现的次数,应与元素在两个数组中都出现的次数一致(如果出现次数不一致,则考虑取较小值)。可以不考虑输出结…...

Android仿微信选择图片

效果展示首先先添加用到的权限<uses-permission android:name"android.permission.INTERNET" /><!--获取手机存储卡权限--><uses-permission android:name"android.permission.READ_EXTERNAL_STORAGE"/><uses-permission android:nam…...

python+嵌入式——串口通信篇(收发解包)

目录前言安装pyserialpyserial大致概括整体流程硬件连接例子(简单版)详细使用serial初始化参数发包收包收包检查包并解包python struct模块结语前言 这几年&#xff0c;自己也做了一些嵌入式机器人。在整个开发的过程中&#xff0c;调通信通常会花费一段比较长的时间&#xff…...

剖析G1 垃圾回收器

简单回顾 在Java当中&#xff0c;程序员在编写代码的时候只需要创建对象&#xff0c;从来不需要考虑将对象进行释放&#xff0c;这是因为Java中对象的垃圾回收全部由JVM替你完成了(所有的岁月静好都不过是有人替你负重前行)。 而JVM的垃圾回收由垃圾回收器来负责&#xff0c;在…...

如何打造一款专属于自己的高逼格电脑桌面

作为一名电脑重度使用者&#xff0c;你是否拥有一款属于你自己的高逼格电脑桌面呢&#xff1f;你是不是也像大多数同学一样&#xff0c;会把所有的内容全部都堆积到电脑桌面&#xff0c;不仅找东西困难&#xff0c;由于桌面内容太多还会导致C盘空间不足&#xff0c;影响电脑的反…...

【C++】string的使用及其模拟实现

文章目录1. STL的介绍1.1 STL的六大组件1.2 STL的版本1.3 STL的缺陷2. string的使用2.1 为什么要学习string类&#xff1f;2.2 常见构造2.3 Iterator迭代器2.4 Capacity2.5 Modifiers2.6 String operations3. string的模拟实现3.1 构造函数3.2 拷贝构造函数3.3 赋值运算符重载和…...

怀念在青鸟的日子

时间过的可真快&#xff0c;一转眼来到了2023年&#xff01;我初中上完就没有在念&#xff0c;下了学门步入社会&#xff0c;那时的我一片迷茫&#xff0c;不知道该去干什 么&#xff0c;父母说要不去学挖掘机、理发、修车...我思考再三&#xff0c;一个都没有我喜欢的&#xf…...

学习记录---Python内置类型

文章目录字符串split()列表常见操作列表相减字典创建普通创建eval(s)添加或更新元素d[t] 1d.update({c: 3}){**d1, **d2} **字典解包装运算符删除元素 d.pop(c)属性d.items()d.keys()d.values()访问元素d[Name]d.get(score)遍历字典for key in dictfor key, values in dict.it…...

Python笔记 -- 列表

文章目录1、列表简介2、修改、添加、删除元素2.1、添加2.2、删除3、排序、倒序4、遍历列表5、创建数值列表6、列表切片7、列表复制8、元组1、列表简介 在Python中用方括号[]表示列表&#xff0c;用逗号隔开表示其元素 通过索引访问列表 names [aa,bb,cc,dd]print(names[0]) …...

谈谈UVM中的uvm_info打印

uvm_info宏的定义如下&#xff1a; define uvm_info(ID,MSG,VERBOSITY) \begin \if (uvm_report_enabled(VERBOSITY,UVM_INFO,ID)) \uvm_report_info (ID, MSG, VERBOSITY, uvm_file, uvm_line); \end 从这里可以看出uvm_info由两部分组成&#xff1a;uvm_report_enabled(VER…...

矩阵理论1 集合上的等价关系(equivalence relations on a set S)

定义 对于一个集合S, 如果集合E⊂SS\mathcal{E} \subset S\times SE⊂SS满足以下条件 自反性: 对于∀s∈S,都有(s,s)∈E\forall s\in S, 都有 (s, s) \in \mathcal{E}∀s∈S,都有(s,s)∈E对称性: (s,t)∈E⇔(t,s)∈E(s,t) \in \mathcal{E} \Leftrightarrow (t,s)\in \mathcal…...

【网络监控】Zabbix详细安装部署(最全)

文章目录Zabbix详细安装部署环境准备安装依赖组件访问初始化配置Zabbix详细安装部署 Zabbix 是一个高度集成的网络监控解决方案&#xff0c;可以提供企业级的开源分布式监控解决方案&#xff0c;由一个国外的团队持续维护更新&#xff0c;软件可以自由下载使用&#xff0c;运作…...

阿里云轻量服务器--Docker--Nacos安装(使用外部Mysql数据存储)

前言&#xff1a;docker 安装nacos 如果不设置外部的mysql 默认使用内嵌的内嵌derby为数据源&#xff0c;这个时候如果&#xff0c;重新部署nacos 则会造成原有数据丢失情况&#xff1b; 1 默认安装的nacos 启动后使用的是内嵌的存储&#xff1a; 2 使用外部mysql 作为存储&a…...

unity开发知识点小结01

unity对象生命周期函数 Awake():最早调用&#xff0c;所以可以实现单例模式 OnEnable&#xff08;&#xff09;&#xff1a;组件激活后调用&#xff0c;在Awake后调用一次 Stat&#xff08;&#xff09;&#xff1a;在Update&#xff08;&#xff09;之前&#xff0c;OnEnable…...

软件系统[软件工程]

What’s the link? They all involve outdated (legacy) software technology. All have had huge socio-economical impact. Prompting national lockdowns. Spreadsheet workflow error led to thousands of preventable infections and deaths. Huge losses of citizen dat…...

电力系统稳定性的定义与分类

1电力系统稳定性的定义与分类 IEEE给出电力系统稳定性定义&#xff1a;电力系统稳定性是指电力系统这样的一种能力—对于给定的初始运行状态&#xff0c;经历物理扰动后&#xff0c;系统能够重新获得运行平衡点的状态&#xff0c;同时绝大多数系统变量有界&#xff0c;因此整个…...

基于java的俱乐部会员管理系统

技术&#xff1a;Java、JSP等摘要&#xff1a;随着科学技术的飞速发展&#xff0c;科学技术在人们日常生活中的应用日益广泛&#xff0c;也给各行业带来发展的机遇&#xff0c;促使各个行业给人们提供更加优质的服务&#xff0c;有效提升各行业的管理水平。俱乐部通过使用一定的…...

线程池执行父子任务,导致线程死锁

前言&#xff0c; 一次线程池的不当使用&#xff0c;导致了现场出现了线程死锁&#xff0c;接口一直不返回。而且由于这是一个公共的线程池&#xff0c;其他使用了次线程池的业务也一直阻塞&#xff0c;系统出现了OOM&#xff0c;不过是幸好是线程同事测试出来的&#xff0c;没…...

SkyWalking 10.2.0 SWCK 配置过程

SkyWalking 10.2.0 & SWCK 配置过程 skywalking oap-server & ui 使用Docker安装在K8S集群以外&#xff0c;K8S集群中的微服务使用initContainer按命名空间将skywalking-java-agent注入到业务容器中。 SWCK有整套的解决方案&#xff0c;全安装在K8S群集中。 具体可参…...

PHP和Node.js哪个更爽?

先说结论&#xff0c;rust完胜。 php&#xff1a;laravel&#xff0c;swoole&#xff0c;webman&#xff0c;最开始在苏宁的时候写了几年php&#xff0c;当时觉得php真的是世界上最好的语言&#xff0c;因为当初活在舒适圈里&#xff0c;不愿意跳出来&#xff0c;就好比当初活在…...

uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖

在前面的练习中&#xff0c;每个页面需要使用ref&#xff0c;onShow等生命周期钩子函数时都需要像下面这样导入 import {onMounted, ref} from "vue" 如果不想每个页面都导入&#xff0c;需要使用node.js命令npm安装unplugin-auto-import npm install unplugin-au…...

Python爬虫实战:研究feedparser库相关技术

1. 引言 1.1 研究背景与意义 在当今信息爆炸的时代,互联网上存在着海量的信息资源。RSS(Really Simple Syndication)作为一种标准化的信息聚合技术,被广泛用于网站内容的发布和订阅。通过 RSS,用户可以方便地获取网站更新的内容,而无需频繁访问各个网站。 然而,互联网…...

大数据零基础学习day1之环境准备和大数据初步理解

学习大数据会使用到多台Linux服务器。 一、环境准备 1、VMware 基于VMware构建Linux虚拟机 是大数据从业者或者IT从业者的必备技能之一也是成本低廉的方案 所以VMware虚拟机方案是必须要学习的。 &#xff08;1&#xff09;设置网关 打开VMware虚拟机&#xff0c;点击编辑…...

oracle与MySQL数据库之间数据同步的技术要点

Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异&#xff0c;它们的数据同步要求既要保持数据的准确性和一致性&#xff0c;又要处理好性能问题。以下是一些主要的技术要点&#xff1a; 数据结构差异 数据类型差异&#xff…...

基于TurtleBot3在Gazebo地图实现机器人远程控制

1. TurtleBot3环境配置 # 下载TurtleBot3核心包 mkdir -p ~/catkin_ws/src cd ~/catkin_ws/src git clone -b noetic-devel https://github.com/ROBOTIS-GIT/turtlebot3.git git clone -b noetic https://github.com/ROBOTIS-GIT/turtlebot3_msgs.git git clone -b noetic-dev…...

return this;返回的是谁

一个审批系统的示例来演示责任链模式的实现。假设公司需要处理不同金额的采购申请&#xff0c;不同级别的经理有不同的审批权限&#xff1a; // 抽象处理者&#xff1a;审批者 abstract class Approver {protected Approver successor; // 下一个处理者// 设置下一个处理者pub…...

C++实现分布式网络通信框架RPC(2)——rpc发布端

有了上篇文章的项目的基本知识的了解&#xff0c;现在我们就开始构建项目。 目录 一、构建工程目录 二、本地服务发布成RPC服务 2.1理解RPC发布 2.2实现 三、Mprpc框架的基础类设计 3.1框架的初始化类 MprpcApplication 代码实现 3.2读取配置文件类 MprpcConfig 代码实现…...

Python爬虫实战:研究Restkit库相关技术

1. 引言 1.1 研究背景与意义 在当今信息爆炸的时代,互联网上存在着海量的有价值数据。如何高效地采集这些数据并将其应用于实际业务中,成为了许多企业和开发者关注的焦点。网络爬虫技术作为一种自动化的数据采集工具,可以帮助我们从网页中提取所需的信息。而 RESTful API …...