2024年OpenAI DevDay发布实时 API、提示缓存等新功能
就在几天前,一些重要人物如前 CTO Mira Murati 离开了 OpenAI。因此,看到 Sam Altman 在 DevDay 上登台,讨论开发者的新产品,感觉有点奇怪。
随着公司内部的这些变化,你不禁会想:我们还应该信任他吗?
但这不是重点。让我们先把这些戏剧性事件放在一边,看看 Dev Day 的真正主题——OpenAI 刚刚为开发者宣布的新工具。
尽管领导层的变动令人担忧,但显然公司仍在向前推进。事实上,这次活动中有许多值得细细探讨的进展。
如果你错过了去年的 DevDay 2023,这里是自那时以来的一些最新进展:
-
从 GPT-4 到 4o mini,每个 token 的成本下降了 98%
-
系统中的 token 处理量增加了 50 倍
-
显著的模型智能进展
实时 API(Realtime API)
DevDay 2024 的亮点无疑是实时 API。
这个 API 使开发者能够在其应用程序中构建低延迟、多模态的对话功能,支持文本、音频以及函数调用。
以下是一个调用 API 的 javascript 示例代码。
const event = {type: 'conversation.item.create',item: {type: 'message',role: 'user',content: [{type: 'input_text',text: 'Hey, how are you doing?'}]}
};
ws.send(JSON.stringify(event));
ws.send(JSON.stringify({type: 'response.create'}));
那么,为什么开发者应该关心这个呢?
-
原生语音到语音: 不经过文本中介,意味着低延迟和更细腻的输出。
-
自然且可引导的语音: 模型具有自然的语调,能表现出笑声、低语等,并能遵循语气指引。
-
同时输出多模态: 文本对内容审核有用,而比实时更快的音频确保了稳定的播放。
现在,数千名开发者可以将这一功能集成到他们的应用中,开启了语音驱动应用的新潮流。
看看一些有机会提前体验实时 API 的开发者分享的产品示例:
“结果是,我们的学习者体验更加个性化和有帮助!今天,我们宣布推出 Live Roleplays,这是一种结合实时 API 和我们的学习引擎的新 Speak 体验,能够在各种角色扮演场景中提供沉浸式的口语练习。” —Andrew Hsu
以下是实时 API 的定价信息:
-
文本输入:每 100 万个 token 5 美元
-
文本输出:每 100 万个 token 20 美元
-
音频输入:每 100 万个 token 100 美元(约每分钟 0.06 美元)
-
音频输出:每 100 万个 token 200 美元(约每分钟 0.24 美元)
提示缓存(Prompt Caching)
接下来介绍的是提示缓存,这项功能显著减少了处理重复提示所需的成本和时间。
OpenAI 现在将把 API 请求路由到最近处理过相同或相似提示的服务器,这意味着你可以跳过重复的计算。对于处理长提示或复杂提示且经常重复使用的开发者来说,这项功能特别有用。
此功能可将长提示的延迟减少多达 80%,成本降低 50%。
提示缓存并不是一个全新的概念。事实上,Anthropic不久前推出了一个类似功能,允许开发者缓存经常使用的上下文,最多可减少 90% 的成本。
OpenAI 的提示缓存适用于以下模型:
-
gpt-4o
-
gpt-4o-mini
-
o1-preview
-
o1-mini
当你发出 API 请求时,流程如下:
-
缓存查找:系统检查你的提示的初始部分(前缀)是否已被缓存。
-
缓存命中:如果找到了匹配的前缀,系统将使用缓存结果。这显著减少了延迟并降低了成本。
-
缓存未命中:如果没有匹配的前缀,系统将处理你的完整提示。处理完成后,提示的前缀会被缓存以备将来使用。
这些缓存的前缀最多可以存储 10 分钟。但在非高峰期,缓存可能会持续长达一小时。
提示缓存的定价如下:
视觉微调(Vision Fine-Tuning)
DevDay 上另一个重要的新功能是视觉微调。
此功能允许用户在 JSONL 文件中使用图像和文本来微调模型。这为不仅依赖文本输入,还可以利用视觉数据训练模型提供了可能性。
以下是 JSONL 文件中一行图像消息的示例。为了方便阅读,JSON 对象已展开,但通常情况下该 JSON 会出现在数据文件的单行中:
{"messages": [{ "role": "system", "content": "You are an assistant that identifies uncommon cheeses." },{ "role": "user", "content": "What is this cheese?" },{ "role": "user", "content": [{"type": "image_url","image_url": {"url": "https://upload.wikimedia.org/wikipedia/commons/3/36/Danbo_Cheese.jpg"}}] },{ "role": "assistant", "content": "Danbo" }]
}
那么,这有什么用呢?
OpenAI 与Grab等领先科技公司合作,展示了视觉微调在现实应用中的强大功能。Grab 是一家主要的食品配送和网约车服务公司,使用此功能提升了其GrabMaps平台的性能。该平台依赖于从司机收集的街道级图像来支持东南亚的运营。
通过使用 100 个样例微调GPT-4o,Grab 提升了识别交通标志和车道分隔线的能力。
结果是车道计数准确性提高了 20%,速度限制标志定位精度提高了 13%,简化了其地图绘制流程,减少了人工干预的需求。
*注意:您的训练图像不得包含人物、面部、验证码或违反我们使用条款的图像。*包含这些图像的数据集将被自动拒绝。
关于定价问题,OpenAI 目前提供每天 100 万个训练 token 的免费额度,时间截止到 2024 年 10 月 31 日,以用于通过图像微调 GPT-4o。
2024 年 10 月 31 日之后,GPT-4o 微调训练的费用为每 100 万个 token 25 美元,推理费用为每 100 万个输入 token 3.75 美元,每 100 万个输出 token 15 美元。
图像输入首先根据图像大小进行 token 化,然后按照与文本输入相同的 token 费率定价。
谈谈安全问题
尽管这些新功能很酷,但它们确实带来了安全隐患,尤其是实时 API。
我们正接近一个假电话可能与真实电话难以区分的世界。想象一下,你接到了一个听起来完全像你的老板或家人的电话,结果却发现那是 AI 的冒充。
不难想象恶意分子如何滥用这项技术。
事实上,几天前,联邦通信委员会罚款一名政治顾问 600 万美元,原因是他今年早些时候使用 AI 模拟乔·拜登总统的声音进行自动电话。
为了避免滥用,OpenAI 的 API 不能直接拨打餐馆或商店的电话。然而,AI 没有公开声明自己不是人类,因此很难确定你是否在与 AI 对话。目前,似乎开发者有责任添加某种类型的声明。
OpenAI 尝试缓解这些风险。对于语音交互,OpenAI 使用了一种音频安全基础设施,已被证明在最小化潜在滥用方面非常有效,尤其是防止被用于欺骗性目的,如误导电话或声音操纵。
关于视觉微调,微调后的模型完全由用户控制,确保了商业数据的完全所有权。OpenAI 不会在未经明确许可的情况下使用任何用于微调的输入或输出来训练模型,确保数据保持私密和安全。
最终思考
今天宣布了很多内容,但让我印象最深刻的是实时 API。
本质上,这是 ChatGPT 高级语音模式的 API 版本,我预计在未来几周内会有数百款基于该语音 API 的应用程序出现。
据 OpenAI 称,目前已有超过 300 万开发者正在利用其技术构建新应用和功能。
这些新宣布的产品,尤其是实时语音 API,可能有助于扩大这一关键用户群体并增加 OpenAI 的收入。
目前尚不清楚这些 API 在现实应用中有多直观或多具成本效益。
我计划构建一些概念验证(PoC)应用程序来测试它们,并将在后续帖子中分享我的发现。在此之前,我很想听听你对今年 DevDay 的看法。
哪一项产品发布让你最兴奋?请在评论中告诉我!
相关文章:
2024年OpenAI DevDay发布实时 API、提示缓存等新功能
就在几天前,一些重要人物如前 CTO Mira Murati 离开了 OpenAI。因此,看到 Sam Altman 在 DevDay 上登台,讨论开发者的新产品,感觉有点奇怪。 随着公司内部的这些变化,你不禁会想:我们还应该信任他吗&#…...
Raspberry Pi3B+之安装bookworm+Rpanion系统
Raspberry Pi3B之安装bookwormRpanion系统 1. 源由2. 系统安装3. 系统安装3.1 烧录系统3.2 设备接线3.3 配置无线3.4 更新系统3.5 安装git3.6 克隆Rpanion3.7 安装Rpanion 4. 系统管理5. 附录问题1:error: externally-managed-environment问题2:bookworm…...
无人机专业除理论外,飞手执照、组装、调试实操技术详解
无人机专业的学习除了丰富的理论知识外,飞手执照的获取、无人机的组装与调试等实操技术也是至关重要的。以下是对这些方面的详细解析: 一、无人机飞手执照 1. 必要性 法规要求:根据《民用无人驾驶航空器系统驾驶员管理暂行规定》等相关法规…...
【网路通信基础与实践番外二】TCP协议的流量控制和拥塞控制以及二者区别和例题
TCP协议是端对端的协议,因此在数据进行传输的过程受发送方,数据通道,接收方三方状态的影响。我们用水龙头来比喻数据发送方,水管来比喻数据通道,水桶来表示数据接收方。 图(a)表示水桶太小,来不及接受注入…...
SpringBoot3+Vue3开发后台管理系统脚手架
后台管理系统脚手架 介绍 在快速迭代的软件开发世界里,时间就是生产力,效率决定成败。对于构建复杂而庞大的后台系统而言,一个高效、可定制的后台脚手架(Backend Scaffold)无疑是开发者的得力助手。 脚手架 后台脚…...
OpenFeign微服务部署
一.开启nacos 和redis 1.查看nacos和redis是否启动 docker ps2.查看是否安装nacos和redis docker ps -a3.启动nacos和redis docker start nacos docker start redis-6379 docker ps 二.使用SpringSession共享例子 这里的两个例子在我的一个博客有创建过程,…...
【C语言】数组(下)
【C语言】数组(下) 6、二维数组的创建6.1二维数组的概念6.2二维数组的创建 7、二维数组的初始化7.1不完全初始化7.2完全初始化7.3按照行初始化7.4初始化时可以省略行,但是不能省略列 8、二维数组的使用8.1 二维数组的下标8.2二维数组的输入和…...
cGANs with Projection Discriminator
基于映射鉴别器的CGAN 模型中,判别器(Discriminator)不是通过将条件信息简单地与特征向量拼接(concatenate)来使用条件信息,而是采用一种基于投影的方式,这种方式更加尊重条件信息在底层概率模…...
mysql学习教程,从入门到精通,SQL HAVING 子句(32)
1、SQL HAVING 子句 当然!HAVING 子句在 SQL 中用于对分组后的结果进行过滤。它通常与 GROUP BY 子句一起使用,以便对聚合函数(如 SUM(), COUNT(), AVG(), MAX(), MIN() 等)的结果进行条件筛选。 以下是一个示例,假设…...
JavaScript while循环语句
While语句包括一个循环条件和一段代码块,只要条件为真,就不断循环执行代码块。 while(条件){语句;} var i0;while(i<100){console.log(i);i1;} 注意:所有的for循环都可以改写为while循环...
49天精通Java(Day 2):Java的基本语法
上期内容回顾 在上一期的内容中,我们介绍了Java的基本概念、历史背景,并完成了JDK 1.8的安装与环境配置。你还编写并运行了第一个简单的Java程序“Hello, World!”。今天,我们将深入探讨Java的基本语法,包括变量、数据类型、运算…...
uni-app之旅-day01-home页
首页 3.0 创建 home 分支 🍕🍕🍕运行如下的命令,基于 master 分支在本地创建 home 子分支,用来开发和 home 首页相关的功能git branch(查看分支)git checkout -b home(创建home分支) 3.1 配置网络请求 ἲ…...
Vue3轻松实现导出Excel文件功能
文章目录 1.前言2.安装插件3.案例3.1 定义表格数据,设置 id 选择器3.2 据所选 dom 对象生成 sheetbook3.3 写入文件3.4 生成 xlsx文件4.完整代码1.前言 前端常用的导出 Excel的 js 库是 xlsx,但是 xlsx不能设置样式。要想设置样式,必要要结合 xlsx-style 插件一起使用,但是…...
在Kali Linux中使用VNC和iptables配置xrdp以实现远程连接
在Kali Linux中,使用VNC和iptables配置xrdp以实现远程连接涉及几个步骤。不过,值得注意的是,VNC和xrdp是两种不同的远程桌面协议,它们通常不会在同一配置中同时使用(除非有特殊的网络架构需求)。然而&#…...
小徐影院:Spring Boot技术下的影院革新
第四章 系统设计 4.1 系统的功能结构图 通过系统需求分析,本小徐影城管理系统的功能结构设计如图4-1所示: 图4-1 系统功能图 4.2 系统数据库设计 4.2.1 数据库E-R图 在该系统的信息中,由于数据库的支持,我们可以对数据库进行收集…...
命名空间
在 C 中,变量、函数和类都是大量存在的,这些变量、函数和类的名称将都存在于全局作用域中,可能会导致很多冲突,使用命名空间的目的是对标识符的名称进行本地化,以避免命名冲突或名字污染,namespace 关键字的…...
使用 Elastic 将 AI 摘要添加到你的网站
作者:来自 Elastic Gustavo Llermaly 我们目前所知道的搜索(搜索栏、结果、过滤器、页面等)已经取得了长足的进步,并实现了多种不同的功能。当我们知道找到所需内容所需的关键字或知道哪些文档包含我们想要的信息时,尤…...
dOOv:Java 数据验证与映射库(简化业务逻辑)
dOOv 是一个为 Java 开发人员设计的轻量化库,专注于数据验证和对象间的映射。与传统的验证框架不同,dOOv 通过提供简洁、声明式的 API,使得开发者可以轻松地编写、扩展和维护验证和映射规则。其设计灵感源自领域驱动设计(DDD&…...
Arthas sc(查看JVM已加载的类信息 )
文章目录 二、命令列表2.2 class/classloader相关命令2.2.5 sc(查看JVM已加载的类信息 )举例1:模糊搜索,xx包下所有的类举例2:打印类的详细信息举例3:打印出类的Field信息 本人其他相关文章链接 二、命令列…...
OCR 行驶证识别 离线识别
目录 正页识别 副页识别 全部识别 OCR 行驶证识别 离线识别 正页识别 副页识别 全部识别...
PHP泛目录生成源码,可生成长尾关键词页面,带使用方法视频教程
介绍: 真正的好东西,搞网站优化seo从业必备。可以快速提升网站权重,带来的流量哗哗的 PHP泛目录生成源码 可生成新闻页面和关键词页面 带使用方法视频教程 泛目录可以用来提升网站收录和排名 合理运用目录可以达到快速出词和出权重的效果…...
LeetCode题练习与总结:丑数--263
一、题目描述 丑数 就是只包含质因数 2、3 和 5 的正整数。 给你一个整数 n ,请你判断 n 是否为 丑数 。如果是,返回 true ;否则,返回 false 。 示例 1: 输入:n 6 输出:true 解释࿱…...
初识C语言(五)
前言 本文章就代表C语言介绍以及了解正式完成,后续进行具体分析和详细解析学习。知识根深蒂固才可以应付后来的学习,地基要打好,后续才会轻松。 十四、结构体 结构体是C语言中最最重要的知识点,使得C语言有能力描述复杂的类型。 …...
Linux:深入理解冯诺依曼结构与操作系统
目录 1. 冯诺依曼体系结构 1.1 结构分析 1.2 存储结构分布图 2. 操作系统 2.1 概念 2.2 如何管理 2.3 什么是系统调用和库函数 1. 冯诺依曼体系结构 1.1 结构分析 不管是何种计算机,如个人笔记本电脑,服务器,都是遵循冯诺依曼结构。…...
面试中顺序表常考的十大题目解析
在数据结构与算法的面试中,顺序表是一个常见的考点。它作为一种基础的数据结构,涵盖了多种操作和概念,以下将详细介绍面试中关于顺序表常考的十大题目。 💝💝💝如果你对顺序表的概念与理解还存在疑惑&#…...
测试管理新增视图与高级搜索功能,测试计划支持一键生成缺陷详情,MeterSphere开源持续测试工具v3.3版本发布
2024年9月29日,MeterSphere开源持续测试工具正式发布v3.3版本。 在这一版本中,接口测试方面,接口导入功能支持导入Postman、JMX、HAR和MeterSphere格式的文件,接口场景的自定义请求步骤支持cURL快捷导入;测试管理方面…...
TypeScript 算法手册 【归并排序】
文章目录 1. 归并排序简介1.1 归并排序定义1.2 归并排序特点 2. 归并排序步骤过程拆解2.1 分割数组2.2 递归排序2.3 合并有序数组 3. 归并排序的优化3.1 原地归并排序3.2 混合插入排序案例代码和动态图 4. 归并排序的优点5. 归并排序的缺点总结 【 已更新完 TypeScript 设计模式…...
生信名词|MOA|基因敲低与基因敲除|DMSO|MODZ|生信基础
生信名词|MOA|基因敲低与基因敲除|DMSO|MODZ|生信基础 MOA(Mechanisms Of Action,作用机理) 过去,在药物投入到临床使用之前,它的生物学机理往往未被研究透彻。如今,随着技术的发展,一种新药物…...
基础岛第3关:浦语提示词工程实践
模型部署 使用下面脚本测试模型 from huggingface_hub import login, snapshot_download import osos.environ[HF_ENDPOINT] https://hf-mirror.comlogin(token“your_access_token")models ["internlm/internlm2-chat-1_8b"]for model in models:try:snapsh…...
vscode中配置python虚拟环境
python虚拟环境作用 Python虚拟环境允许你为每个独立的项目创建一个隔离的环境,这样每个项目都可以拥有自己的一套Python安装包和依赖,不会互相影响。实际使用中,可以在vscode或pycharm中使用虚拟环境。 1.创建虚拟环境的方法: …...
布吉附近网站建设公司/百度搜索的优势
现在Photoshop的UI工具包是设计师们最喜爱的资源,收藏到一套好的组件包,常常是欣喜若狂呀。包包们已经成为web设计者迅速开发不可或缺的神兵利器,里面往往会放满了网站所需要的一切组件,譬如:导航、翻页、焦点图、滚动…...
光谷网站建设/营销型网站建设需要多少钱
【遥感图像目标检测】数据集DOTA: A Large-scale Dataset for Object Detection in Aerial Images 1. 论文:2. 摘要:3. 数据统计:4. 下载地址:关注我的公众号:1. 论文: 论文地址:https://arxiv.org/pdf/1711.10398.pdf 2. 摘要: 目标检测是计算机视觉中的一个重要而富…...
那个网站做视频没有水印/推广手段有哪些
相信大家在做链路均衡相关的项目中,往往会碰到用户有如下要求:对于内网服务器向外发布的域名,除了让公网用户来访问之外,内网用户也同样用域名方式来访问服务器。但是内网用户的访问往往会出问题,当公网用户用域名正常…...
html5手机版/宁波网站关键词优化代码
今天我们讨论一下常用的几种继承方法:首先我们创建一个动物函数Animal:function Animal () {this.species 动物}再写准备名叫猫咪的函数Cat: function Cat (name, color) { this.name name this.color color }最终目的是让Cat继承Animal的属性{spacies…...
网站更改模板 seo/网站seo视频教程
香蕉派M64开发板简介: 香蕉派 BPI-M64是一块4核64位单板电脑。 其拥有2gb的内存和8gb的emcc,而且板载wifi和蓝牙bt。接口方面拥有两个标准usb接口,一个otg接口,一个hdmi接口,一个耳麦复合接口和一个直流电源接口。 作为…...
都匀市建设局网站/网页代码
1 create global link2 使用全局模式安装的包不能直接通过require使用,但是nmp提供了一个 nmp link ,这个可以打破限制3 4 $ nmp link [express]5 ./node_modules/express->/usr/local/lib/node_modules/express //这样我们就可以把全局包当做本地包使…...