免费!GPT-4o发布,实时语音视频丝滑交互
We’re announcing GPT-4o, our new flagship model that can reason across audio, vision, and text in real time.
5月14日凌晨,OpenAI召开了春季发布会,发布会上公布了新一代旗舰型生成式人工智能大模型【GPT-4o】,并表示该模型对所有免费用户开放,意味着广大用户将能够通过ChatGPT平台直接体验到OpenAI的最新技术成果,享受前所未有的智能交互体验。
一、三项革新
历次OpenAI发布会都堪称AI界“春晚”,一经开启即刻引爆。本次发布会的主持人是OpenAI 首席技术官(CTO)Muri Murati ,其在一开始便表明今天的发布会共三件事:
- 让先进的AI工具能够免费提供给所有用户,以后OpenAI的产品将以免费为最优先
- 发布ChatGPT的桌面版本及更新的UI界面
- 推出旗舰级生成式人工智能大模型——GPT-4o
我们通常所了解的大模型更新命名都是以【X.X】的形式,然而本次OpenAI创新性的提出一个新的理念,GPT-4o,这个“o”在OpenAI的官网中给出了解答,“o”代表“omni”,在拉丁语中表示“全能的、全知的”,意味着本次GPT-4o是一次全方位的升级。
它能够接受文本、音频和图像的任意组合作为输入,并且能够生成文本、音频和图像的任意组合作为输出。GPT-4o对音频输入的响应速度极快,最短仅需232毫秒,平均响应时间为320毫秒,这与人类在对话中的自然反应时间相似。在英文文本和代码处理上,GPT-4o与GPT-4 Turbo的性能相当,同时在非英文文本处理上取得了显著进步。此外,GPT-4o在API调用速度上更快,成本也降低了50%。特别值得一提的是,GPT-4o在视觉和音频理解方面相比现有模型有显著提升。
Muri Murati的介绍中,GPT-4o 模型的发布是对现有技术的一次重大飞跃,首次将 GPT-4 级别的智能普及到所有用户,包括免费用户。
据其所说,目前全世界有超过一亿位用户使用ChatGPT来创造、工作和学习。然而到目前为止,仅有付费用户能够体验到这些先进的功能。但是升级后的4.0有足够的能力将这些功能提供给每一位用户。GPT-4o 的文本和图像功能今天开始免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。
除此之外,GPT-4o是一个多模态大模型,它代表了OpenAI在文本、视觉和音频领域端到端训练新模型的一次重大进展。这一创新意味着所有类型的输入和输出——无论是文本、音频还是图像——都由同一个先进的神经网络统一处理。GPT-4o能够接收任意组合的文本、音频和图像作为输入,并据此生成任意组合的文本、音频和图像作为输出,从而实现更加灵活和高效的交互体验。
二、现场演示
在发布会现场,OpenAI的工程师Mark Chen为我们演示了几个主要的能力。其中重点则是实时语音对话功能。
Mark Chen表示:“我正在进行现场演示,但我感到有点紧张。你能帮我稍微平静一下神经吗?”
ChatGPT说:“深呼吸,记住你是个专家”
好的,Mark Chen深呼吸
ChatGPT立马表示:“慢点!你不是个吸尘器”
在现场演示中可以看出,用户现在可以随时与模型互动,无需等待,且可通过按钮即时操作。模型提供实时反馈,避免了以往对话中的延迟。此外,它还能感知用户情绪,如在用户紧张时提醒冷静,并能以多样的情感风格生成声音,展现出宽广的动态表现力。
关于语音交流,OpenAI的官网还发布了1个5分钟的详细演示视频,感兴趣的可以自行前往观看那。
官网链接:Hello GPT-4o | OpenAI
此外,另一位工程师Barrett Zoph现场为我们演示了GPT-4o的视觉功能,使用者可以用视频与其进行互动。
Barrett和GPT打了个招呼后说:“需要你帮忙解决一道数学题,我在纸上写一个方程”
GPT回答:“当然可以”
Barrett:“我希望你能帮助我度过难关。但重要的是,不要告诉我解决方案,只需在途中帮助给我提示”
【此时,Barrett打开了与GPT的视频,同时书写题目】
Barrett:“我写的是什么方程?”
GPT马上做出回应:“好的,我看到你写下了3x+1=4”
Barrett:“那么第一步应该采取什么步骤来尝试解决问题?”
GPT:"第一步是获取一边是X,另一边是常量的所有项。那你认为我们应该怎么做?加1?“
在GPT的指导中,Barrett一步步写下了该题目的解题步骤。
接下来尝试 GPT-4o 的代码能力。这有一些代码,打开电脑里桌面版的 ChatGPT 用语音和它交互,让它解释一下代码是用来做什么的,某个函数是在做什么,ChatGPT 都对答如流。
输出代码的结果,是一个温度曲线图,让 ChatGPT 以一句话的方式回应所有有关此图的问题。
"此代码获取特定位置和时间段的每日天气数据,使用滚动平均值平滑温度数据,在生成的图表上注释重要的天气事件,然后显示全年平均、最低和最高温度的图表。"
甚至在发布会的最后,Muri Murati选取了现场观众给出的演示建议,为大家演示实时翻译功能以及根据照片来判断情绪等等。
Barrett:“我要给你看一张我的自拍照,然后我想让你试着看看我根据自己的外表感受到了什么情绪”
【Barrett打开视频功能,将自己的表情给GPT看】
GPT:“看起来你感到非常开心和愉快,带着灿烂的微笑,甚至可能有点兴奋“
三、GPT-4o模型评估
相比于以往ChatGPT新版本发布后给出的研究论文和技术报告,本次OpenAI并未放出任何研究报告,而是转为在官网中放出了本次的升级以及模型评估对比。按照传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。
- 文本评估
GPT-4o在0-shot COT MMLU测试中以88.7%的准确率刷新了常识性问题解答的新高。这些评估结果都是利用我们新开发的简易评估库获得的。同时,在传统的5次训练(5-shot)无COT的MMLU测试中,GPT-4o也以87.2%的准确率创下了新记录。
- 音频翻译性能
在音频翻译性能上,GPT-4o 在语音翻译方面创下了新的领先地位,并在 MLS 基准测试中优于 Whisper-v3。同时也超越了另一位竞争对手谷歌旗下的Gemini。
- 视觉理解评估
在视觉理解上,也实现对Gemini 1.0 Ultra与对家Claude Opus的超越
四 、说在最后
毫无疑问本次OpenAI给出的信息量无疑是爆炸式的,无论是GPT-4o所展现出的全新的可能性,还是OpenAI决定对免费用户开放更多的功能,其带给大众的震撼都是真实可见的。
就像OpenAI首席执行在发布会前所发布的信息一样,电影《她》成为了一种“纪录片”,我们对AI的想象正在逐渐成为现实。
各位感兴趣的小伙伴们,现在打开ChatGPT已经可以登录使用GPT-4o,大家可以自行前往体验。
当然,最后我们也可以再期待一手北京时间5月15日凌晨,谷歌将召开I/O大会。届时是否会带来全新的变革,我们也可以拭目以待。
参考资料:
- https://OpenAI.com/index/hello-GPT-4o/
- https://www.youtube.com/watch?v=DQacCB9tDaw&t=3s
相关文章:
免费!GPT-4o发布,实时语音视频丝滑交互
We’re announcing GPT-4o, our new flagship model that can reason across audio, vision, and text in real time. 5月14日凌晨,OpenAI召开了春季发布会,发布会上公布了新一代旗舰型生成式人工智能大模型【GPT-4o】,并表示该模型对所有免费…...
DevOps的原理及应用详解(四)
本系列文章简介: 在当今快速变化的商业环境中,企业对于软件交付的速度、质量和安全性要求日益提高。传统的软件开发和运维模式已经难以满足这些需求,因此,DevOps(Development和Operations的组合)应运而生,成为了解决这些问题的有效方法。 DevOps是一种强调软件开发人员(…...
关于选择,关于处事
一个人选择应该选择的是勇敢,选择不应该选择的是无奈。放弃,不该放弃的是懦夫,不放弃应该放弃的是睿智。所以,碰到事的时候要先静,先不管什么事,先静下来,先淡定,先从容。在生活里要…...
大话设计模式解读02-策略模式
本篇文章,来解读《大话设计模式》的第2章——策略模式。并通过Qt和C代码实现实例代码的功能。 1 策略模式 策略模式作为一种软件设计模式,指对象有某个行为,但是在不同的场景中,该行为有不同的实现算法。 策略模式的特点&#…...
展会邀请 | 龙智即将亮相2024上海国际嵌入式展,带来安全合规、单一可信数据源、可追溯、高效协同的嵌入式开发解决方案
2024年6月12日至14日,备受全球嵌入式系统产业和社群瞩目的2024上海国际嵌入式展(embedded world china 2024)即将盛大开幕,龙智将携行业领先的嵌入式开发解决方案亮相 640展位 。 此次参展,龙智将全面展示专为嵌入式行…...
codeforce round951 div2
A guess the maximum 问题: 翻译一下就是求所有相邻元素中max - 1的最小值 代码: #include <iostream> #include <algorithm>using namespace std;const int N 5e4;int a[N]; int n;void solve() {cin >> n;int ans 0x3f3f3f3f;…...
arcgis开发记录
目录 文章目录 [toc]**arcgis JavaScript API安装**1. arcgisAPI下载地址:https://developers.arcgis.com/downloads/2. 4.4版本API:本地配置3. 3.18版本修改方法 **angular2中加载arcgis JS API**** arcgis加载图层 并显示图层上点的信息****使用图层上…...
RPA-UiBot6.0数据整理机器人—杂乱数据秒变报表
前言 友友们是否常常因为杂乱的数据而烦恼?数据分类、排序、筛选这些繁琐的任务是否占据了友友们的大部分时间?这篇博客将为友友们带来一个新的解决方案,让我们共同学习如何运用RPA数据整理机器人,实现杂乱数据的快速整理,为你的工作减负增效! 在这里,友友们将了…...
Application UI
本节包含关于如何用DevExpress控件模拟许多流行的应用程序ui的教程。 Windows 11 UI Windows 11和最新一代微软Office产品启发的UI。 Office Inspired UI Word、Excel、PowerPoint和Visio等微软Office应用程序启发的UI。 如何:手动构建Office风格的UI 本教程演示…...
关于 Redis 中集群
哨兵机制中总结到,它并不能解决存储容量不够的问题,但是集群能。 广义的集群:只要有多个机器,构成了分布式系统,都可以称之为一个“集群”,例如主从结构中的哨兵模式。 狭义的集群:redis 提供的…...
C++必修:探索C++的内存管理
✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:C学习 贝蒂的主页:Betty’s blog 1. C/C的内存分布 我们首先来看一段代码及其相关问题 int globalVar 1; static…...
python列表---基本语法(浅拷贝,深拷贝等)
文章目录 引言:列表的注意事项1 list中的浅拷贝与深拷贝1.1浅拷贝(Shallow Copy)浅拷贝的方法浅拷贝的效果1.2深拷贝(Deep Copy)深拷贝的方法深拷贝的效果1.3 总结:浅拷贝 vs 深拷贝1.4 为什么浅拷贝顶层元素如果是不可变数据就不能共享,不是传的是引用就相当于传的是地…...
go语言接口之sort.Interface接口
排序操作和字符串格式化一样是很多程序经常使用的操作。尽管一个最短的快排程序只要15 行就可以搞定,但是一个健壮的实现需要更多的代码,并且我们不希望每次我们需要的时候 都重写或者拷贝这些代码。 幸运的是,sort包内置的提供了根据一些排序…...
android:text 总为大写字母的原因
当设置某个 Button 的 text 为英文时,界面上显示的是该英文的大写形式(uppercase)。例如: <Buttonandroid:id"id/btn"android:layout_width"wrap_content"android:layout_height"wrap_content"…...
CISCN2024 初赛 wp 部分复现(Re)
Misc 1. 火锅链观光打卡 答题即可 Re 1. asm_re 感谢智谱清言,可以读出大致加密算法 这是输入 这是加密部分 这里判断 找到疑似密文的部分,手动改一下端序 #asm_wp def dec(char):return (((char - 0x1E) ^ 0x4D) - 0x14) // 0x50 #return (ord(cha…...
YOLOv10、YOLOv9 和 YOLOv8 在实际视频中的对比
引言 目标检测技术是计算机视觉领域的核心任务之一,YOLO(You Only Look Once)系列模型凭借其高效的检测速度和准确率成为了业界的宠儿。本文将详细对比YOLOv10、YOLOv9和YOLOv8在实际视频中的表现,探讨它们在性能、速度和实际应用…...
热题系列章节5
169. 多数元素 给定一个大小为 n 的数组,找到其中的多数元素。多数元素是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的,并且给定的数组总是存在多数元素。 示例 1: 输入: [3,2,3] 输出: 3 示例 2: 输入: [2,2,1,1,1,2,2] 输出:…...
ArcGIS for js 4.x 加载图层
二维: 1、创建vue项目 npm create vitelatest 2、安装ArcGIS JS API依赖包 npm install arcgis/core 3、引入ArcGIS API for JavaScript模块 <script setup> import "arcgis/core/assets/esri/themes/light/main.css"; import Map from arcgis…...
Three.js和Babylon.js,webGL中的对比效果分析!
hello,今天分享一些three.js和babylon.js常识,为大家选择three.js还是babylon.js做个分析,欢迎点赞评论转发。 一、Babylon.js是什么 Babylon.js是一个基于WebGL技术的开源3D游戏引擎和渲染引擎。它提供了一套简单易用的API,使开发…...
flask实现抽奖程序(一)
后端代码E:\LearningProject\lottery\app.py from flask import Flask, render_template import randomapp Flask(__name__)employees [赵一, 钱二, 孙三, 李四, 周五, 吴六, 郑七, 王八]app.route(/) def hello_world():return render_template(index.html, employeesemplo…...
Python中数据库连接的管理
在现代应用程序中,数据库是一个至关重要的组件。无论是小型应用还是大型分布式系统,良好的数据库连接管理都是确保系统高效、可靠运行的关键。本文将详细介绍在Python中管理数据库连接的最佳实践和技术,包括连接池、ORM(对象关系映…...
【JAVA技术】mybatis 数据库敏感字段加解密方案
引言:自从有公司项目前2年做了三级等保,每年一度例行公事,昨天继续配合做等保测试。这2天比较忙,这里整理之前写的一篇等保技术文章。 正文: 现在公司项目基本用mybatis实现,但由于项目跨度年份比较久&…...
Collections工具类及其案例
package exercise;public class Demo1 {public static void main(String[] args) {//可变参数//方法形参的个数是可以发生变化的//格式:属性类型...名字//int...argsint sum getSum(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);System.out.println(sum);}//底层:可…...
Duck Bro的第512天创作纪念日
Tips:发布的文章将会展示至 里程碑专区 ,也可以在 专区 内查看其他创作者的纪念日文章 我的创作纪念日第512天 文章目录 我的创作纪念日第512天一、与CSDN平台的相遇1. 为什么在CSDN这个平台进行创作?2. 创作这些文章是为了赚钱吗?…...
【机器学习】GPT-4中的机器学习如何塑造人类与AI的新对话
🚀时空传送门 🔍引言📕GPT-4概述🌹机器学习在GPT-4中的应用🚆文本生成与摘要🎈文献综述与知识图谱构建🚲情感分析与文本分类🚀搜索引擎优化💴智能客服与虚拟助手…...
晨控CK-UR12-E01与欧姆龙NX/NJ系列EtherNet/IP通讯手册
晨控CK-UR12-E01与欧姆龙NX/NJ系列EtherNet/IP通讯手册 晨控CK-UR12-E01 是天线一体式超高频读写器头,工作频率默认为902MHz~928MHz,符合EPC Global Class l Gen 2/IS0-18000-6C 标准,最大输出功率 33dBm。读卡器同时…...
模板显式、隐式实例化和(偏)特化、具体化的详细分析
最近看了<The C Programing Language>看到了模板的特化,突然想起来<C Primer>上说的显式具体化、隐式具体化、特化、偏特化、具体化等概念弄得头晕脑胀,我在网上了找了好多帖子,才把概念给理清楚。 看着这么多叫法,其…...
软件设计师笔记-计算机系统基础知识
CPU的功能 CPU(中央处理器)是计算机的核心部件,负责执行计算机的指令和处理数据。它的功能主要可以分为程序控制、操作控制、时间控制和数据处理四个方面: 程序控制:CPU的首要任务是执行存储在内存中的程序。程序控制功能确保CPU能够按照程序的指令序列,一条一条地执行。…...
flink 作业动态维护更新,不重启flink,不提交作业
Flink任务实时获取并更新规则_flink任务流实时变更-CSDN博客 一种动态更新flink任务配置的方法_flink 数据源 动态更新-CSDN博客 Flink CEP在实时风控场景的落地与优化 最佳实践 - 在SQL任务中使用Flink CEP - 《实时计算用户手册-v4.5.0》 Flink SQL CEP详解-CSDN博客 如…...
为何数据仓库需要“分层次”?
在数据驱动的商业世界中,数据仓库是企业决策的心脏。然而,一个高效、可扩展且易于管理的数据仓库,需要精心设计和构建。分层是构建数据仓库的关键策略之一。本文将探讨数据仓库分层的重要性以及它如何帮助企业更好地管理数据。 数据仓库分层…...
江苏网站建设机构/seo专业培训机构
ちゅうごく じん中国人にほん じん日本人かんごく じん韓国人アメリカ人 フランス人 仏蘭西がく せい 学生せん せい 先生りゅう がくせい 留学生きょう じゅ 教授しゃ いん 社員かい しゃいん 会社員てん いん 店員けん しゅうせい 研修生き ぎょう 企業だい がく 大学ちち 父…...
太原网站建设口碑推荐/嘉兴网络推广
1.更改java文件大小设置Window->preferences->General->Appearance->Colors and Fonts->Java->Java Editor Text Font->右边按钮Change 英文版默认的是Courier New 常规 102.更改jsp文件大小设置(此设置也同事更改其他类型文件的字体大小&…...
网站做不下去/营销策略都有哪些
工作流概述 在一个公司中,每一项业务的开始和结束,都可以理解为一个工作流,例如,公司的费用报销的基本流程如下: 如图所示的工作流:员工先提出费用报销申请,提交该申请给部门领导,部…...
蜂蜜网站建设/googleseo推广
win10控制台打不开提示管理员已阻止mmc.exe怎么办?最近有win10用户在打开控制台的时候发现打不开了,提示管理员已阻止mmc.exe。这是怎么回事呢?我们该如何解决控制台打不开提示管理员已阻止mmc.exe的问题呢?首先我们先了解一下mmc…...
网站建设与运营公司的市场开发方案/24小时自助下单平台网站便宜
关于组织架构图,效果图如下: 之前我是用jq写过一个组织架构图,文章链接如下:当时是用的jOrgChart jq版本的组织架构图:https://blog.csdn.net/yehaocheng520/article/details/117379214?ops_request_misc%257B%25…...
制作企业网站公司排名/自媒体营销
1.模糊查询前导不会走索引 select id,user_name,price_code from user_activity_info where user_name like %zhang; 如果非要使用前导索引的话可以借助Apache的Lucence索引工具 2.字段默认值不要设置成null 如果可以请设置为 not null 3.不要在SQL中对字段进行计算&#…...