当前位置: 首页 > news >正文

你好GPT-4o——对GPT-4o发布的思考与看法

你好GPT-4o

前言

在这里插入图片描述

2024年5月13日,OpenAI官网发布了他们的新一代自然语言处理交互系统——GPT-4o。这是OpenAI继GPT4之后又一个新的旗舰模型。

GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这类似于人工响应时间(在新窗口中打开)在对话中。它在英语文本和代码上的能力同 GPT-4 Turbo 性能相匹配,在非英语语言的文本上也有显着改进,同时在 API 中也更快且便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

不能否认的一点是,它与GPT-4的差距并没有像GPT-3.5和GPT-4那样之大,你可以将它看成GPT-4的Ultra版本或者是Pro版本。但基于GPT-4强大的语言处理能力和内容输出的高质量,并在此基础上进行了一次再进化,它变得更快、更强、甚至是免费面向用户的——我认为这是它最大的特点之一。

在这里插入图片描述

免费带来的结果:这使更多用户能够更好地体验GPT的功能,并且是使用最新的旗舰版;可能会造成对人工智能的过度的依赖——我们并不知道这是好是坏;带动其他AI公司的内卷上升——这有利于用户,也有利于市场竞争——这是一个好的现象,这说明人工智能服务正在朝着大众的方向前进,也使其变得更加平常化和低成本化,从而能推动诸多事物的发展。

那么这次的人工智能的更新,从技术层面,又为我们带来怎样的惊喜呢?

技术层面的Update

1.音频、视觉和文本

我们阅读官方的文档可以发现,这次的GPT-4o版本反复强调其在音频、视觉和文本上的重要提升。而在我们使用之后也不得不承认这是事实。

OpenAI GPT-4o guessing May 13th’s announcement on Vimeo
上述这段视频是来自OpenAI官网,展示了GPT-4o在视觉和音频理解方面出色的能力。

在这里插入图片描述
在这里插入图片描述

而这主要体现在以下几个点:

  • 更深层次的理解:GPT-4o在处理复杂句子结构和抽象概念方面表现得更加出色,能够更准确地理解上下文并生成连贯的回应。
  • 更丰富的词汇量:它具有更广泛的词汇库,能够更好地处理多种语言和不同领域的专业术语。
  • 更丝滑的回答和应对能力:针对提问者发出的问题,它能够更加人性化地给出答案,并且在给出答案地基础上展现更多符合语境和对话方的语气词以及态度。

同时,有以下几个有趣的点:我们随时说话随时打断GPT,并且它能够理解我们的语气和态度;响应速度极快,无需等待尴尬的2—3秒;可以模仿不同风格的语气——dramatic、robotic、terrible;可以识别符号——人类创作的具有象征意义的符号…诸如此类,还有很多我们意想不到的特征值得我们去探索。

2. 知识库扩展

  • 更新的知识基础:GPT-4o基于更新的数据进行训练,因此能够提供更为最新的知识和信息。相较于前代具有更广阔的知识库和更新的数据。
  • 更强的推理能力:在回答需要逻辑推理和复杂推断的问题时表现更好,能够给出更合理和有依据的答案。

3. 多模态处理能力的进一步加强

这个特点是基于音视频、文本处理综合而成的。它能够带来综合性的能力展现,给用户更好的融合性能体验。

  • 图像理解:GPT-4o处理和生成与图像相关的文本,进行图像描述、分析和生成相应的文字解释的能力进一步加强,更加准确。
  • 跨模态融合:具备在文本与其他形式数据(如图像、声音等)之间进行更有效的融合和转换的能力。

4. 对话管理和互动

  • 上下文保持:GPT-4在长对话中保持上下文一致性的能力更强,能够更好地理解和记住之前的对话内容。
  • 情感和语气控制:能够根据用户的情感和对话语境调整回应的语气,更加自然和人性化。

5. 编程与技术问答

  • 代码生成和理解:在编程帮助和技术问题解答方面,GPT-4o表现得更为出色,能够生成更高质量的代码并解释复杂的技术概念。
  • 多语言支持:支持更多的编程语言,并能够处理复杂的编程任务和跨语言的技术问题。
  • 用户体验上升:用户在编写代码的过程中对于GPT的使用更加顺滑和便捷。

6. 创造性任务

  • 创意写作:在写作小说、剧本、诗歌等创造性任务方面,GPT-4o展现了更强的创造力和连贯性。
  • 内容生成:能够生成更有创意和原创性的内容,满足用户多样化的内容需求。

7. 用户体验

  • 响应速度:处理和生成文本的速度更快,提升了用户的整体体验。
  • 提供了更好的UI:通过更直观和用户友好的界面,增强用户的互动体验。
  • API的开放

8.人工智能之间的互相对话

这次官网的展示视频中,有一个视频很有趣,那就是两个GPT-4o之间的对话。

在这里插入图片描述

第一个点:互动

第二个点:唱歌

这倒也是实现了机机交互。

GPT-4 Turbo 与 GPT-4o

GPT-4o 具有相同的高智商,但比 GPT-4 Turbo 更快、更便宜,并且具有更高的速率限制。具体说来:

  • 定价:GPT-4o 比 GPT-4 Turbo 便宜 50%,输入 5 美元/月,输出代币 15 美元/M)。
  • 速率限制:GPT-4o 的速率限制是 GPT-4 Turbo 的 5 倍——每分钟最多 1000 万个代币。
  • 速度:GPT-4o 的速度是 GPT-2 Turbo 的 4 倍。
  • 视觉:GPT-4o 的视觉能力在与视觉能力相关的评估中表现优于 GPT-4 Turbo。
  • 多语言:GPT-4o 改进了对非英语语言的支持,而不是 GPT-4 Turbo。

GPT-4o 目前的上下文窗口为 128k,知识截止日期为 2023 年 10 月。

思考与找出其不足

在这里插入图片描述

当我们聊完了它的优点之后,特别是对比它的前辈GPT-4之后,我们不得不想去找出它的缺点、或者是不足来证明它为啥免费提供、为啥在套餐中的限用额度还是比GPT-4高——也就是说相较于4它更便宜。

首先从模型的名字上来看,GPT-4和4o仅仅只差了一个字母o,而3和4却是直接差了一代。为什么不将其直接命名为5呢?可以猜测,OpenAI这次发布的新产品,实际上也是在为他们的下一代旗舰模型——GPT-5做准备,这次的4o只是预热,就如当年GPT-3.5的免费紧随着GPT-4的发布。很有可能在接下来的一年(保守)之内,OpenAI将会释放出他们的全新模型,并且是一次新的提升,在某个我们难以预料又或许常用的方面具有巨大的提升,所以我们拭目以待。

在这里插入图片描述

另外,其实相较于GPT-4o,4的训练模型已经足够成熟,并且能够胜任大部分工作,所以它依旧是作为工作辅助的首选。从人们的接受度来看也会选择更加老练的版本,这样更为靠谱,那么公司为了盈利,当然就会将他们更熟练的模型定价更高,从而获得更多利润,这是从公司盈利的角度。

那么从这次的更新上来看,确实也有些不足的地方:

例如在与其对话的过程中,打断说话时的处理方式较为生硬,我们可能还是需要按下暂停键才能打断GPT,我认为真正的语言交互或许是无差别对话:也就是不需要任何按键或者提示,你可以随时开启对话,随时打断对话,随时结束对话,甚至加上情境,何时结束对话较为合适,我们应该说些什么让气氛不那么尴尬等等。

奥特曼回应称,OpenAI会继续改进并提升语音功能的质量:“我相信,语音交互是通向未来交互方式的一个重要线索。如果能够实现真正优质的语音互动体验,将会是一种与计算机互动的全新方式。”“我相信,语音交互是通向未来交互方式的一个重要线索。如果能够实现真正优质的语音互动体验,将会是一种与计算机互动的全新方式。”

另外其他例如语音生成的速度依旧不够快、语气处理有待加强、在较为复杂的问题上还是会有疏漏等等,实际上这些也算是老问题了——但这也算挑刺,毕竟这次的更新还是有着极大的飞跃的。

你好GPT,未来会怎样?

在这里插入图片描述

当我不带任何提示词问GPT时,给出的答案是有条有理——条条框框的。
而当我使用语音对话(基于3.5的模型)问它这个问题时,我发现与这次发布的4o确实有较大差距。无论是从回答上还是从语音的处理上。

或许人工智能的发展总是充满奇迹和想象力,而当我们沉溺于技术的发展时,总不能忘记我们时刻要保持清醒,理性看待——尽管这是这两年来老生常谈的问题,但我们依旧不可忽视。

未来会是如何?无人知晓,让我们期待GPT-5、6、7的到来,并且对此再去享受、去适应、去思考。

相关文章:

你好GPT-4o——对GPT-4o发布的思考与看法

你好GPT-4o 前言 2024年5月13日,OpenAI官网发布了他们的新一代自然语言处理交互系统——GPT-4o。这是OpenAI继GPT4之后又一个新的旗舰模型。 GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频、图像和视频的任意…...

QT 信号和槽 多对一关联示例,多个信号,一个槽函数响应,多个信号源如何绑定一个槽函数

三个顾客 Anderson、Bruce、Castiel 都要订饭,分别对应三个按钮,点击一个按钮,就会弹出给该顾客送饭的消息。注意这个例子只使用一个槽函数,而三个顾客名称是不一样的,弹窗时显示的消息不一样,这需要一些 技…...

宝塔nginx配置

将跟php有关的注释掉: 添加: #解决vue刷新404问题try_files $uri $uri/ /index.html; location /prod-api/ {proxy_set_header Host $http_host;proxy_set_header X-Real-IP $remote_addr;proxy_set_header REMOTE-HOST $remote_addr;proxy_set_header…...

容器化实践:DevOps环境下的容器交付流程

DevOps的兴起是为了应对市场和消费者对技术应用的不断增长的需求。它的目标是构建一个更快的开发环境,同时保持软件的高质量标准。DevOps还致力于在敏捷开发周期中提升软件的整体品质。这一目标的实现依赖于多种技术、平台和工具的综合运用。 结合容器化技术与DevO…...

Linux---sudo命令

文章目录 目录 文章目录 一.sudo命令简介 二.sudo 命令的特点 三.sudo 相关文件 四.sudo 命令授权配置 一.sudo命令简介 sudo 命令全称“SuperUser Do”,是Linux系统中的一个命令能够使普通用户以超级用户身份去执行某些命令。 二.sudo 命令的特点 sudo能够授权…...

前后端分离与实现 ajax 异步请求 和动态网页局部生成

前端 <!DOCTYPE html><!-- 来源 --> <!-- https://cloud.tencent.com/developer/article/1705089 --> <!-- https://geek-docs.com/ajax/ajax-questions/19_ajax_javascript_send_json_object_with_ajax.html --> <!-- 配合java后端可以监听 --&…...

Windows系统下CUDA、cuDNN与PyTorch的更新与安装全攻略

Windows系统下CUDA、cuDNN与PyTorch的更新与安装全攻略 文章目录 Windows系统下CUDA、cuDNN与PyTorch的更新与安装全攻略一、引言二、CUDA、cuDNN与PyTorch-GPU介绍三、安装准备1. 查看支持的CUDA版本2. 查看已安装的CUDA版本3. 查看支持的PyTorch版本 四、卸载旧版CUDA五、下载…...

Android Dialog使用汇总

Dialog分类 AlertDialog Dialog 类是对话框的基类&#xff0c;官方建议我们不要直接实例化它&#xff0c;而是使用其子类来获取实例。AlertDialog是系统提供的一个直接子类&#xff0c;它能帮助我们快速构建出不同类型的弹窗。接下来就看下各种类型弹窗的使用。 1、普通对话框…...

[数据集][目标检测]足球场足球运动员身份识别足球裁判员数据集VOC+YOLO格式312张4类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;312 标注数量(xml文件个数)&#xff1a;312 标注数量(txt文件个数)&#xff1a;312 标注类别…...

学习分享-声明式的 HTTP 客户端OpenFeign

OpenFeign 详细介绍 最近在学习中有用到OpenFeign&#xff0c;也在网上查找了相关资料&#xff0c;做下分享。 一、概述 OpenFeign 是一个声明式的 HTTP 客户端&#xff0c;它使得调用 REST API 变得更加简单和直观。通过 OpenFeign&#xff0c;开发者只需定义接口并添加注解…...

python Tk 获取输入框内容,分割内容

创建输入框、一个按钮和一个标签的GUI。 用户可以在输入框中输入文本&#xff0c;点击按钮后&#xff0c;程序将在控制台打印输入的文本&#xff08;已经分割为列表&#xff09;&#xff0c;并在GUI中的标签上显示一些静态文本。 import tkinter as tk# 创建主窗口 root tk.…...

第十二章:净世山的终极考验

虽然击败了黑袍人&#xff0c;但四人并未有丝毫的松懈。他们深知&#xff0c;净世山的考验远不止如此。果然&#xff0c;随着黑袍人的倒下&#xff0c;整个山顶开始剧烈震动&#xff0c;仿佛有什么东西即将苏醒。“小心&#xff0c;这山顶似乎有变&#xff01;”赵无极大声提醒…...

linux常用命令及其选项

1、常用命令 1.1、ls 选项说明-a显示所有文件及目录 (包括隐藏文件)-i显示inode-A同 -a选项 &#xff0c;但不列出 "." (目前目录) 及 ".." (父目录)-l列出信息详细(如文件型态、权限、拥有者、文件大小等)-R递归显示(若目录下有文件&#xff0c;则以下之…...

虚拟存储器概述

目录 常规存储器管理方式的特征和局部性原理 缺点 局部性原理 局部性原理的应用 1. 提高内存利用率 2. 实现按需装入 3. 支持内存共享 4. 提高系统稳定性 虚拟存储器的定义与特征 虚拟存储器的特征 虚拟存储器的实现机制 虚拟存储器的工作过程 虚拟存储器的优点 虚…...

C++对象池设计与实现

目录 一、对象池简介 1.1 池化技术 1.2 什么是对象池 1.3 对象池分配策略 二、C new和delete运算符重载 三、实现一个对象池框架 3.1 策略接口 四、实现几种对象池的分配策略 4.1 数组策略 4.2 堆策略 ​编辑 4.3 栈策略 4.4 区块策略 一、对象池简介 1.1 池化技…...

电商系统中热库和冷库的使用与数据转换

在现代电子商务系统中&#xff0c;数据的高效管理和存储是关键。电商平台每日处理海量数据&#xff0c;这些数据不仅包括用户行为、交易记录&#xff0c;还涵盖库存信息、商品详情、物流信息等。为了优化数据存储和查询效率&#xff0c;电商系统通常采用热库&#xff08;Hot St…...

【LeetCode:312. 戳气球+ 动态规划】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…...

拉格朗日乘子将不等式约束转化为等式约束例子

拉格朗日乘子将不等式约束转化为等式约束例子 在优化问题中,常常需要将不等式约束转化为等式约束。使用拉格朗日乘子法,可以通过引入松弛变量将不等式约束转换为等式约束,然后构造拉格朗日函数进行求解。 拉格朗日乘子法简介 拉格朗日乘子法是求解带约束优化问题的一种方…...

有效的括号(oj题)

一、题目链接 https://leetcode.cn/problems/valid-parentheses/submissions/538110206 二、题目思路 利用栈的性质&#xff0c;后进先出 1.依次读取字符串&#xff0c;判断是否为左括号&#xff0c;如果是&#xff0c;就将其入栈。 2.如果读取的不是左括号&#xff0c;就说…...

快团团供货大团长如何查看帮卖团长的订单?

一、功能说明 可以看到团购中每个帮卖团长帮卖产生的订单 二、具体设置方法 1、小程序端如何操作&#xff1f; 在团购页面中&#xff0c;点击订单管理&#xff0c;在这里可以选择全部团长订单&#xff0c;我的团订单&#xff0c;和帮卖团长的帮卖订单。 2、PC端如何操作&am…...

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子&#xff0c;用于处理异步操作&#xff08;如数据加载&#xff09;中的错误。下面我将详细解释其用途并提供代码示例。 一、useAsyncError 用途 处理异步错误&#xff1a;捕获在 loader 或 action 中发生的异步错误替…...

基于FPGA的PID算法学习———实现PID比例控制算法

基于FPGA的PID算法学习 前言一、PID算法分析二、PID仿真分析1. PID代码2.PI代码3.P代码4.顶层5.测试文件6.仿真波形 总结 前言 学习内容&#xff1a;参考网站&#xff1a; PID算法控制 PID即&#xff1a;Proportional&#xff08;比例&#xff09;、Integral&#xff08;积分&…...

质量体系的重要

质量体系是为确保产品、服务或过程质量满足规定要求&#xff0c;由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面&#xff1a; &#x1f3db;️ 一、组织架构与职责 质量体系明确组织内各部门、岗位的职责与权限&#xff0c;形成层级清晰的管理网络&#xf…...

第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明

AI 领域的快速发展正在催生一个新时代&#xff0c;智能代理&#xff08;agents&#xff09;不再是孤立的个体&#xff0c;而是能够像一个数字团队一样协作。然而&#xff0c;当前 AI 生态系统的碎片化阻碍了这一愿景的实现&#xff0c;导致了“AI 巴别塔问题”——不同代理之间…...

让AI看见世界:MCP协议与服务器的工作原理

让AI看见世界&#xff1a;MCP协议与服务器的工作原理 MCP&#xff08;Model Context Protocol&#xff09;是一种创新的通信协议&#xff0c;旨在让大型语言模型能够安全、高效地与外部资源进行交互。在AI技术快速发展的今天&#xff0c;MCP正成为连接AI与现实世界的重要桥梁。…...

Android 之 kotlin 语言学习笔记三(Kotlin-Java 互操作)

参考官方文档&#xff1a;https://developer.android.google.cn/kotlin/interop?hlzh-cn 一、Java&#xff08;供 Kotlin 使用&#xff09; 1、不得使用硬关键字 不要使用 Kotlin 的任何硬关键字作为方法的名称 或字段。允许使用 Kotlin 的软关键字、修饰符关键字和特殊标识…...

RNN避坑指南:从数学推导到LSTM/GRU工业级部署实战流程

本文较长&#xff0c;建议点赞收藏&#xff0c;以免遗失。更多AI大模型应用开发学习视频及资料&#xff0c;尽在聚客AI学院。 本文全面剖析RNN核心原理&#xff0c;深入讲解梯度消失/爆炸问题&#xff0c;并通过LSTM/GRU结构实现解决方案&#xff0c;提供时间序列预测和文本生成…...

C++课设:简易日历程序(支持传统节假日 + 二十四节气 + 个人纪念日管理)

名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏介绍:《编程项目实战》 目录 一、为什么要开发一个日历程序?1. 深入理解时间算法2. 练习面向对象设计3. 学习数据结构应用二、核心算法深度解析…...

TSN交换机正在重构工业网络,PROFINET和EtherCAT会被取代吗?

在工业自动化持续演进的今天&#xff0c;通信网络的角色正变得愈发关键。 2025年6月6日&#xff0c;为期三天的华南国际工业博览会在深圳国际会展中心&#xff08;宝安&#xff09;圆满落幕。作为国内工业通信领域的技术型企业&#xff0c;光路科技&#xff08;Fiberroad&…...

华为OD机试-最短木板长度-二分法(A卷,100分)

此题是一个最大化最小值的典型例题&#xff0c; 因为搜索范围是有界的&#xff0c;上界最大木板长度补充的全部木料长度&#xff0c;下界最小木板长度&#xff1b; 即left0,right10^6; 我们可以设置一个候选值x(mid)&#xff0c;将木板的长度全部都补充到x&#xff0c;如果成功…...