探索视听新纪元: ChatGPT的最新语音和图像功能全解析
🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁
🐅🐾猫头虎建议程序员必备技术栈一览表📖:
🤖
人工智能 AI
:
🧠 Machine Learning | 🔍 Deep Learning | ⚙️ TensorFlow | 🔥 PyTorch | 🌀 Keras | 🗣️ NLP | 👁️ Computer Vision | 🎮 Reinforcement Learning | 📊 Scikit-learn | 🤖 GPT
🦄 博客首页——🐅🐾猫头虎的博客🎐
🐳 《面试题大全专栏》 🦕 文章图文并茂🦖生动形象🐅简单易学!欢迎大家来踩踩~🌺
🌊 《IDEA开发秘籍专栏》 🐾 学会IDEA常用操作,工作效率翻倍~💐
🌊 《100天精通Golang(基础入门篇)》 🐅 学会Golang语言,畅玩云原生,走遍大小厂~💐
🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬请批评指正!🐅🐾🍁🐥
文章目录
- 探索视听新纪元: ChatGPT的最新语音和图像功能全解析
- 🚀 ChatGPT 的视听新技能
- 🎙 与ChatGPT的语音交流
- 🎧 语音样例
- 🎵 选择声音
- 🖼 图像交流
- 逐步推出图像和语音功能
- 语音
- 图像输入
- 使视觉既有用又安全
- 模型限制的透明度
- 扩展访问权限
- 结论
- 参考资料
- 原创声明
探索视听新纪元: ChatGPT的最新语音和图像功能全解析
大家好,我是猫头虎博主🐯,今天我要带领大家了解一下,OpenAI的 #ChatGPT 刚刚更新了一些令人兴奋的视听功能!🎉 这些新增功能将使我们能够通过语音和图像与ChatGPT交流,让交互变得更为直观和生动。现在,让我们一起探究一下这些新功能吧!
🚀 ChatGPT 的视听新技能
- 发布日期: 2023年9月25日
- 作者: OpenAI
- 产品与公告: OpenAI刚刚为ChatGPT推出了全新的语音和图像功能,让我们可以通过语音交谈或展示图像与ChatGPT交流,为用户提供了一种更直观的交互方式。
这些新功能为ChatGPT的使用打开了无限可能!比如在旅行时,你可以拍摄一个地标,然后实时交谈讨论它的历史;在家里,你可以拍摄冰箱和橱柜的内容,确定晚餐吃什么(还能得到逐步的食谱指导哦);晚餐后,通过拍照,圈出数学题目,让ChatGPT为你和你的孩子提供解题提示。
在接下来的两周内,这些新功能将逐步推出给Plus和Enterprise用户。语音功能将在iOS和Android平台上推出,而图像功能将在所有平台上提供。
🎙 与ChatGPT的语音交流
现在,通过语音与你的数字助手进行往返交谈变得可能了!无论是在外面,还是在家里请求一个睡前故事,或解决餐桌上的争论,一切都变得轻而易举。
- 如何启用语音: 只需转到移动应用的“设置”→“新功能”,选择加入语音交谈。然后,点击主屏幕右上角的耳机按钮,并从五种不同的声音中选择你喜欢的声音。
新的语音功能由先进的文本转语音模型支持,能够仅通过文本和几秒钟的样本语音生成逼真的人类音频。OpenAI与专业的配音演员合作创建了每种声音,并使用开源的语音识别系统Whisper将你的话语转换成文本。
🎧 语音样例
故事
在一个宁静的树林里,有一只名叫Lila的毛茸茸的妈妈猫。在一个阳光明媚的日子里,她和她顽皮的小猫Milo在一棵老橡树的树荫下依偎着。
“Milo,” Lila说道,她的声音柔和而温柔,“你很快就会有一个新的玩伴了。”
Milo的耳朵竖了起来,显得很好奇。“一个新玩伴?”
Lila轻轻地呼噜着说:“是的,一个妹妹。”
Milo的眼睛亮了起来,兴奋不已。“一个妹妹?她会像我一样追逐尾巴吗?”
Lila呵呵笑了。“哦,她会有她自己的怪癖的。你会教她的,对吧?”
Milo急切地点了点头,已经开始憧憬他们将来会共度的冒险时光。
🎵 选择声音
- Juniper
🖼 图像交流
现在,你可以向ChatGPT显示一张或多张图片,无论是解决烧烤架无法启动的问题,探索冰箱里的食物来计划一顿饭,还是分析复杂的图表以处理工作相关的数据,一切都变得轻而易举。
- 如何启用图像: 点击照片按钮来捕捉或选择图像。如果你使用的是iOS或Android设备,首先点击加号按钮。你还可以讨论多张图片或使用我们的绘图工具来指导你的助手。
图像理解功能由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将他们的语言推理技能应用于各种各样的图片,如照片、截图和包含文本与图像的文档。
逐步推出图像和语音功能
OpenAI 的目标是建立安全、有益的通用人工智能(AGI)。我们相信逐步推出我们的工具,这样可以使我们有时间进行改进,完善风险缓解措施,同时为未来更强大的系统做好准备。随着涉及声音和视觉的高级模型的出现,这种策略变得更为重要。
语音
新的语音技术能够仅通过几秒钟的真实语音生成逼真的合成声音,为许多创意和易用性应用打开了大门。然而,这些功能也带来了新的风险,比如可能被恶意行为者用来模仿公众人物或进行欺诈。
这就是为什么我们使用这项技术来支持特定的用例——语音聊天。语音聊天是与我们直接合作的声音演员创建的。我们也在与其他人以类似的方式合作。例如,Spotify 正在利用这项技术的强大功能,为他们的语音翻译功能的测试提供支持,该功能帮助播客者通过将播客翻译成其他语言,以播客者自己的声音扩展他们的故事讲述范围。
图像输入
基于视觉的模型也带来了新的挑战,从关于人的幻觉到在高风险领域依赖模型的图像解释。在更广泛的部署之前,我们在极端主义和科学熟练度等领域对模型进行了红队测试,并与多样化的 alpha 测试者合作。我们的研究使我们能够在负责任使用的几个关键细节上达成一致。
探索视听新纪元 ChatGPT的最新语音和图像功能全解析
使视觉既有用又安全
与其他 ChatGPT 功能一样,视觉功能旨在帮助你处理日常生活。它在可以看到你看到的东西时表现最好。
我们直接通过与 Be My Eyes(一款为盲人和视力障碍人士提供服务的免费移动应用)的合作,了解了视觉功能的使用和限制。用户告诉我们,他们发现在背景中恰好有人出现的图片上进行通用交谈是很有价值的,比如当你试图弄清楚遥控器设置时,有人出现在电视上。
我们还采取了技术措施,大大限制了 ChatGPT 分析和直接陈述人的能力,因为 ChatGPT 并不总是准确的,而且这些系统应该尊重个人的隐私。
实际使用和反馈将帮助我们改善这些保障措施,同时保持工具的实用性。
模型限制的透明度
用户可能会依赖 ChatGPT 处理一些专业话题,比如研究领域。我们对模型的限制保持透明,并且不鼓励在没有适当验证的情况下使用它来处理高风险的用例。此外,该模型擅长转录英文文本,但对一些其他语言,特别是非罗马字母的语言,表现不佳。我们建议非英语用户不要使用 ChatGPT 进行此类操作。
你可以在图像输入系统卡中了解更多关于我们的安全方法和与 Be My Eyes 的合作。
扩展访问权限
在接下来的两周内,Plus 和 Enterprise 用户将有机会体验语音和图像功能。我们很高兴在此之后很快将这些功能推出给其他用户群体,包括开发人员。
在这次更新中,ChatGPT的视听功能无疑为我们提供了一个全新、直观和创意的交互方式。想象一下,通过简单的语音和图像交互,我们能够得到及时的帮助和信息,这真是太令人兴奋了!作为猫头虎博主,我会继续关注ChatGPT的更新,为大家带来更多的信息和使用技巧。记得保持关注哦!😉
结论
通过本次的探索,我们可以明显看出,ChatGPT的新的视听功能为我们提供了一个更为直观和多元化的交互方式。不仅如此,它还为我们打开了一个新世界的大门,让我们能够通过语音和图像,与数字助手进行更为丰富和实用的交流。这对于我们日常的学习、工作和生活都带来了很大的便利。随着技术的不断进步,我们有理由相信,ChatGPT将会持续为我们提供更为先进和人性化的功能,使我们的数字生活变得更为丰富多彩。作为猫头虎博主,我会继续关注ChatGPT的更新,并在第一时间为大家带来最新的资讯和使用技巧。敬请期待!
参考资料
- OpenAI. (2023, September 25). ChatGPT Can Now See, Hear, and Speak. Retrieved from https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
希望你们喜欢这次的更新,我们下次见!👋
原创声明
======= ·
- 原创作者: 猫头虎
作者wx: [ libin9iOak ]
学习 | 复习 |
---|---|
✔ | ✔ |
本文为原创文章,版权归作者所有。未经许可,禁止转载、复制或引用。
作者保证信息真实可靠,但不对准确性和完整性承担责任。
未经许可,禁止商业用途。
如有疑问或建议,请联系作者。
感谢您的支持与尊重。
点击
下方名片
,加入IT技术核心学习团队。一起探索科技的未来,共同成长。
相关文章:
探索视听新纪元: ChatGPT的最新语音和图像功能全解析
🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🐅🐾猫头虎建议程序员必备技术栈一览表📖: 🤖 人工智能 AI: 🧠 Machine …...
华为乾坤区县教育安全云服务解决方案(1)
华为乾坤区县教育安全云服务解决方案(1) 课程地址方案背景客户痛点分析区县教育网概述区县教育网业务概述区县教育网业务安全风险分析区县教育网安全运维现状分析区县教育网安全建设痛点分析 安全解决方案功能概述架构概述方案架构设备选型 课程地址 本…...
《Jetpack Compose从入门到实战》第三章 定制 UI 视图
目录 配置颜色、字体与形状Welcome PageLogin PageHome Page 主题CompositionLocal 配置颜色、字体与形状 -ui.theme.Color.kt val pink100 Color(0xFFFFF1F1) val pink900 Color(0xFF3F2C2C) val white Color(0xFFFFFFFF) val white850 Color(0xD9FFFFFF) val gray Col…...
Kubernetes组件和架构简介
目录 一.概念简介 1.含义: 2.主要功能: 3.相关概念: 二.组件和架构介绍 1.master:集群的控制平面,管理集群 2.node:集群的数据平面,为容器提供工作环境 3.kubernetes简单架构图解 一.概…...
ElementUI实现增删改功能以及表单验证
目录 前言 BookList.vue action.js 展示效果 前言 本篇还是在之前的基础上,继续完善功能。上一篇完成了数据表格的查询,这一篇完善增删改,以及表单验证。 BookList.vue <template><div class"books" style"pa…...
C++中有哪些运算符以及它们的优先级?
C中常用的运算符包括算术运算符、赋值运算符、关系运算符、逻辑运算符、位运算符等。这里列举一些常见的运算符以及它们的优先级(从高到低): 圆括号()一元正号、一元负号-数组下标[]成员选择符(点号.、箭头…...
uboot启动流程-涉及_main汇编函数
一. uboot启动流程涉及函数 本文简单分析一下 save_boot_params_ret调用的函数:_main汇编函数。 本文继之前文章的学习,地址如下: uboot启动流程-涉及s_init汇编函数_凌肖战的博客-CSDN博客 二. uboot启动流程涉及的 _main汇编函数 经过之…...
此芯科技加入百度飞桨硬件生态共创计划,加速端侧AI生态布局
近日,此芯科技(上海)有限公司(以下简称“此芯科技”)与百度签署硬件生态共创计划合作协议,正式加入由百度发起的硬件生态共创计划。双方将共同推动端侧AI和大模型在个人计算、车载计算以及元宇宙计算等领域…...
Unity把UGUI再World模式下显示到相机最前方
Unity把UGUI再World模式下显示到相机最前方 通过脚本修改Shader 再VR里有时候要把3D的UI显示到相机最前方,加个UI相机会坏事,可以通过修改unity_GUIZTestMode来解决。 测试用例 测试用例如下: 场景包含一个红色的盒子,一个UI…...
nodejs+vue活鲜物流监控系统elementui
第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:技术背景 5 3.2.2经济可行性 6 3.2.3操作可行性: 6 3.3 项目设计目标与原则 6 3.4系统流程分析 7 3.4.1操作流程 7 3.4.2添加信息流程 8 3.4.3删除信息流程 9 第4章 系统设计 11 …...
数据集划分——train_test_split函数使用说明
当我们拿到数据集时,首先需要对数据集进行划分训练集和测试集,sklearn提供了相应的函数供我们使用 一、讲解 快速随机划分数据集,可自定义比例进行划分训练集和测试集 二、官网API 官网API sklearn.model_selection.train_test_split(*a…...
Pytorch中关于forward函数的理解与用法
目录 前言1. 问题所示2. 原理分析2.1 forward函数理解2.2 forward函数用法 前言 深入深度学习框架的代码,发现forward函数没有被显示调用 但代码确重写了forward函数,于是好奇是不是python的魔术方法作用 1. 问题所示 代码如下所示: cla…...
vite跨域proxy设置与开发、生产环境的接口配置,接口在生产环境下,还能使用proxy代理地址吗
文章目录 vite的proxy开发环境设置如果后端没有提供可以替换的/mis等可替换的后缀的处理办法接口如何区分.env.development开发和.env.production生产环境接口在生产环境下,还能使用proxy代理地址吗? vite的proxy开发环境设置 环境: vite 4…...
【嵌入式】使用MultiButton开源库驱动按键并控制多级界面切换
目录 一 背景说明 二 参考资料 三 MultiButton开源库移植 四 设计实现--驱动按键 五 设计实现--界面处理 一 背景说明 需要做一个通过不同按键控制多级界面切换以及界面动作的程序。 查阅相关资料,发现网上大多数的应用都比较繁琐,且对于多级界面的…...
【数据结构】树的概念理解和性质推导(保姆级详解,小白必看系列)
目录 一、前言 🍎 为什么要学习非线性结构 ---- 树(Tree) 💦 线性结构的优缺点 💦 优化方案 ----- 树(Tree) 💦 树的讲解流程 二、树的概念及结构 🍐 树的概念 &…...
融合之力:数字孪生、人工智能和数据分析的创新驱动
数字孪生、人工智能(AI)和数据分析是当今科技领域中的三个重要概念,它们之间存在着紧密的关联和互动,共同推动了许多领域的创新和发展。 一、概念 数字孪生是一种数字化的模拟技术,它通过复制现实世界中的物理实体、…...
Spring的注解开发-Spring配置类的开发
Bean配置类的注解开发 Component等注解替代了<bean>标签,但像<import>、<context:componentScan>等非<bean>标签怎样去使用注解去替代呢?定义一个配置类替代原有的xml配置文件,<bean>标签以外的标签ÿ…...
Linux系统编程系列之进程间通信-信号量组
一、什么是信号量组 信号量组是信号量的一种, 是system-V三种IPC对象之一,是进程间通信的一种方式。 二、信号量组的特性 信号量组不是用来传输数据的,而是作为“旗语”,用来协调各进程或者线程工作的。信号量组可以一次性在其内…...
centos 6使用yum安装软件
1. 执行以下命令,查看当前操作系统 CentOS 版本。 cat /etc/centos-release返回结果如下图所示,则说明当前操作系统版本为 CentOS 6.9。 2. 执行以下命令,编辑 CentOS-Base.repo 和CentOS-Epel.repo文件。 vim /etc/yum.repos.d/CentOS-Bas…...
maven无法下载时的解决方法——笔记
右键项目然后点击创建setting.xml(因为现在创建了,所以没显示了,可以直接点击打开setting.xml) 然后添加 <mirror><id>nexus-aliyun</id><mirrorOf>*,!jeecg,!jeecg-snapshots</mirrorOf><name…...
Java Spring Boot 开发框架
Spring Boot是一种基于Java编程语言的开发框架,它的目标是简化Java应用程序的开发过程。Spring Boot提供了一种快速、易于使用的方式来创建独立的、生产级别的Java应用程序。本文将介绍Spring Boot的特性、优势以及如何使用它来开发高效、可靠的应用程序。 一、简介…...
Pytorch学习记录-1-张量
1. 张量 (Tensor): 数学中指的是多维数组; torch.Tensor data: 被封装的 Tensor dtype: 张量的数据类型 shape: 张量的形状 device: 张量所在的设备,GPU/CPU requires_grad: 指示是否需要计算梯度 grad: data 的梯度 grad_fn: 创建 Tensor 的 Functio…...
paddle2.3-基于联邦学习实现FedAVg算法-CNN
目录 1. 联邦学习介绍 2. 实验流程 3. 数据加载 4. 模型构建 5. 数据采样函数 6. 模型训练 1. 联邦学习介绍 联邦学习是一种分布式机器学习方法,中心节点为server(服务器),各分支节点为本地的client(设备&#…...
nuiapp保存canvas绘图
要保存一个 Canvas 绘图,可以使用以下步骤: 获取 Canvas 元素和其绘图上下文: var canvas document.getElementById("myCanvas"); var ctx canvas.getContext("2d");使用 Canvas 绘图 API 绘制图形。 使用 toDataUR…...
Object.defineProperty()方法详解,了解vue2的数据代理
假期第一篇,对于基础的知识点,我感觉自己还是很薄弱的。 趁着假期,再去复习一遍 Object.defineProperty(),对于这个方法,更多的还是停留在面试的时候,面试官问你vue2和vue3区别的时候,不免要提一提这个方法…...
Linux 磁盘管理
Linux 系统的磁盘管理直接关系到整个系统的性能表现。磁盘管理常用三个命令为: df、du 和 fdisk。 df df(英文全称:disk free)。df 命令用于显示磁盘空间的使用情况,包括文件系统的挂载点、总容量、已用空间、可用空间…...
大数据与人工智能的未来已来
大数据与人工智能的定义 大数据: 大数据指的是规模庞大、复杂性高、多样性丰富的数据集合。这些数据通常无法通过传统的数据库管理工具来捕获、存储、管理和处理。大数据的特点包括"3V": 大量(Volume):大数…...
【AI视野·今日Robot 机器人论文速览 第四十一期】Tue, 26 Sep 2023
AI视野今日CS.Robotics 机器人学论文速览 Tue, 26 Sep 2023 Totally 73 papers 👉上期速览✈更多精彩请移步主页 Daily Robotics Papers Extreme Parkour with Legged Robots Authors Xuxin Cheng, Kexin Shi, Ananye Agarwal, Deepak Pathak人类可以通过以高度动态…...
[NOIP2012 提高组] 开车旅行
[NOIP2012 提高组] 开车旅行 题目描述 小 A \text{A} A 和小 B \text{B} B 决定利用假期外出旅行,他们将想去的城市从 $1 $ 到 n n n 编号,且编号较小的城市在编号较大的城市的西边,已知各个城市的海拔高度互不相同,记城市 …...
数据库设计流程---以案例熟悉
案例名字:宠物商店系统 课程来源:点击跳转 信息->概念模型->数据模型->数据库结构模型 将现实世界中的信息转换为信息世界的概念模型(E-R模型) 业务逻辑 构建 E-R 图 确定三个实体:用户、商品、订单...
wordpress is电影主题/整合营销方案案例
前言 继续翻览《程序是怎样跑起来的》 本节是第九章 操作系统和应用的关系 1、操作系统功能的历史 最早是仅具有加载和运行功能的 监控程序 后来,基本的输入输出部分的程序被追加到了监控程序中,初期的操作系统诞生 2、系统调用和高级编程语言的移植性…...
免费自制app软件靠谱么/网站搜索优化方法
Nginx默认没有开启利用多核CPU,我们可以通过增加worker_cpu_affinity配置参数来充分利用多核CPU。CPU是任务处理,计算最关键的资源,CPU核越多,性能就越好。配置Nginx多核CPU,worker_cpu_affinity使用方法和范例1. 2核CPU,开启2个进…...
网站用户体验分析怎么做/网站关键词优化的步骤和过程
2023/4/6 QT练习QQ登录界面(完善) 作业 完善登录界面 点击登录按钮后,判断账号和密码是否一致,如果匹配失败,则弹出错误对话框,文本内容“账号密码不匹配,是否重新登录”,给定两个按…...
巴音郭楞网站建设/怎么建个人网站
在分类中,和自己的父类关联public class AssessQualityIndex extends IdEntity<AssessQualityIndex> {private static final long serialVersionUID 1L; private String scoreStandard; // 评分标准private AssessQualityIndex parent; // 父级Js…...
做淘宝客网站域名是别人的/网页模板免费html
转载自 http://www.linuxsir.org/bbs/showthread.php?t184419 如何从源码包安装软件? 从源码包安装软件最重要的就是仔细阅读README INSTALL等说明文件 它会告诉你怎样才能成功安装 通常从源码包安装软件的步骤是:tar jxvf gtk-2.4.13.tar.bz2 解开源码…...