当前位置: 首页 > news >正文

OpenAI Sora:浅析文生视频模型Sora以及技术原理简介

一、Sora是什么?

Sora官方链接:https://openai.com/sora

  视频模型领头羊Runway Gen 2、Pika等AI视频工具,都还在突破几秒内的连贯性,而OpenAI,已经达到了史诗级的纪录。

OpenAI,永远快别人一步!!!!

像ChatGPT成功抢了Claude的头条一样,这一次,谷歌核弹级大杀器Gemini 1.5才推出没几个小时,全世界的目光就被OpenAI的Sora抢了去。

100万token的上下文,仅靠一本语法书就学会了一门全新的语言,如此震撼的技术进步,在Sora的荣光下被衬得暗淡无光,着实令人唏嘘。

三个词总结 “60s超长长度”、“单视频多角度镜头”,“世界模型”

60s超长长度: pika和runway(视频模型领头羊)还只能生成4s视频,这60s直接拉开了差距。而且动作连续,还有一定的艺术性,没有生硬的感觉。

单视频多角度镜头: 在60s的视频内,可以在保持主角色不变的高度一致性的同时,还生成多个不同角度的分镜。Sora能在同一视频中设计出多个镜头,同时保持角色和视觉风格的一致性。

要知道,以前的AI视频,都单镜头生成的。。

世界模型: Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上持续添加新的笔触,或者一个人吃汉堡时留下咬痕。这个就厉害了,基于虚幻引擎5(Unreal-Engine-5)的Sora它是能理解物理世界的。

二、为什么这一次Sora得到全世界这么多关注?

1. 技术上遥遥领先

  跟之前的runway和pika可以说不属于一个种群了(类似于猿猴与人类),Sora是跟ChatGPT一样是有理解能力的,它可以感知真实的物理世界和自然语言。

OpenAI究竟是怎么做到的?根据官网介绍,「通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。」

显然,这个王炸级技术有着革命般的意义,连Sam Altman都沉迷到不能自拔!

他不仅疯狂发推安利,而且还亲自下场为网友生成视频:你们随意来prompt
,我一一输出。

1

2. 大幅度降低了短视频制作的成本

   只需一个简单的提示词,就能生成一段制作精良的60秒视频。时间之长,画面之不失违和,简直令人震惊。

   支持使用图片或视频片段进行扩展,生成全新的视频。同时也支持将两个视频合并整合成一个新的视频。

   原先汽车广告视频要花费大量的人力物力,是不是可以AI生成了?电影宣传片是不是也可以?短视频和短片本身就短那就更没问题了吧?(有人甚至认为tiktok都会被取代了)

  但是需要创意和价值观的电影一时半会还不能被替代。因为需要好的估时剧本,好的导演,好的演员,大家配合才能演绎出一个经典的电影。

3. 生成4K图片

Sora 还能够生成图像,分辨率高达 2048×2048。除了Midjourney和Dall-E又有了个新的选择。

Sora一出,马斯克直接大呼:人类彻底完蛋了!

2 6


马斯克为什么这么说?

OpenAI科学家Tim Brooks表示,没通过人类预先设定,Sora就自己通过观察大量数据,自然而然学会了关于3D几何形状和一致性的知识。

三、Sora技术原理简介介绍

1. Sora的训练受到了大语言模型(Large Language Model)的启发

这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。

Sora是一种扩散模型,它能够通过从一开始看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。

Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。通过让模型能够预见多帧内容,团队成功克服了确保视频中的主体即便暂时消失也能保持一致性的难题。

与GPT模型类似,Sora采用了Transformer架构,从而实现了卓越的性能扩展。

OpenAI把视频和图像分解为较小的数据单元——「patches」,每个「patches」相当于GPT中的一个「token」。这种统一的数据表示方法能够在更广泛的视觉数据上训练扩散Transformer,覆盖了不同的持续时间、分辨率和纵横比。

2. Sora的独特方法如何改变视频生成

以往,生成模型的方法包括GAN、自回归、扩散模型。它们都有各自的优势和局限性。

但是!!!Sora引入的,是一种全新的范式转变——新的建模技术和灵活性,可以处理各种时间、纵横比和分辨率。

Sora所做的,是把Diffusion和Transformer架构结合在一起,创建了diffusion transformer模型。

于是,以下功能应运而生——

文字转视频:将文字内容变成视频
图片转视频:赋予静止图像动态生命
视频风格转换:改变原有视频的风格
视频时间延展:可以将视频向前或向后延长
创造无缝循环视频:制作出看起来永无止境的循环视频
生成单帧图像视频:将静态图像转化为最高2048 x 2048分辨率的单帧视频
生成各种格式的视频:支持从1920 x 1080到1080 x 1920之间各种分辨率格式
模拟虚拟世界:创造出类似于Minecraft等游戏的虚拟世界
创作短视频:制作最长达一分钟的视频,包含多个短片

3. Sora秘密成分的核心:时空patch

这种方法使Sora能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。

这种灵活性确保了每条数据都有助于模型的理解,就像厨师可以使用各种食材,来增强菜肴的风味特征一样。

时空patch对视频数据详细而灵活的处理,为精确的物理模拟和3D一致性等复杂功能奠定了基础。

从此,我们可以创建看起来逼真且符合世界物理规则的视频,人类也得以一窥AI创建复杂、动态视觉内容的巨大潜力。

4. 多样化数据在训练中的作用

训练数据的质量和多样性,对于模型的性能至关重要。

传统的视频模型,是在限制性更强的数据集、更短的长度和更窄的目标上进行训练的。

而Sora利用了庞大而多样的数据集,包括不同持续时间、分辨率和纵横比的视频和图像。

它能够重新创建像Minecraft这样的数字世界,以及来自Unreal或Unity等系统的模拟世界镜头,以捕捉视频内容的所有角度和各种风格。

3


这样,Sora就成了一个「通才」模型,就像GPT-4对于文本一样。

四、Sora 怎么使用

目前 openai 官方还未开放 sora 灰度,不过根据文生图模型 DALL·E 案例,一定是先给 ChatGPT Plus 付费用户使用,需要升级 GPT Plus 可以看这个教程 :  升级 ChatGPT Plus ,一分钟完成升级

一位OpenAI员工发推表示,现在Sora只会在有限的范围内试用(刚方面的专业用户评判其伦理性),现在放出的demo主要是为了获得社会大众对它能力的反应

现在,标榜要开发负责任AGI的OpenAI,应该不会冒着风险给大众抛出一个潘多拉魔盒。

笔者认为使用Sora前我们需要有一些准备工作

在开始之前,确保您已经拥有了OpenAI账目,并获得了Sora的访问权限。准备好您想要转化成视频的文本描述,记住越详细越好。

   1. Sora使用步骤一:文本描述

   登录您的OpenAI账户,找到Sora的使用界面。在指定区域输入您的文本描述,可以是一个故事概述、场景描述或是具体的动作指令。

   2. Sora使用步骤二:生成视频

   完成文本描述和自定义设置后,点击“生成视频”按钮。Sora将开始处理您的请求,这可能需要几分钟时间。完成后,您可以预览生成的视频。

需要注意的是,截止2024年2月18日,OpenAI只向部分专业用户开放了Sora的访问权限。普通用户只能观看其发布的演示视频。

openai sora如何使用的常见问答Q&A

1.问题:Sora是什么?

Sora是由OpenAI开发的AI视频生成模型。
Sora可以根据用户提供的描述性文字生成长达60秒的高质量视频。
Sora的视频包含精细复杂的场景、生动的角色表情和复杂的镜头运动。

2.问题:Sora怎么使用?

登录OpenAI账户并找到Sora的使用界面。
在指定区域输入您的文本描述,可以是一个故事概述、场景描述或是具体的动作指令。
点击生成按钮,OpenAI Sora会根据您的文本描述生成视频。

3.问题:Sora的优势有哪些?

Sora具有极强的扩展性,基于Transformer架构,可以应用于各种场景。
Sora能够生成高质量、高清的视频,展现复杂场景的光影关系、物体的物理遮挡和碰撞关系。
Sora可以创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。

4.问题:Sora的训练原理是什么?

Sora的训练分为两个阶段。首先,使用一个标注模型为训练集中的视频生成详细描述。
标注模型生成的描述能够更好地指导Sora生成视频。
Sora利用稳定扩散(Stable Diffusion)技术将静态噪声转换为连贯图像。
Sora模型采用初步的扩散模型生成视频长度,并逐步消除噪声完成视频。

相关文章:

OpenAI Sora:浅析文生视频模型Sora以及技术原理简介

一、Sora是什么? Sora官方链接:https://openai.com/sora 视频模型领头羊Runway Gen 2、Pika等AI视频工具,都还在突破几秒内的连贯性,而OpenAI,已经达到了史诗级的纪录。 OpenAI,永远快别人一步&#xff0…...

canal部署

定义 canal组件是一个基于mysql数据库增量日志解析,提供增量数据订阅和消费,支持将增量数据投递到下游消费者(kafka,rocketmq等)或者存储(elasticearch,hbase等)canal感知到mysql数据变动&…...

001集——在线网络学习快速完成——16倍速度

在线网络学习快进方法如下: 电脑下载 Microsoft edge 浏览器,有的电脑是自带的 1、点击右上角… 2、点击"扩展" 3、点击"管理扩展" 4、点击"获取 Microsoft edge 扩展" 5、搜索框里搜" global " 6、获取"…...

golang web 开发 —— gin 框架 (gorm 链接 mysql)

目录 1. 介绍 2. 环境 3. gin 3.1 gin提供的常见路由 3.2 gin的分组 main.go router.go 代码结构 3.3 gin 提供的Json方法 main.go route.go common.go user.go order.go 3.4 gin框架下如何获取传递来的参数 第一种是GET请求后面直接 /拼上传递的参数 第二种是…...

区块链相关概念

区块链是什么,就算是做计算机技术开发的程序员,100个当中都没有几个能把这个概念理解明白,更不要说讲清楚了。那对于普通人来说,就更扯了。 除了“挖矿”表面意思似乎比较好理解外,其他的基础概念真TMD绕。 去中心化、…...

文章解读与仿真程序复现思路——电力系统自动化EI\CSCD\北大核心《考虑灵活爬坡产品的虚拟电厂两阶段分布鲁棒优化运营策略》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…...

2.k8s架构

目录 k8s集群架构 控制平面 kube-apiserver kube-scheduler etcd kube-controller-manager node 组件 kubelet kube-proxy 容器运行时(Container Runtime) cloud-controller-manager 相关概念 k8s集群架构 一个Kubernetes集群至少包含一个控制…...

xss.pwnfunction-Ligma

首先用jsFuckhttps://jsfuck.com/ [][(![][])[[]](![][])[![]![]](![][])[![]](!![][])[[]]][([][(![][])[[]](![][])[![]![]](![][])[![]](!![][])[[]]][])[![]![]![]](!![][][(![][])[[]](![][])[![]![]](![][])[![]](!![][])[[]]])[![][[]]]([][[]][])[![]](![][])[![]![]!…...

分布式限流——Redis实现令牌桶算法

令牌桶算法 令牌桶算法(Token Bucket Algorithm)是一种广泛使用的流量控制(流量整形)和速率限制算法。这个算法能够控制网络数据的传输速率,确保数据传输的平滑性,防止网络拥堵,同时也被应用于…...

鸿蒙原生应用已超4000个!

鸿蒙原生应用已超4000个! 来自 HarmonyOS 微博近期消息,#鸿蒙千帆起# 重大里程碑!目前已有超4000个应用加入鸿蒙生态。从今年1月18日华为宣布首批200多家应用厂商正在加速开发鸿蒙原生应用,到3月底超4000个应用,短短…...

manga-ocr漫画日文ocr

github 下载 解压 anaconda新建环境 conda create -n manga_ocr python3.8 激活环境 conda activate manga_ocr cd到解压目录 cd /d manga-ocr-master 安装依赖包 pip install -r requirements.txt pip3 install manga-ocr 下载离线model huggingface 123云盘 解压到一个目录…...

STL、Vector和Set的讲解和例题分析

STL STL(Standard Template Library,标准模板库)是C标准库的一部分,它提供了一系列通用的编程组件,包括容器、迭代器、算法和函数对象等。STL是C中实现泛型编程的核心,它允许程序员使用模板编写与数…...

Android 13 aosp hiddenapi config

Android 11 hiddenapi路径 frameworks/base/config/hiddenapi-greylist-packages.txtAndroid 13 hiddenapi路径 frameworks/base/boot/hiddenapi/hiddenapi-unsupported-packages.txt...

数据仓库面试总结

文章目录 1.什么是数据仓库?2.ETL是什么?3.数据仓库和数据库的区别(OLTP和OLAP的区别)4.数据仓库和数据集市的区别5.维度分析5.1 什么是维度?5.2什么是指标? 6.什么是数仓建模?7.事实表7.维度表…...

git Failed to connect to 你的网址 port 8282: Timed out

git Failed to connect to 你的网址 port 8282: Timed out 出现这个问题的原因是:原来的仓库换了网址,原版网址不可用了。 解决方法如下: 方法一:查看git用户配置是否有如下配置 http.proxyhttp://xxx https.proxyhttp://xxx如果…...

[C++][算法基础]堆排序(堆)

输入一个长度为 n 的整数数列,从小到大输出前 m 小的数。 输入格式 第一行包含整数 n 和 m。 第二行包含 n 个整数,表示整数数列。 输出格式 共一行,包含 m 个整数,表示整数数列中前 m 小的数。 数据范围 1≤m≤n≤&#x…...

备考ICA----Istio实验15---开启 mTLS 自动双向认证实验

备考ICA----Istio实验15—开启mTLS自动双向认证实验 在某些生成环境下,我们希望微服务和微服务之间使用加密通讯方式来确保不被中间人代理. 默认情况下Istio 使用 PERMISSIVE模式配置目标工作负载,PERMISSIVE模式时,服务可以使用明文通讯.为了只允许双向 TLS 流量,…...

Hive SchemaTool 命令详解

Hive schematool 是 hive 自带的管理 schema 的相关工具。 列出详细说明 schematool -help直接输入 schematool 或者schematool -help 输出结果如下&#xff1a; usage: schemaTool-alterCatalog <arg> Alter a catalog, requires--catalogLocation an…...

51单片机入门_江协科技_17~18_OB记录的笔记

17. 定时器 17.1. 定时器介绍&#xff1a;51单片机的定时器属于单片机的内部资源&#xff0c;其电路的连接和运转均在单片机内部完成&#xff0c;无需占用CPU外围IO接口&#xff1b; 定时器作用&#xff1a; &#xff08;1&#xff09;用于计时系统&#xff0c;可实现软件计时&…...

xss.pwnfunction-Ah That‘s Hawt

<svg/onloadalert%26%2340%3B1%26%2341%3B> <svg/>是一个自闭合形式 &#xff0c;当页面或元素加载完成时&#xff0c;onload 事件会被触发&#xff0c;从而可以执行相应的 JavaScript 函数...

Python学习从0开始——005数据结构

Python学习从0开始——005数据结构 一、列表list二、元组和序列三、集合四、字典五、循环技巧六、条件控制七、序列和其它类型的比较 一、列表list 不是所有数据都可以排序或比较。例如&#xff0c;[None, ‘hello’, 10] 就不可排序&#xff0c;因为整数不能与字符串对比&…...

力扣每日一题:LCR112--矩阵中的最长递增路径

题目 给定一个 m x n 整数矩阵 matrix &#xff0c;找出其中 最长递增路径 的长度。 对于每个单元格&#xff0c;你可以往上&#xff0c;下&#xff0c;左&#xff0c;右四个方向移动。 不能 在 对角线 方向上移动或移动到 边界外&#xff08;即不允许环绕&#xff09;。 示例…...

树莓派部署yolov5实现目标检测(ubuntu22.04.3)

最近两天搞了一下树莓派部署yolov5&#xff0c;有点难搞&#xff08;这个东西有点老&#xff0c;版本冲突有些包废弃了等等&#xff09; 最后换到ubuntu系统弄了&#xff0c;下面是我的整体步骤&#xff08;建议先使能一下ssh&#xff08;最下面有&#xff09;&#xff0c;结合…...

2024 年最新使用 Wechaty 开源框架搭建部署微信机器人(微信群智能客服案例)

读取联系人信息 获取当前机器人账号全部联系人信息 bot.on(ready, async () > {console.log("机器人准备完毕&#xff01;&#xff01;&#xff01;")let contactList await bot.Contact.findAll()for (let index 0; index < contactList.length; index) {…...

Redis从入门到精通(九)Redis实战(六)基于Redis队列实现异步秒杀下单

↑↑↑请在文章开头处下载测试项目源代码↑↑↑ 文章目录 前言4.5 分布式锁-Redisson4.5.4 Redission锁重试4.5.5 WatchDog机制4.5.5 MutiLock原理 4.6 秒杀优化4.6.1 优化方案4.6.2 完成秒杀优化 4.7 Redis消息队列4.7.1 基于List实现消息队列4.7.2 基于PubSub的消息队列4.7.…...

什么是多路复用器滤波器

本章将更深入地介绍多路复用器滤波器&#xff0c;以及它们如何用于各种应用中。您将了解到多路复用器如何帮助设计人员创造出更复杂的无线产品。 了解多路复用器 多路复用器是一组射频(RF)滤波器&#xff0c;它们组合在一起&#xff0c;但不会彼此加载&#xff0c;可以在输出之…...

Severt和tomcat的使用(补充)

打包程序 在pom.xml中添加上述代码之后打包时会生成war包并且包的名称是test 默认情况打的是jar包.jar里量但是tomcat要求的是war包. war包Tomcat专属的压缩包. war里面不光有.class还有一些tomcat要求的配置文件(web.xml等)还有前端的一些代码(html, css, js) 点击其右边的m…...

JavaEE初阶——多线程(一)

T04BF &#x1f44b;专栏: 算法|JAVA|MySQL|C语言 &#x1faf5; 小比特 大梦想 此篇文章与大家分享多线程的第一部分:引入线程以及创建多线程的几种方式 此文章是建立在前一篇文章进程的基础上的 如果有不足的或者错误的请您指出! 1.认识线程 我们知道现代的cpu大多都是多核心…...

MongoDB主从复制模式基于银河麒麟V10系统

MongoDB主从复制模式基于银河麒麟V10系统 背景介绍 MongoDB自4.0版本开始已经不再建议使用传统的master/slave复制架构,而是全面采用了复制集(Replica Sets)作为标准的复制和高可用性解决方案。 复制集是MongoDB的一种数据复制和高可用性机制,通过异步同步数据至多个服务…...

Vue使用高德地图

1.在高德平台注册账号 2.我的 > 管理管理中添加Key 3.安装依赖 npm i amap/amap-jsapi-loader --save 或 yarn add amap/amap-jsapi-loader --save 4.导入 AMapLoade import AMapLoader from amap/amap-jsapi-loader; 5.直接上代码&#xff0c;做好了注释&#xff08;初始化…...

建设网站 备案/淘宝网店代运营正规公司

本文实例讲述了Python简单实现自动删除目录下空文件夹的方法。分享给大家供大家参考&#xff0c;具体如下&#xff1a;总是发现电脑用上一段时间&#xff0c;各种软件生成各种目录&#xff0c;可是这些目录都是空文件夹&#xff0c;感觉没用&#xff0c;或许有些许强迫症吧&…...

做网站要注意些什么/seo是什么味

在MySQL中有时需要随机生成数字或字符串&#xff0c;随机生产数字可直接使用rand()函数&#xff0c;但是要随机生成字符串就比较麻烦。要随机生成字符串代码如下&#xff1a;在MySQL中定义一个随机串的方法&#xff0c;然后再SQL语句中调用此方法。随机串函数定义方法&#xff…...

工程在哪个网站做推广比较合适/美食软文300字

这篇文章主要介绍了python可视化text()函数使用详解,文中通过示例代码介绍的非常详细&#xff0c;对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 函数功能&#xff1a;添加图形内容细节的无指向型注释文本 调用签名&#xff1a;plt.text(x, y, string, wei…...

在哪能学到网站建设专业/百度信息流广告怎么收费

你正在寻找任期为SMS gateway .. Twilio API与Android运作良好&#xff0c;或者你可以使用一些其他的按照你的愿望..最好是Bulk SMS。第一Register here然后使用用户名和密码作为示例所示实施例&#xff1a;import java.net.*;import java.io.*;public class SendSms {static p…...

wordpress读者墙 插件/流量推广怎么做

程序员找工作必备 PHP 基础面试题​ 程序员找工作必备 PHP 基础面试题&#xff08;二&#xff09; 程序员找工作必备 PHP 基础面试题 &#xff08;三&#xff09;​ 一、在 HTTP1.0 中&#xff0c;状态吗 500 的含义的是什么&#xff1f;如果返回 “找不到文件” 的提示&…...

重庆做网站changeke/seo入门视频

这个比较全面&#xff0c;系统&#xff0c;靠谱转自http://lavasoft.blog.51cto.com/62575/105956/转载于:https://www.cnblogs.com/ivanUp/archive/2011/11/22/2258945.html...