当前位置: 首页 > news >正文

市场主流 AI 视频生成技术的迭代路径

     AI视频生成技术的迭代路径经历了从GAN+VAE、Transformer、Diffusion Model到Sora采用的DiT架构(Transformer+Diffusion)等多个阶段,每个阶段的技术升级都在视频处理质量上带来了飞跃性的提升。这些技术进步不仅推动了AI视频生成领域的快速发展,也为未来的应用场景提供了更多的可能性和灵活性

1 GAN+VAE 阶段 (2016-2021)

    GAN 用于视频生成在 2016 年至 2021 年较为火热,代表模型如 Temporal Generative Adversarial Nets (TGAN) 和 MoCoGAN,它们通过不同的网络架构和训练方法来改进 GAN 在视频生成上的性能。此外,Dual Video Discriminator GAN (DVD-GAN) 通过使用空间和时间判别器的分解来提高视频生成的复杂性和保真度。

GAN 生成对抗网络运作原理

  • GAN (生成对抗网络): 这是最早用于视频生成的模型之一,其核心思想是训练一个生成器和一个判别器,通过对抗训练生成逼真的视频。
  • VAE (变分自编码器): VAE 是一种自编码器,可以将输入数据压缩成低维的潜在空间表示,并从潜在空间中解码生成新的数据。
  • GAN+VAE 融合: 将 GAN 和 VAE 结合,利用 GAN 生成高质量的图像,并利用 VAE 将图像解码成视频。

2 Transformer 阶段 (2018-2023)

Transformer 模型是一种基于注意力机制的深度学习模型,它在处理序列数据方面表现出色,尤其在自然语言处理领域取得了显著的成果。它完全基于注意力机制,不依赖于传统的循环神经网络(RNN)或卷积神经网络(CNN)。

2.1 优点

  • 并行处理序列中的所有元素:与传统的循环神经网络(RNN)相比,Transformer 模型能够并行处理序列中的所有元素,这大大提高了计算效率。RNN 模型需要按照序列的顺序进行计算,每个时间步的处理依赖于前一个时间步的输出,这限制了并行计算的可能性。
  • 可扩展性:Transformer 模型能够通过堆叠多个注意力层来增加模型的复杂度和容量,从而适应不同任务的需求。这种堆叠方式使得模型能够处理更长的序列,并学习更复杂的模式。
  • 泛化能力:Transformer 模型除了在语言任务中表现出色,还可以泛化到其他类型的序列建模任务,如图像处理、视频分析等。这种泛化能力使得模型能够应用于更广泛的领域,具有更高的实用性。
  • 预训练和微调:Transformer 模型通常先在大量数据上进行预训练,再针对特定任务进行微调,这使得模型能够快速适应新任务。预训练可以使得模型学习到通用的语言特征,微调则可以针对特定任务进行优化。
  • 适应长序列数据:Transformer 模型在处理诸如语音信号、长时间序列数据等任务时具有优势,因为它能够避免传统模型存在的梯度消失或梯度爆炸问题。这种特性使得模型能够处理更长的序列,并学习更复杂的模式。

2.2

  • 参数效率相对较低: 参数数量随输入序列长度的增加而增加,增加了训练时间和成本。
  • 对输入数据的敏感性较高: 模型依赖于输入数据的全局信息进行建模,在处理复杂任务时,对输入数据的细微变化可能会对模型的输出结果产生较大影响。
  • 难以处理时空动态变化: 模型基于自注意力机制的静态模型,无法捕捉到时空动态变化的信息,因此在处理视频、时空数据等具有动态变化特性的任务时,需要结合其他技术来提高模型的性能。

2.3 在视频生成中的应用

  • VideoGPT: 使用 VQ-VAE 和 Transformer 架构生成视频,能够适应动作条件,生成高保真度的视频。
  • NUWA 女娲: 采用 3D 变换器编码器-解码器框架,并使用 VQ-GAN 视觉标记 3D tokens,生成图像、视频以及视频预测。
  • CogVideo: 采用多帧率层次化训练策略和双通道注意力机制,生成高分辨率、高帧率、高一致性的视频。
  • Phenaki: 使用因果注意力机制生成可变长度视频,并使用预训练的 T5X 生成文本嵌入,生成视频。

3 扩散模型阶段 (2018-2023)

扩散模型是一种生成模型,它通过逐步添加噪声来破坏训练数据,然后通过逆向过程去噪来生成与训练数据相似的新数据。扩散模型可以分为三大类型:去噪扩散概率模型(DDPM)、基于噪声条件评分的生成模型(SGM)和随机微分方程(SDE)。尽管它们在数学框架上略有不同,但它们的核心思想是一致的,即通过添加和去除噪声来生成新的数据。

3.1 优点

  • 无需大量标注数据: 扩散模型可以使用未标记的数据进行训练,这使得它们在处理一些数据量较少的领域时具有优势。
  • 生成高质量的图像: 扩散模型能够生成高质量的图像,甚至能够生成逼真的图像。
  • 可扩展性: 扩散模型可以扩展到其他模态,例如文本、音频和视频。

3.2 缺点

  • 训练时间较长: 扩散模型的训练时间通常较长,因为它们需要添加和去除噪声。
  • 对计算资源要求高: 扩散模型的训练需要大量的计算资源,这使得它们在资源受限的环境中的应用受到限制。
  • 生成结果的多样性有限: 扩散模型生成的结果可能缺乏多样性,因为它们通常偏向于生成与训练数据相似的图像。

3.3 扩散模型在视频生成中的应用

  • Gen-1: 将潜在扩散模型扩展到视频生成,无需额外训练和预处理。
  • Gen-2: 允许使用任意起始帧,通过 I2V 方式生成视频,并支持运动画笔、相机控制等功能。

4 DiT 阶段 (2023-至今)

结合 Transformer 和扩散模型,在潜在空间中使用 Transformer 处理图像数据块,模拟数据的扩散过程以生成高质量的图像。

4.1 优点

  • 高效: DiT 模型在潜在空间而非像素空间中训练扩散模型,这提高了计算效率。
  • 灵活: DiT 模型可以使用不同的 Transformer 块变体来处理条件输入,例如噪声时间步长、类别标签等。
  • 可扩展: DiT 模型的性能随着模型大小和输入 token 数量的增加而提升。
  • 简化架构: DiT 模型证明了在扩散模型中,传统的 U-Net 架构并不是必需的,可以被 Transformer 替代。

4.2 DiT 在视频生成中的应用

  • WALT (Window Attention Latent Transformer): 使用 Transformer 架构,在共享潜在空间中联合压缩图像和视频,实现跨模态生成。
  • Sora: 基于 DiT 架构,生成视频质量高,可进行多种编辑和扩展操作。
  • 可灵: 采用 DiT 架构,生成视频效果优秀,可进行视频续写等操作。

更多内容详见2024生成式AI视频行业发展现状国内外龙头及未来发展方向分析报告

相关文章:

市场主流 AI 视频生成技术的迭代路径

AI视频生成技术的迭代路径经历了从GANVAE、Transformer、Diffusion Model到Sora采用的DiT架构(TransformerDiffusion)等多个阶段,每个阶段的技术升级都在视频处理质量上带来了飞跃性的提升。这些技术进步不仅推动了AI视频生成领域的快速发展&…...

移情别恋c++ ദ്ദി˶ー̀֊ー́ ) ——1.c++入门(2)

1. 函数重载 C⽀持在同⼀作⽤域中出现同名函数&#xff0c;但是要求这些同名函数的形参不同&#xff0c;可以是参数个数不同或者 类型不同。这样C函数调⽤就表现出了多态⾏为&#xff0c;使⽤更灵活。C语⾔是不⽀持同⼀作⽤域中出现同 名函数的。 #include<iostream> u…...

【Python系列】深入理解 Python 中的 `nonlocal` 关键字

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...

Flask目录结构路由重定向简单实例讲解——轻量级的 Python Web 框架

假设一个flask目录结构如下&#xff1a; my_flask_app/ │ ├── app.py ├── routes/ │ ├── __init__.py │ ├── ZhejiangProvince/ │ │ ├── __init__.py │ │ ├── la.py │ │ └── el.py │ ├── GuangdongProvince/ │ │ ├…...

破解PyCharm插件更新难题:让IDE焕发新生

破解PyCharm插件更新难题&#xff1a;让IDE焕发新生 PyCharm作为业界领先的集成开发环境&#xff08;IDE&#xff09;&#xff0c;其丰富的插件生态是其强大功能的重要来源。然而&#xff0c;插件无法更新的问题可能会困扰许多用户&#xff0c;影响开发体验。本文将详细介绍如…...

cmake常用命令学习

1.include https://blog.csdn.net/qq_38410730/article/details/102677143 CmakeLists.txt才是cmake的正统文件&#xff0c;而.cmake文件是一个模块文件&#xff0c;可以被include到CMakeLists.txt中。 include指令一般用于语句的复用&#xff0c;也就是说&#xff0c;如果有…...

K8S可视化管理平台KubeSphere

什么是 KubeSphere &#xff1f; KubeSphere 是一款开源项目&#xff0c;在目前主流容器调度平台 Kubernetes 之上构建的企业级分布式多租户容器管理平台&#xff0c;提供简单易用的操作界面以及向导式操作方式&#xff0c;在降低用户使用容器调度平台学习成本的同时&#xff…...

Bugku-CTF-聪明的php

pass a parameter and maybe the flag files filename is random :> 传递一个参数&#xff0c;可能标记文件的文件名是随机的: 于是传一下参&#xff0c;在原网页后面加上/?a1,发现网页出现了变化 3.传入参数&#xff0c;一般情况下是文件包含&#xff0c;或者命令执行&…...

【MySQL进阶】MySQL主从复制

目录 MySQL主从复制 概念 主从形式 一主多从 多主一从 双主复制 主从级联复制 主从复制原理 三个线程 两个日志文件 主从复制的主要工作模式 异步复制 半同步复制 全同步复制 MySQL主从复制 概念 MySQL主从复制是一种数据分布机制&#xff0c;允许从一个数据库服…...

本地部署文生图模型 Flux

本地部署文生图模型 Flux 0. 引言1. 本地部署1-1. 创建虚拟环境1-2. 安装依赖模块1-3. 创建 Web UI1-4. 启动 Web UI1-5. 访问 Web UI 0. 引言 2024年8月1日&#xff0c;blackforestlabs.ai发布了 FLUX.1 模型套件。 FLUX.1 文本到图像模型套件&#xff0c;该套件定义了文本到…...

谷粒商城实战笔记-127-全文检索-ElasticSearch-整合-测试复杂检索

文章目录 一&#xff0c;使用Elasticsearch的Java RESTHighLevel Client完成复杂的查询请求1. 创建检索请求 (SearchRequest)2. 构造检索条件 (SearchSourceBuilder)3. 执行检索 (SearchResponse)4. 处理解析结果5. 获取聚合信息 二&#xff0c;AI时代的效率提升 一&#xff0c…...

解锁PyCharm:破解依赖库导入之谜

解锁PyCharm&#xff1a;破解依赖库导入之谜 PyCharm作为Python开发者的强大IDE&#xff0c;提供了丰富的功能来简化开发流程。然而&#xff0c;在使用过程中&#xff0c;开发者可能会遇到导入依赖库时出现的错误。本文将深入探讨PyCharm中导入依赖库报错的问题&#xff0c;并…...

JSON-Viewer插件:json格式查看器

npm install vue-json-viewer 2&#xff0c;main.js 引入 import JsonViewer from vue-json-viewer Vue.use(JsonViewer) 3&#xff0c;组件里写入这个组件 <json-viewer:value"textSecond":expand-depth"5"copyableboxedsort></json-viewer…...

HDFS块信息异常,spark无法读取数据

背景&#xff1a;flume数据落盘到hdfs上时&#xff0c;正在写入的文件一般是以.log.tmp结尾的文件&#xff0c;当flume将文件关闭以后将变为&#xff1a;.log 结尾的文件。由于我们使用阿里云的服务器&#xff0c;经常会有个别节点挂掉(进程在&#xff0c;无法通信&#xff0c;…...

TCP协议概述

TCP&#xff08;Transmission Control Protocol&#xff0c;传输控制协议&#xff09;是一种面向连接的、可靠的、基于字节流的传输层通信协议。它由IETF的RFC 793定义&#xff0c;并在各种通信系统中广泛应用&#xff0c;为不同但互连的计算机通信网络的主计算机中的成对进程之…...

SpringSecurity-3(认证和授权+SpringSecurity入门案例+自定义认证+数据库认证)

SpringSecurity使用数据库数据完成认证 5 SpringSecurity使用数据库数据完成认证5.1 认证流程分析5.1.1 UsernamePasswordAuthenticationFilter5.1.2 AuthenticationManager5.1.3 AbstractUserDetailsAuthenticationProvider5.1.4 AbstractUserDetailsAuthenticationProvider中…...

英国AI大学排名

计算机学科英国Top10 “计算机科学与信息系统”学科除了最受关注的“计算机科学”专业&#xff0c;还包括了“人工智能”“软件工程”“计算机金融”等众多分支专业。 1.帝国理工学院 Imperial College London 单以计算机专业本科来讲&#xff0c;仅Computing这个专业&#x…...

渗透测试与高级攻防技术(二)网络安全技术的前沿探讨:渗透测试与高级攻防

文章目录 引言 第一章&#xff1a;入侵检测与防御系统&#xff08;IDS/IPS&#xff09;1.1 IDS与IPS的区别1.2 Cisco IDS/IPS系统 第二章&#xff1a;蜜罐技术2.1 蜜罐技术概述2.2 搭建蜜罐系统2.3 蜜罐技术的优缺点 第三章&#xff1a;社会工程攻击3.1 社会工程攻击概述3.2 社…...

Windows系统下安装mujoco环境的教程【原创】

在学习Mujoco仿真的过程中&#xff0c;我先前是在linux系统下进行的研究与学习&#xff0c;今天来试试看在windows系统中安装mujoco仿真环境。 先前在linux中的一些关于mujoco学习记录的博客&#xff1a;Mujoco仿真【xml文件的学习 3】_mujoco打开xml文件-CSDN博客 下面开始wi…...

【秋招笔试】2024-08-03-科大讯飞秋招笔试题(算法岗)-三语言题解(CPP/Python/Java)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 💻 ACM金牌团队🏅️ | 多次AK大厂笔试 | 编程一对一辅导 ✨ 本系列打算持续跟新 秋招笔试题 👏 感谢大家的订阅➕ 和 喜欢💗 ✨ 笔试合集传送们 -> 🧷春秋招笔试合集 🍖 本次题目难度中等偏上,最后一题又是…...

2024华数杯数学建模竞赛选题建议+初步分析

提示&#xff1a;DS C君认为的难度&#xff1a;C<A<B&#xff0c;开放度&#xff1a;A<B<C。 综合评价来看 A题适合对机械臂和机器人运动学感兴趣的同学&#xff0c;尤其是有一定编程和优化算法基础的同学。不建议非相关专业同学选择。 B题挑战较大&#xff0…...

大模型的经典面试问题及答案

大语言模型&#xff08;LLM&#xff09;在人工智能中变得越来越重要&#xff0c;在各个行业都有应用。随着对大语言模型专业人才需求的增长&#xff0c;本文提供了一套全面的面试问题和答案&#xff0c;涵盖了基本概念、先进技术和实际应用。如果你正在为面试做准备&#xff0c…...

nodejs环境搭建

1.准备工作 将他解压到指定路径(我是在D:\tools)并在解压文件下建立node_global和node_cache这两个目录 注1:新建目录说明(自带的比较难找,较麻烦) node_global:npm全局安装位置 node_cache:npm缓存路径 如图: 2.配置环境变量 …...

C#基础:LINQ表达式的单独定义和编译使用

//编写表达式 Expression<Func<AlarmGroupInfo, bool>> express x > x.DataSource 1 && x.AlarmStatus2;// 编译表达式 Func<AlarmGroupInfo, bool> compiledExpression express.Compile();// 应用到 LINQ 查询 var resultlistss alarmgroupl…...

前端面试:八股文系列(一)

更多详情&#xff1a;爱米的前端小笔记&#xff08;csdn~xitujuejin~zhiHu~Baidu~小红shu&#xff09;同步更新&#xff0c;等你来看&#xff01;都是利用下班时间整理的&#xff0c;整理不易&#xff0c;大家多多&#x1f44d;&#x1f49b;➕&#x1f914;哦&#xff01;你们…...

设施农业“AutoML“时代:大模型自动调参,让农业算法模型更简单易用

&#xff08;于景鑫 北京市农林科学院智能装备技术研究中心&#xff09;设施农业是现代农业的重要发展方向,但在数字化、智能化的进程中仍面临诸多挑战。传统的农业算法模型虽然可以为设施农业提供一定的决策支持,但在实际应用中往往受限于参数调优复杂、模型泛化能力差等因素。…...

LinkedList接口源码解读

LinkedList 接口源码解读 前言 因为追求质量&#xff0c;所以写的较慢。大概在接下来的三天内会把LinkedList源码解析出完。已经出完啦&#xff01;废话不多说&#xff0c;正片开始&#xff01; &#xff08;文章最后面有后记哦~&#xff09; 大家都知道&#xff0c;LinkedL…...

nohup将代码放到后端运行查看nohup命令

tail -f nohup.outnohup python your_script.py > /path/to/your/directory/output.log 2>&1 &...

MacOS的100个超实用技巧

目录 1. 界面和导航 1.1 使用热角 1.2 多桌面切换 1.3 快速访问应用 1.4 隐藏/显示菜单栏 1.5 使用Mission Control 2. 文件管理 2.1 使用Finder标签 2.2 快速查看文件 2.3 标签式窗口管理 2.4 使用Smart Folders 2.5 文件重命名 3. 系统设置 3.1 自定义Dock 3.…...

本地调试指引文档

在开发组件库时&#xff0c;我们经常需要在真实的项目中测试组件库的功能&#xff0c;所以需要进行本地调试&#xff0c;本文介绍两种组件库本地调试流程&#xff0c; 1.使用beta版本 2.使用npm link 两种都可以作为本地调试的方案&#xff0c;本文作为一个参考资料&#xff0…...

河北邢台官方网站/百度免费下载安装

大部分的 PHP 变量只有一个单独的范围。这个单独的范围跨度同样包含了 include 和 require 引入的文件。PHP 的全局变量和 C 语言有一点点不同&#xff0c;在 C 语言中&#xff0c;全局变量在函数中自动生效&#xff0c;除非被局部变量覆盖。The global keyword首先&#xff0c…...

网站个人主页怎么做/百度seo培训要多少钱

第四章课后作业(6—27)6.试按下列要求分别编制程序段。(1)把标志寄存器中符号位SF置“1”。(2)寄存器AL中高、低四位互换。(3)由寄存器AX、BX组成一个32位带符号数(AX中存放高16位)&#xff0c;试求这个数的负数。(4)现有三个字节存储单元A、B、C&#xff0c;在不使用ADD和ADC指…...

品牌网球拍有哪些/宁波seo网络推广咨询价格

https://codeleading.com/article/2794704035/ 本文转自如上网址。 1.对于mysql数据库&#xff0c;driverurl中加入:allowMultiQueriestrue&rewriteBatchedStatementstrue; 这样在使用jdbctemplate插入的时候&#xff0c;类似: private void insertData(JdbcTemplate in…...

企业网站可以免费做吗/汕头网站建设平台

通过虚拟地址访问内存有以下优势&#xff1a; 1 程序可以使用一系列相邻的虚拟地址来访问物理内存中不相邻的大内存缓冲区。 2 程序可以使用一系列虚拟地址来访问大于可用物理内存的内存缓冲区。当物理内存的供应量变小时&#xff0c;内存管理器会将物理内存页&#xff08;通常…...

ASP.NET与网站开发实践教程/百度链接

3.3V升5V电流3A-5A同步整流升压芯片&#xff0c;2.7V到18V的输入电压支持供电系统和电池的较宽范围应用。FH30502根据负载情况的变化自动切换工作模式&#xff0c;在轻载Burst模式下静态电流处于低状态。FH30502使用自适应常数断开时间峰值电流模式控制。FH30502有一个内部特性…...

个人网站制作成品/昆明网站seo公司

1 前言本文以两道经典建模题为例, 进一步介绍 Gurobi 与 Python 的交互, 以及其在建模中的应用. 阅读本文前, 建议读者先配置好 Gurobi 环境, 并且对数学建模有一定的认识 (吹水, 不考虑绝对的严谨性)。本文也可作为建模小白的“入门指南”, 全文都是按照我的思维过程进行书写,…...