当前位置: 首页 > news >正文

阿里发布新开源视频生成模型Wan-Video,支持文生图和图生图,最低6G就能跑,ComFyUI可用!

Wan-Video 模型介绍:包括 Wan-Video-1.3B-T2V 和 Wan-Video-14B-T2V 两个版本,分别支持文本到视频(T2V)和图像到视频(I2V)生成。14B 版本需要更高的 VRAM 配置。

Wan2.1 是一套全面开放的视频基础模型,旨在突破视频生成的界限。Wan2.1 具有以下几个关键特性:

  • SOTA 性能:Wan2.1 在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。

  • 支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,可兼容几乎所有消费级 GPU。它可在约 4 分钟内用 RTX 4090 生成一段 5 秒的 480P 视频(未使用量化等优化技术),性能甚至可与一些闭源型号相媲美。

  • 多任务:Wan2.1 在文本转视频、图像转视频、视频编辑、文本转图像、视频转音频方面表现出色,推动了视频生成领域的发展。

  • 视觉文本生成:Wan2.1是第一个能够生成中英文文本的视频模型,具有强大的文本生成功能,可增强其实际应用。

  • 强大的视频 VAE:Wan-VAE 提供卓越的效率和性能,可对任意长度的 1080P 视频进行编码和解码,同时保留时间信息,使其成为视频和图像生成的理想基础。

相关链接

  • 推理链接:https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/wanvideo?continueFlag=79104c0ee2c31191b38f9b2c59a528d9

  • 模型链接:https://huggingface.co/Wan-AI?continueFlag=79104c0ee2c31191b38f9b2c59a528d9

  • comfyui:https://github.com/kijai/ComfyUI-WanVideoWrapper?continueFlag=79104c0ee2c31191b38f9b2c59a528d9

  • 官网:https://wan.video/welcome?spm=a2ty_o02.30011076.0.0.118ce41e6cpA82

介绍

Wan2.1-I2V-14B

I2V-14B 模型的表现超越了领先的闭源模型以及所有现有的开源模型,达到了 SOTA 性能。它能够根据输入的文本和图像生成展示复杂视觉场景和运动模式的视频,包括 480P 和 720P 分辨率的模型。

Wan2.1-T2V-14B

T2V-14B 模型在开源和闭源模型中创下了 SOTA 性能新高,展现出其能够生成具有大量运动动态的高质量视觉效果的能力。它还是唯一能够同时生成中英文文本的视频模型,并支持 480P 和 720P 分辨率的视频生成。

Wan2.1-T2V-1.3B

T2V-1.3B 模型支持在几乎所有消费级 GPU 上生成视频,仅需 8.19 GB BRAM 即可生成 5 秒的 480P 视频,在 RTX 4090 GPU 上输出时间仅为 4 分钟。通过预训练和蒸馏过程,它超越了更大的开源模型,甚至达到了与一些先进的闭源模型相当的性能。

Wan2.1 以主流的扩散变换器范式为基础,通过一系列创新显著提升了生成能力,包括我们新颖的时空变分自动编码器 (VAE)、可扩展的预训练策略、大规模数据构建和自动化评估指标。这些贡献共同提升了模型的性能和多功能性。

3D 变分自动编码器

我们提出了一种专为视频生成而设计的新型 3D 因果 VAE 架构。我们结合了多种策略来改善时空压缩、减少内存使用并确保时间因果关系。这些增强功能不仅使我们的 VAE 更高效、更可扩展,而且更适合与 DiT 等基于扩散的生成模型集成。

为了高效支持任意长视频的编码和解码,我们在 3D VAE 的因果卷积模块中实现了特征缓存机制。具体来说,视频序列帧数遵循 1 + T 输入格式,因此我们将视频分成 1 + T/4 个块,与潜在特征的数量一致。在处理输入视频序列时,该模型采用逐块策略,其中每个编码和解码操作仅处理与单个潜在表示相对应的视频块。基于时间压缩比,每个处理块中的帧数最多限制为 4,从而有效防止 GPU 内存溢出。 实验结果表明,我们的视频 VAE 在两个指标上都表现出了极具竞争力的性能,展现了卓越视频质量和高处理效率的双重优势。值得注意的是,在相同的硬件环境(即单个 A800 GPU)下,我们的 VAE 的重建速度比现有的 SOTA 方法(即 HunYuanVideo)快 2.5 倍。由于我们的 VAE 模型的小尺寸设计和特征缓存机制,这种速度优势将在更高分辨率下得到进一步体现。

视频传播 DiT

Wan2.1 采用主流 Diffusion Transformers 范式中的 Flow Matching 框架进行设计。在我们的模型架构中,我们利用 T5 Encoder 对输入的多语言文本进行编码,并在每个 Transformer 块内加入交叉注意力机制,将文本嵌入到模型结构中。此外,我们还使用 Linear 层和 SiLU 层来处理输入的时间嵌入,并分别预测六个调制参数。此 MLP 在所有 Transformer 块之间共享,每个块都学习一组不同的偏差。我们的实验结果表明,在相同的参数规模下,这种方法可以显著提高性能。因此,我们在 1.3B 和 14B 模型中都实现了此架构。

模型扩展和训练效率

在训练过程中,我们使用 FSDP 进行模型分片,当与上下文并行 (CP) 结合时,FSDP 组和 CP 组相交,而不是形成模型并行 (MP) 和 CP/DP 的嵌套组合。在 FSDP 中,DP 大小等于 FSDP 大小除以 CP 大小。在满足内存和单批次延迟要求后,我们使用 DP 进行扩展。

在Inference过程中,为了降低扩展到多GPU时生成单个视频的延迟,需要选择Context Parallel进行分布式加速。另外当模型很大时,需要进行模型分片。

  • 模型分片策略:对于 14B 这样的大型模型,必须考虑模型分片。考虑到序列长度通常很长,FSDP 与 TP 相比通信开销较小,并且允许计算重叠。因此,我们选择 FSDP 方法进行模型分片,与我们的训练方法一致(注意:仅分片权重而不实现数据并行)。

  • 上下文并行策略:采用与训练时相同的 2D 上下文并行方法:对外层(机器间)采用 RingAttention,对内层(机器内)采用 Ulysses。 在万14B大模型上,采用2D Context Parallel和FSDP并行策略,DiT实现了接近线性的加速比,如下图所示。

下表中我们测试了不同Wan2.1模型在不同GPU上的计算效率,结果以总时间(s)/峰值GPU内存(GB)的格式呈现。

图像转视频

图像到视频 (I2V) 任务旨在根据输入提示将给定图像动画化为视频,从而增强视频生成的可控性。我们引入额外的条件图像作为第一帧来控制视频合成。具体而言,条件图像沿时间轴与零填充帧连接,形成指导帧。然后,这些指导帧由 3D 变分自动编码器 (VAE) 压缩为条件潜在表示。此外,我们引入了一个二元掩码,其中 1 表示保留的帧,0 表示需要生成的帧。掩码的空间大小与条件潜在表示匹配,但掩码与目标视频共享相同的时间长度。然后,将此掩码重新排列为与 VAE 的时间步幅相对应的特定形状。噪声潜在表示、条件潜在表示和重新排列的掩码沿通道轴连接并传递通过提出的 DiT 模型。由于 I2V DiT 模型的输入通道比文本转视频 (T2V) 模型多,因此使用了额外的投影层,并用零值初始化。此外,我们使用 CLIP 图像编码器从条件图像中提取特征表示。这些提取的特征由三层多层感知器 (MLP) 投影,用作全局上下文。然后通过解耦交叉注意力将此全局上下文注入 DiT 模型。

数据

我们整理并去重了一个包含大量图像和视频数据的候选数据集。在数据整理过程中,我们设计了一个四步数据清理流程,重点关注基本维度、视觉质量和运动质量。通过强大的数据处理流程,我们可以轻松获得高质量、多样化、大规模的图像和视频训练集。

与 SOTA 的比较

为了评估 Wan2.1 的性能,我们将 Wan2.1 与领先的开源和闭源模型进行了比较。我们使用精心设计的 1,035 个内部提示集进行测试,这些提示集涵盖了 14 个主要维度和 26 个子维度,涵盖了运动质量、视觉质量、风格和多目标等方面。最终,我们根据每个维度的重要性通过加权平均计算总分。详细结果如下表所示。从这些结果可以看出,我们的模型在与闭源和开源模型的全面比较中取得了最佳性能。

相关文章:

阿里发布新开源视频生成模型Wan-Video,支持文生图和图生图,最低6G就能跑,ComFyUI可用!

Wan-Video 模型介绍:包括 Wan-Video-1.3B-T2V 和 Wan-Video-14B-T2V 两个版本,分别支持文本到视频(T2V)和图像到视频(I2V)生成。14B 版本需要更高的 VRAM 配置。 Wan2.1 是一套全面开放的视频基础模型&…...

27. Harmonyos Next仿uv-ui 组件NumberBox 步进器组件禁用状态

温馨提示:本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦! 文章目录 1. 组件介绍2. 效果展示3. 禁用状态设置3.1 整体禁用3.2 输入框禁用3.3 长按禁用 4. 完整示例代码5. 知识点讲解5.1 禁用状态属性5.2 禁用…...

【软件工程】一篇入门UML建模图(状态图、活动图、构件图、部署图)

🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀软件开发必练内功_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 前…...

AI智能导航站HTML5自适应源码帝国cms7.5模板

源码名称:AI导航站HTML5自适应源码帝国cms7.5模板 开发环境:帝国cms 7.5 安装环境:phpmysql var code "4d33ef8e-9e38-43b9-b37b-38f75944ecc9" 带软件采集,可以挂着自动采集发布,无需人工操作&#xff0…...

Redis 发布订阅模式详解:实现高效的消息通信

目录 引言 1. 什么是 Redis 发布订阅模式? 1.1 定义 1.2 核心概念 2. Redis 发布订阅的工作原理 2.1 基本流程 2.2 示例 2.3 频道与模式订阅 3. Redis 发布订阅的使用场景 3.1 实时消息通知 3.2 事件驱动架构 3.3 日志收集与分发 3.4 分布式锁与协调 4…...

ES的预置分词器

Elasticsearch(简称 ES)提供了多种预置的分词器(Analyzer),用于对文本进行分词处理。分词器通常由字符过滤器(Character Filters)、分词器(Tokenizer)和词元过滤器&#…...

MPPT与PWM充电原理及区别详解

MPPT(最大功率点跟踪)和PWM(脉宽调制)是太阳能充电控制器中常用的两种技术,它们在原理、效率和适用场景上有显著区别。以下是两者的详细对比: 1. 工作原理 PWM(脉宽调制) 核心机制…...

【AGI】通往AGI的复兴号:模型工具演进与技术路径优化

通往AGI的复兴号:模型工具演进与技术路径优化 一、核心模型与工具技术指标及场景分析1. 边缘计算标杆:GLM-PC(2024年11月)2. 长文本处理王者:DeepSeek R1(2025年1月)3. 轻量化开源代表&#xff…...

java2025年常见设计模式面试题

1. 请解释建造者模式(Builder Pattern)及其应用场景。 答案: 建造者模式用于创建一个复杂的对象,同时允许用户只通过指定复杂对象的类型和内容就能构建它们,隐藏了复杂的构建逻辑。 示例: public class C…...

探索CAMEL:揭开多智能体系统的神秘面纱

在人工智能领域,多智能体系统(Multi-Agent Systems, MAS)一直是一个充满活力和潜力的研究方向。随着大语言模型(LLM)的快速发展,智能体之间的协作与交互变得更加复杂和智能。今天,我们要介绍的是一个名为CAMEL(Communicative Agents for “Mind” Exploration of Large…...

el-pagination的使用说明

<el-paginationv-model:current-page"pageNo" //当前第几页v-model:page-size"pageSize" //每页显示多少条数据:page-sizes"[10, 20, 30]" //控制每页显示的条数:small"true" //控制分页器大小:disabled&quo…...

UniApp 运行的微信小程序如何进行深度优化

UniApp 运行的微信小程序如何进行深度优化 目录 引言性能优化 1. 减少包体积2. 优化页面加载速度3. 减少 setData 调用4. 使用分包加载 代码优化 1. 减少不必要的代码2. 使用条件编译3. 优化图片资源 用户体验优化 1. 优化交互体验2. 预加载数据3. 使用骨架屏 调试与监控 1. …...

Web Worker如何在本地使用

首先了解一下什么是Web Worker Web Worker 是一种在后台线程中运行 JavaScript 的机制&#xff0c;允许你在不阻塞主线程的情况下执行耗时的任务。这对于保持网页的响应性和流畅性非常重要&#xff0c;特别是在需要进行复杂计算或大量数据处理时。 主要特点 多线程&#xff1…...

[原创](Modern C++)现代C++的关键性概念: 改掉new习惯, 尽情地使用智能分配内存

[作者] 常用网名: 猪头三 出生日期: 1981.XX.XX 企鹅交流: 643439947 个人网站: 80x86汇编小站 编程生涯: 2001年~至今[共24年] 职业生涯: 22年 开发语言: C/C、80x86ASM、Object Pascal、Objective-C、C#、R、Python、PHP、Perl、 开发工具: Visual Studio、Delphi、XCode、C …...

C/C++中使用CopyFile、CopyFileEx原理、用法、区别及分别在哪些场景使用

文章目录 1. CopyFile原理函数原型返回值用法示例适用场景 2. CopyFileEx原理函数原型返回值用法示例适用场景 3. 核心区别4. 选择建议5. 常见问题6.区别 在Windows系统编程中&#xff0c;CopyFile和CopyFileEx是用于文件复制的两个API函数。它们的核心区别在于功能扩展性和控制…...

android studio开发文档

android基本样式 1.文本 2.设置文本大小 3.字体颜色 背景 资源文件 xml’引用资源文件 4.视图宽高 5.间距 6.对齐方式 常用布局 1.linearLayout线性布局 2.相对布局 RelativeLayout 3.网格布局GridLayout 4.scrollview滚动视图 Button 点击事件与长按事件 长按 按钮禁用与…...

计算机网络笔记(二)——1.2互联网概述

1.2.1网络的网络 起源于美国的互联网现已发展成为世界上最大的覆盖全球的计算机网络。 下面&#xff0c;我们先来看看关于网络、互连网、互联网(因特网)的一些基本概念。为了方便&#xff0c;后面我们所称呼的"网络"往往就是"计算机网络",而不是电信网或有…...

Ubuntu 24.04.2 允许 root 登录桌面、 ssh 远程、允许 Ubuntu 客户机与主机拖拽传递文件

允许 root 登录桌面 修改 /etc/pam.d/gdm-autologin , /etc/pam.d/gdm-password 加 # 以注释掉 auth required pam_succeed_if.so user ! root quiet_success 允许 root 通过 ssh 登录 修改 /etc/ssh/sshd_config ... #PermitRootLogin prohibit-password PermitRootLogin …...

day18-后端Web开发——Maven高级

目录 Maven高级1. 分模块设计与开发1.1 介绍1.2 实践1.2.1 分析1.2.2 实现 1.3 总结 2. 继承与聚合2.1 继承2.1.1 继承关系2.1.1.1 思路分析2.1.1.2 实现2.1.2 版本锁定2.1.2.1 场景2.1.2.2 介绍2.1.2.3 实现2.1.2.4 属性配置 2.2 聚合2.2.1 介绍2.2.2 实现 2.3 继承与聚合对比…...

华为hcia——Datacom实验指南——三层交换和ARP的工作原理

什么是三层交换 三层交换是指连接在同一台三层交换机上&#xff0c;不同vlan用户&#xff0c;不同网段ip&#xff0c;通过vlanif接口进行数据交换。 什么是ARP协议 通过网络层的ip地址解析成数据链路层的mac地址。 说白了就是通过目标ip地址去问他对应的mac地址是多少。 A…...

重构谷粒商城09:人人开源框架的快速入门

谷粒商城09——人人开源框架的快速入门 前言&#xff1a;这个系列将使用最前沿的cursor作为辅助编程工具&#xff0c;来快速开发一些基础的编程项目。目的是为了在真实项目中&#xff0c;帮助初级程序员快速进阶&#xff0c;以最快的速度&#xff0c;效率&#xff0c;快速进阶…...

用友 U8出入库查询SQL 连接UNION ALL

-- 销售出库单查询 SELECT 销售出库单 AS 单据类型, a.cCode AS 单号, a.dDate AS 日期, a.cMaker AS 制单人, a.cHandler AS 审核人, a.dVeriDate AS 审核日期, b.cInvCode AS 存货编码, b.iQuantity AS 数量, b.cBatch AS 批号, c.…...

【大模型】WPS 接入 DeepSeek-R1详解,打造全能AI办公助手

目录 一、前言 二、WPS接入AI工具优势​​​​​​​ 三、WPS接入AI工具两种方式 3.1 手动配置的方式 3.2 Office AI助手 四、WPS手动配置方式接入AI大模型 4.1 安装VBA插件 4.1.1 下载VBA插件并安装 4.2 配置WPS 4.3 WPS集成VB 4.4 AI助手效果测试 4.5 配置模板文…...

Neo4j 数据库备份

将包括系统数据库在内的所有数据库的最近备份存储在一个安全的位置是非常重要的。这确保了在发生数据丢失或损坏时&#xff0c;能够迅速恢复数据库到最近的状态&#xff0c;减少可能的业务影响。对于不同的数据库环境&#xff08;开发、测试或生产&#xff09;&#xff0c;根据…...

配置 Thunderbird 以使用 QQ 邮箱

配置 Thunderbird 以使用 QQ 邮箱 本片文章的操作系统为 windws 10 &#xff0c;thunder bird 客户端版本为 128.7.1esr(64位)。注意到其他文章的图片中 thunder bird 的 ui 界面和我这个不一样&#xff0c;导致看起来不太方便&#xff0c;所以这里写一篇博客。不同版本的 thu…...

Hadoop安装文件解压报错:无法创建符号链接。。。

您可能需要管理员身份运行winRAR; 客户端没有所需的特权&#xff1b; cmd进入该目录下&#xff0c;输入命令(本地解压)&#xff1a;start winrar x -y hadoop-2.10.1.tar.gz...

C++蓝桥杯皮亚诺曲线距离求解

C蓝桥杯皮亚诺曲线距离求解 一、题目概述二、解题分析2.1解题思路2.2k值范围限制 三、实现代码四、代码测试4.1蓝桥杯测试平台4.2直接传入原始输入的k值4.3限制k值大小4.4pow函数求整数高次幂存在误差4.5满分代码 附录error: ‘long long int y1’ redeclared as different kin…...

【语料数据爬虫】Python爬虫|批量采集工作报告数据(1)

前言 本文是该专栏的第4篇,后面会持续分享Python爬虫采集各种语料数据的的干货知识,值得关注。 在本文中,笔者将主要来介绍基于Python,来实现批量采集“工作报告”数据。同时,本文也是采集“工作报告”数据系列的第1篇。 采集相关数据的具体细节部分以及详细思路逻辑,笔…...

【音视频】ffmpeg命令提取像素格式

1、提取YUV数据 提取yuv数据&#xff0c;并保持分辨率与原视频一致 使用-pix_fmt或-pixel_format指定yuv格式提取数据&#xff0c;并保持原来的分辨率 ffmpeg -i music.mp4 -t "01:00" -pixel_format yuv420p music.yuv提取成功后&#xff0c;可以使用ffplay指定y…...

6-langchang多模态输入和自定义输出

6-langchang多模态输入和自定义输出 多模态数据输入urlbase64url list工具调用自定义输出: JSON, XML, YAML如何解析 JSON 输出json如何解析xmlYAML解析器多模态数据输入 这里我们演示如何将多模态输入直接传递给模型。我们目前期望所有输入都以与OpenAI 期望的格式相同的格式…...