当前位置: 首页 > news >正文

创新性文生视频模型,南洋理工开源FreeInit

文本领域的ChatGPT,画图领域的Midjourney都展现出了大模型强大的一面,虽然视频领域有Gen-2这样的领导者,但现有的视频扩散模型在生成的效果中仍然存在时间一致性不足和不自然的动态效果。

南洋理工大学S实验室的研究人员发现,扩散模型训练和推理阶段初始噪声的频率分布不均匀,是导致生成视频质量下降的重要原因之一。因此,开发了创新性文生视频模型FreeInit。

FreeInit的核心技术概念是通过重新初始化噪声,来弥合训练和推理之间的差距。研究人员提出了一种创新性的推理采样策略,通过迭代地改进初始噪声的空时低频分量,从而提高时间的一致性。

为验证FreeInit的有效性,研究人员在多个文到视频生成模型上进行了大量实验,包括AnimateDiff、ModelScope和VideoCrafter等。结果显示,FreeInit可以使这些模型的时间一致性指标提高2.92—8.62。

开源地址:https://github.com/tianxingwu/freeinit

论文地址:https://arxiv.org/abs/2312.07537v1

图片

为了找出文生视频模型效果不佳的原因,研究人员通过对多个模型的信噪比进行检测,惊奇地发现,视频扩散模型的推理初始化噪声中,低频信息很难被完全移除

这与高斯白噪声初始化存在明显的分布差距。这种低频信息残留,可能就是导致生成视频效果的时间线,不连贯的主要原因。

为了验证这个想法,研究人员设计了一个创造性的测试实验:他们收集真实视频,使其经过扩散模型的正向推理,得到具有强相关性的噪声;然后再用这个噪声作为推理的初始化,继续生成视频。

结果发现,与高斯噪声相比,相关噪声生成的视频时间一致性和细节清晰度明显增强。这充分证明了低频信息对推理质量的关键影响,也证实了训练推理初始化的差距确实是重要原因

图片

而FreeInit的创新点在于,在模型推理的过程中可精炼低频信息,逐步弥合训练推理的差距,使初始化噪声分布逼近相关性更强的训练噪声,从而生成时间一致性更好的视频。

采样、扩散模块

FreeInit在推理的第一步,先初始化独立高斯噪声,然后通过经典的DDIM离散采样策略,采样生成初步的视频潜码。

通过利用扩散模型已有的去噪功能,从完全随机的噪声中采样出较为清晰的视频潜码。

图片

接着获取上一步生成视频潜码的带有时间相关性的噪声版本,将生成的视频潜码通过原始的高斯噪声进行正向扩散过程,使其重新含有低频时间相关信息。

这里需要复用DDIM采样中使用的高斯噪声,避免引入过多额外随机性。最终得到低频信息较丰富的噪声潜码。

噪声重新初始化

将得到的含低频相关性噪声与新的高斯噪声高频部分结合,得到重新初始化的噪声,并为下一轮采样的初始提供输入。

这里采用频域分解的方式:先通过3D FFT变换噪声潜码到频域,然后与新的高斯噪声通过低通滤波器和高通滤波器分别提取低频和高频部分后拼接。该模块在保留低频信息的同时,也为高频部分引入额外灵活性。

图片

将上述多个模块进行联合、重组,便形成了一次完整的采样优化过程。研究者表示,进行多次重复迭代,可以进一步累积提升低频信息质量,逐步弥合训练和推理的初始化差距,最终让生成视频质量不断改善,时间一致性也越来越好。

本文素材来源FreeInit论文,如有侵权请联系删除

END

相关文章:

创新性文生视频模型,南洋理工开源FreeInit

文本领域的ChatGPT,画图领域的Midjourney都展现出了大模型强大的一面,虽然视频领域有Gen-2这样的领导者,但现有的视频扩散模型在生成的效果中仍然存在时间一致性不足和不自然的动态效果。 南洋理工大学S实验室的研究人员发现,扩散…...

linux的页缓存page cache

目录 如何查看系统的 Page Cache? 为什么 Linux 不把 Page Cache 称为 block cache? Page Cache 的优劣势 Page Cache 的优势 加快数据访问 减少 IO 次数,提高系统磁盘 I/O 吞吐量 Page Cache 的劣势 由于我们开发的程序要运行的话一般…...

数字IC后端实现之Innovus TA-152错误解析(分频generated clock定义错误)

**ERROR: (TA-152): A latency path from the ‘Fall’ edge of the master clock at source pin… Error Code TA-152 在数字IC后端实现innovus中我们经常会看到这类Error,具体信息如下所示。 Error Message **ERROR: (TA-152): A latency path from the ‘Fa…...

虹科方案丨从困境到突破:TigoLeap方案引领数据采集与优化变革

来源:虹科工业智能互联 虹科方案丨从困境到突破:TigoLeap方案引领数据采集与优化变革 原文链接:https://mp.weixin.qq.com/s/H3pd5G8coBvyTwASNS_CFA 欢迎关注虹科,为您提供最新资讯! 导读 在数字化工厂和智能制造时…...

自检服务器,无需服务器、不用编程。

自检服务器,无需服务器、不用编程。 大家好,我是JavaPub. 这几年自媒体原来热,很多人都知道了个人 IP 的重要性。连一个搞中医的朋友都要要做一个自己的网站,而且不想学编程、还不想花 RMB 租云服务。 老读者都知道&#xff0c…...

Java并行流parallelStream()下InheritableThreadLocal引起的问题

Java并行流parallelStream()下InheritableThreadLocal引起的问题 引起问题的代码。 List orgs00 Arrays.asList(new Org("aaa"),new Org("bbb"),new Org("aa0"));List orgs orgs00.parallelStream() .map(org -> {// 模拟从数据库中获取 …...

【C++期末编程题题库】代码+详解18道

适合期末复习c看,或者刚入门c的小白看,有的题会补充知识点,期末复习题的代码一般比较简单,所以语法上没那么严谨。本文所有题目要求全在代码块的最上面。 目录 1、设计复数类 2、设计Computer类 3、实现相加的函数模板 4、圆类…...

一种DevOpts的实现方式:基于gitlab的CICD(一)

写在之前 笔者最近准备开始入坑CNCF毕业的开源项目,看到其中有一组开源项目的分类就是DevOpts。这个领域内比较出名的项目是Argocd,Argo CD 是一个用于 Kubernetes 的持续交付 (Continuous Delivery) 工具,它以声明式的方式实现了应用程序的…...

nodejs和vuejs的区别

一、vue项目开发中,两个经常混合使用。 不同: 1、概念不同: 一个是前端框架,一个是服务端语言。 Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境。 Node.js 使用了一个事件驱动、非阻塞式 I/O 的模型,使…...

16、Kubernetes核心技术 - 节点选择器、亲和和反亲和

目录 一、概述 二、节点名称 - nodeName 二、节点选择器 - nodeSelector 三、节点亲和性和反亲和性 3.1、亲和性和反亲和性 3.2、节点硬亲和性 3.3、节点软亲和性 3.4、节点反亲和性 3.5、注意点 四、Pod亲和性和反亲和性 4.1、亲和性和反亲和性 4.2、Pod亲和性/反…...

面试算法96:字符串交织

题目 输入3个字符串s1、s2和s3,请判断字符串s3能不能由字符串s1和s2交织而成,即字符串s3的所有字符都是字符串s1或s2中的字符,字符串s1和s2中的字符都将出现在字符串s3中且相对位置不变。例如,字符串"aadbbcbcac"可以由…...

什么是Vue.js的响应式系统(reactivity system)?如何实现数据的双向绑定?

Vue.js的响应式系统是指一种能够跟踪数据变化并实时更新相关界面的机制。它是Vue.js框架的核心特性之一。 在Vue.js中,你可以使用数据绑定语法将数据绑定到DOM元素上。当绑定的数据发生变化时,Vue.js会自动监听这些变化并更新相关的DOM元素。 Vue.js实…...

力扣labuladong一刷day52天LRU算法

力扣labuladong一刷day52天LRU算法 文章目录 力扣labuladong一刷day52天LRU算法概念一、146. LRU 缓存思路一:使用双向链表加map来手动实现。思路二:使用LinkedHashMap 概念 LRU的全称为Least Recently Used,翻译出来就是最近最少使用的意思…...

CCNP课程实验-06-EIGRP-Trouble-Shooting

目录 实验条件网络拓朴 环境配置开始排错错误1:没有配置IP地址,IP地址宣告有误错误2:R3配置了与R1不同的K值报错了。错误3:R4上的AS号配置错,不是1234错误4:R2上配置的Key-chain的R4上配置的Key-chain不一致…...

判断完全数-第11届蓝桥杯省赛Python真题精选

[导读]:超平老师的Scratch蓝桥杯真题解读系列在推出之后,受到了广大老师和家长的好评,非常感谢各位的认可和厚爱。作为回馈,超平老师计划推出《Python蓝桥杯真题解析100讲》,这是解读系列的第27讲。 判断完全数&#…...

【Bootstrap5学习 day12】

Bootstrap5 导航 Bootstrap5提供了一种简单快捷的方法来创建基本导航,它提供了非常灵活和优雅的选项卡和Pills等组件。Bootstrap5的所有导航组件,包括选项卡和Pillss,都通过基本的.nav类共享相同的基本标记和样式。 创建基本导航 要创建简单…...

算法训练第五十九天|503. 下一个更大元素 II、42. 接雨水

503. 下一个更大元素 II: 题目链接 给定一个循环数组 nums ( nums[nums.length - 1] 的下一个元素是 nums[0] ),返回 nums 中每个元素的 下一个更大元素 。 数字 x 的 下一个更大的元素 是按数组遍历顺序,这个数字之…...

mysql之数据类型、建表以及约束

目录 一. CRUD 1.1 什么是crud 1.2 select(查询) 1.3 INSERT(新增) 1.4 UPDATE(修改) 1.5 DELETE(删除) 二. 函数 2.1 常见函数 2.2 流程控制函数 2.3聚合函数 三. union与union all 3.1 union 3.2 union all 3.3 具体不同 3.4 结论 四、思维导图 一. CRUD 1.1…...

复试 || 就业day04(2024.01.05)项目一

文章目录 前言线性回归房价预测加载数据数据查看数据拆分数据建模模型的验证、应用模型的评估 总结 前言 💫你好,我是辰chen,本文旨在准备考研复试或就业 💫本文内容来自某机构网课,是我为复试准备的第一个项目 &#…...

华为机试真题实战应用【赛题代码篇】-最小传输时延(附python、C++和JAVA代码实现)

目录 问题描述 输入描述: 输出描述: 知识储备 解题思路 思路一...

C++ 运算符重载

&#xff08;Operator&#xff09; 加分 减法 []的重载 #include <iostream> using namespace std;class time1 {public:time1(){shi0;fen0;miao0;}time1(int shi, int fen, int miao){this->shi shi;this->fen fen;this->miao miao;}time1 operator (ti…...

vue3学习 【2】vite起步和开发工具基本配置

vite的简介 官方文档 刚起步学习&#xff0c;所以我们只需要按照官方文档的入门流程即可。推荐阅读一下官网的为什么使用vite vite目前需要的node版本是18&#xff0c;可以参考上一篇文章的安装nvm&#xff0c;用来进行多版本的node管理。 vite安装与使用 npm create vitela…...

计算机创新协会冬令营——暴力枚举题目06

我给大家第一阶段的最后一道题就到这里了&#xff0c;下次得过段时间了。所以这道题简单一点。但是足够经典 下述题目描述和示例均来自力扣&#xff1a;两数之和 题目描述 给定一个整数数组 nums 和一个整数目标值 target&#xff0c;请你在该数组中找出 和为目标值 target …...

单片机快速入门

参考连接&#xff1a; 安装MinGW-64&#xff08;在win10上搭建C/C开发环境&#xff09;https://zhuanlan.zhihu.com/p/85429160MinGW-64; 链接&#xff1a;https://pan.baidu.com/s/1oE1FmjyK7aJPnDC8vASmCg?pwdy1mz 提取码&#xff1a;y1mz --来自百度网盘超级会员V7的分享C…...

Eureka相关问题及答案(2024)

1、什么是Eureka&#xff1f; Eureka是一个由Netflix开发的服务发现&#xff08;Service Discovery&#xff09;工具&#xff0c;它是Spring Cloud生态系统中的一个关键组件。服务发现是微服务架构中的一个重要概念&#xff0c;它允许服务实例在启动时注册自己&#xff0c;以便…...

Django 7 实现Web便签

一、效果图 二、会用到的知识 目录结构与URL路由注册request与response对象模板基础与模板继承ORM查询后台管理 三、实现步骤 1. terminal 输入 django-admin startapp the_10回车 2. 注册&#xff0c; 在 tutorial子文件夹settings.py INSTALLED_APPS 中括号添加 "the…...

Jenkins集成部署java项目

文章目录 Jenkins简介安装 Jenkins简介 Jenkins能实时监控集成中存在的错误&#xff0c;提供详细的日志文件和提醒功能&#xff0c;还能用图表的形式形象的展示项目构建的趋势和稳定性。 官网 安装 在官网下载windows版本的Jenkins 但是我点击这里浏览器没有反应&#xff0…...

FFmpeg之——获取上传视频的尺寸(长、宽)

获取上传视频的尺寸&#xff1a; 获取视频尺寸通常需要借助第三方库FFmpeg。 首先&#xff0c;确保你的系统中已安装了FFmpeg&#xff0c;并且FFmpeg的可执行文件路径已经添加到你的系统环境变量中。 1.官网下载ffmpeg 进入 链接: ffmpeg官网 网址&#xff0c;点击下载wind…...

Ajax学习

文章目录 AjaxAjax 是什么Ajax 经典应用场景Ajax 原理示意图ajax的异步请求的方法ajax的逻辑:应用实例-验证用户名是否存在思路框架图:需求分析: 到数据库去验证用户名是否可用思路框架图大功告成:使用JQuery-Ajax实现上面相同的需求:Ajax Ajax 是什么 AJAX 即"Async…...

排序算法——关于快速排序的详解

目录 1.基本思想 2.基本原理 2.1划分思想 2.2排序过程 &#xff08;1&#xff09;选择基准值 &#xff08;2&#xff09;分割过程&#xff08;Partition&#xff09; &#xff08;3&#xff09;递归排序 &#xff08;4&#xff09;合并过程 2.3具体实例 2.4实现代码 2.5关键要…...

php mysql做网站登录/营销软件网站

网上看到好多朋友都通过了软考&#xff0c;我也好想参加软考&#xff0c;听说这个证含金量挺高的&#xff0c;加油,打算下半年参加考试&#xff0c;现在赶紧的看书哦&#xff0c;下面是希赛的考试资料网站&#xff0c;有时间上来多学习了&#xff0c;也希望参加过和准备参加的朋…...

职教集团网站建设方案/一键优化清理

这些都是css控制的&#xff0c;然后我们看下样式&#xff1a;分别选择为&#xff1a;奇数行、偶数列、第五行&#xff1a; table tr:nth-child(odd){background:#F4F4F4;}table td:nth-child(even){color:#C00;}table tr:nth-child(5){background:#73B1E0;color:#FFF;}转载于:h…...

做文章网站/网络推广怎么推广

ACL权限查看分区ACL权限是否开启# 查询指定分区详细文件系统信息dump2fs -h /dev/sda5选项&#xff1a;-h 仅显示超级块中信息&#xff0c;而不显示磁盘快组的详细信息结果中的Default mount options中有acl表示开启了ACL注意dumpe2fs只能查看ext的文件系统临时开启分区ACL权限…...

editplus怎么创网站/杭州网站优化体验

adlist是Redis中的双向链表。 双向链表的数据结构&#xff0c;和遍历算法有很多资料可以查到&#xff0c;这里不对其中的算法细节详细描述。 主要关注的是Redis利用双向链表结构&#xff0c;实现了什么样的精妙设计。 节点的数据结构 adlist首先是个链表&#xff0c;链表中…...

python如何安装wordpress/手机百度app安装下载

在做web项目开发中&#xff0c;尤其是企业级应用开发的时候&#xff0c;往往会在工程启动的时候做许多的前置检查或者去执行某些方法。而在Spring的web项目中&#xff0c;可以介入Spring的启动过程。在Spring容器将所有的Bean都初始化完成之后&#xff0c;做一些操作&#xff0…...

成立公司注册资金可以随便写吗/百度seo新规则

内容出自极客时间专栏《Linux 性能优化实战》 CPU 的性能指标那么多&#xff0c;CPU 性能分析工具一抓一大把&#xff0c;换成实际的工作场景&#xff0c;该观察什么指标、选择哪个性能工具呢&#xff1f; 不要担心&#xff0c;今天我就以多年的性能优化经验&#xff0c;为你总…...