当前位置：首页 > news >正文

【大模型系列】Video-LaVIT(2024.06)

news 2026/2/8 7:51:57

在这里插入图片描述

Paper：https://arxiv.org/abs/2402.03161
Github：https://video-lavit.github.io/
Title：Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
Author：Yang Jin，北大，快手

文章目录

1 Video-LaViT总结(省流版)
- 1.1 Video-LaViT是什么？
- 1.2 Video-LaViT能干什么?
- - 1.2.1 图像/视频问答
  - 1.2.2 文生图
  - 1.2.3 文生视频
  - 1.2.4 图生视频
2 Motivation
3 Method
- 3.1 关键帧与运动信息的获取与motion encoder
- 3.2 video detokenizer
4 训练细节
参考资料

1 Video-LaViT总结(省流版)

1.1 Video-LaViT是什么？

Video-LaViT是LaViT这篇工作的拓展，详见上一篇博客【大模型系列】Language-Vision Transformer(LaVIT, ICLR2024)
，作者同样来自于北大和快手。思路与LaViT类似，通过将视频分解为交替的关键帧和运动向量，关键帧采用LaViT中的Image tokenizer，运动向量则设计了一个Motion tokenizer来进行编码。然后通过[IMG]、[/IMG]和[MOV]、[/MOV]来区分。

1.2 Video-LaViT能干什么?

1.2.1 图像/视频问答

Video-LaViT可以理解图像和视频内容，并根据问题给出答案。
在这里插入图片描述

1.2.2 文生图

根据给定文本，生成对应的图片，毕竟基于LaViT开发的。
在这里插入图片描述

1.2.3 文生视频

根据给定文本，生成对应的视频。


"Sailboat sailing on a sunny day in a mountain lake"	"A steaming cup of coffee with mountains in the background. Resting during road trip"

1.2.4 图生视频

根据给定图片，生成对应的视频。

2 Motivation

当前一些video tokenization工作的总结：

流行的方式是先将原始视频下采样为一系列的frames，再使用ViT-encoder进行处理，这种方式忽略了帧之间的时间动态信息。
VideoPoet(2023)：3D video tokenizer，使用long token sequence，导致只能处理短视频，长视频资源消耗太大。

解决上面问题的方式：

视频中存在大量的冗余信息，将视频分解为交替的关键帧(keyframe&motion vectors)【其实就是视频编码的思路】
分解之后的组合可以用更少的token来表示视频的时间动态；
复用现成的纯图像LLM所获得的视觉知识，而只需专注于对是时间信息(temporal information)进行建模。

3 Method

video tokenizer：将视频转化为离散的tokens，其中关键帧keyframe使用现成的image tokenizer(ViT-G/14 of EVA-CLIP)；
motion encoder：用于将temporal motion也转化为离散的token；
video detokenizer：将LLM生成的video token恢复成视频。

3.1 关键帧与运动信息的获取与motion encoder

基于MPEG-4压缩技术来获取关键帧和运动信息。视频中的I帧就是关键帧。通常视频帧被分成16x16个宏块，运动信息motion vectors是通过寻找相邻帧之间的最佳就宏块对应关系来确定的。
$\vec{m}(p, q) = arg⁡\min_{i,j}||I_t⁢(p,q)−I_{t-1}⁢(p−i,q−j)||$
其中I(p, q)表示宏块在(p, q)的像素值，(i, j)是两个宏块中心的偏移量，于是视频可以分解为关键帧(HxWx3)和后续的T帧的运动矢量(Tx(H/16)x(W/16)x2)。

这段看不懂没关系，后面实际是采用ffmpeg来提取视频的关键帧I帧和运动向量P帧。
在这里插入图片描述
Source: I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系

运动矢量的tokenization与LaVIT的方式类似，先通过一个spatiotemporal encoder得到latent embedding，再与codebook中的向量计算L2距离，选择最近的codebook中的向量代替之，这就是所谓的Motion quantization，得到的结果就是motion vector的token，可参与后续的训练。

整个motion tokenizer通过一个解码器，来将motion token恢复，最后计算重构损失来更新参数。

3.2 video detokenizer

key frame关键帧：de-noising U-Net，与LaVIT类似，使用重建的visual features作为条件去控制生成细节

video detokenizer依赖于motion vector的引导，来生成关键帧之后T帧的恢复。有2种不同的motion conditon forms：
1、给定motion vector：(Tx(H/16)x(W/16)x2)，采用最近邻插值的方式，使其与UNet的输入相匹配；
2、关键帧key frame的latent state I（VAE产生）重复T以提供visual condition；
3、motion vector、key frame latent I和noisy video frame按通道拼接，作为video dekoenizer的输入；
4、使用3DUnet中的spatial temporal cross-attention block引入motion feature embedding来增强生成效果；

为了缓解单独解码带来的不同clip之间的细粒度视觉细节不一致，在解码关键帧时加入了明确的噪声约束。通过反转DDIM采样将最新一帧从先前生成的状态转化为中间的噪声状态。

4 训练细节

训练说明：

[MOV][/MOV]用于区分运动模态
交换多模态数据对的顺序：[video⁢(image),text]和 [text,video⁢(image)]
以自回归的形式进行训练（在上一个预测的基础上预测下一个）

训练分为3个阶段：
Step1： 训练tokenizer和detokenizer，该阶段只需要视频数据，无需对应的captions，以生成视频的tokens，

WebVid-10M，包含10M视频-文本对，含有水印；
训练detokenizer的时候，使用InterVid-14M-aesthetic数据的子集来去除生成视频中的水印，并提升生成视频的美感；

Step2： LLM训练，学习不同模态之间数据的关联；

混合视频、图像和文本数据：
- WebVid-10M
- Conceptual Caption 93M
- SBU
- BLIP-Capfit
- RedPajama英文语料库：用于保留LLM原本的语言理解能力

Step3： Instruction tuning：以适应不同的任务。

LLaVA v1.5的665k图像文本指令数据集
Video-ChatGPT的100k视频-文本指令数据集

参考资料

[1] I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系
[2] 【大模型系列】Language-Vision Transformer(LaVIT, ICLR2024)

【大模型系列】Video-LaVIT(2024.06)

Paper：https://arxiv.org/abs/2402.03161Github：https://video-lavit.github.io/Title：Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional TokenizationAuthor：Yang Jin， 北大&#x…...

编程日记 2024/7/31 8:00:45

【总结】nacos作为注册中心-应用启动失败：NacosDiscoveryProperties{serverAddr=‘127.0.0.1:8848‘……

问题现象启动springboot应用时报错，能够读取到nacos配置，但是使用nacos作为注册中心，应用注册到nacos失败。应用配置bootstrap.properties如下： # 应用编码，安装时替换变量 spring.application.namedata-center #…...

编程日记 2024/7/31 7:59:44

C语言——数组和排序

C语言——数组和排序数组数组的概念数组的初始化数组的特点排序选择排序冒泡排序插入排序二分查找数组数组的概念数组是一组数据 ； 数组是一组相同类型的数据或变量的集合 ； 应用场景： 用于批量的处理多个数据 ； 语法&…...

编程日记 2024/7/31 7:58:43

QEMU 新增QMPHMP指令【原文阅读】

文章目录 0x0 QEMU原文0x10x11 How to write monitor commands0x12 Overview0x13 Testing 0x20x21 Writing a simple command: hello-world0x22 Arguments 0x30x31 Implementing the HMP command 0x40x41 Writing more complex commands0x42 Modelling data in QAPI0x43 User D…...

编程日记 2024/7/31 7:57:42

【Linux】全志Tina配置屏幕时钟的方法

一、文件位置 V:\f1c100s\Evenurs\f1c100s\tina\device\config\chips\c200s\configs\F1C200s\sys_config.fex 二、文件内容三、介绍在此处可以修改屏幕的频率，当前为21MHz。四、总结注意选择对应的屏幕的参数，sdk所支持的屏幕信息都在此文件夹中…...

编程日记 2024/7/31 7:56:41

探索WebKit的CSS表格布局：打造灵活的网页数据展示

探索WebKit的CSS表格布局：打造灵活的网页数据展示 CSS表格布局是一种在网页上展示数据的强大方式，它允许开发者使用CSS来创建类似于传统HTML表格的布局。WebKit作为许多流行浏览器的渲染引擎，提供了对CSS表格布局的全面支持。本文将深入探讨…...

编程日记 2024/7/31 7:55:40

信号的运算

信号实现运算，首先要明确，电路此时为负反馈电路，当处于深度负反馈时，可直接使用虚短虚断。负反馈相关内容可见：放大电路中的反馈_基极反馈-CSDN博客https://blog.csdn.net/qq_63796876/article/details/140438759 一、…...

编程日记 2024/7/31 7:53:38

Vue3知识点汇总

创建项目 npm init vuelatest // npm create vitelatestVue文件结构   <script setup>…...

编程日记 2024/7/31 7:52:36

C++设计模式--单例模式

单例模式的学习笔记单例模式是为了：在整个系统生命周期内，保证一个类只能产生一个实例，确保该类的唯一性参见链接1，链接2 #include <iostream> #include <mutex>using namespace std;/*懒汉模式：只有在…...

编程日记 2024/7/31 7:51:36

数据驱动未来：构建下一代湖仓一体电商数据分析平台，引领实时商业智能革命

1.1 项目背景本项目是一个创新的湖仓一体实时电商数据分析平台，旨在为电商平台提供深度的数据洞察和业务分析。技术层面，项目涵盖了从基础架构搭建到大数据技术组件的集成，采用了湖仓一体的设计理念，实现了数据仓库与数据湖的有…...

编程日记 2024/7/31 7:49:34

学习JavaScript第五天

文章目录 1.HTML DOM1.1 表单相关元素① form 元素② 文本输入框类和文本域（input 和 textarea）③ select 元素 1.2 表格相关元素① table 元素② tableRow 元素（tr 元素）③ tableCell 元素 （td 或 th） 1.3…...

编程日记 2024/7/31 7:48:32

pythonGame-实现简单的坦克大战

通过python简单复现坦克大战游戏。使用到的库函数： import turtle import math import random import time 游戏源码： import turtle import math import random import time# 设置屏幕 screen turtle.Screen() screen.setup(800, 600) screen.tit…...

编程日记 2024/7/31 7:47:31

不太常见的asmnet诊断

asm侦听 [griddb1-[ASM1]-/home/grid]$ srvctl config asm ASM home: <CRS home> Password file: OCR/orapwASM Backup of Password file: OCRDG/orapwASM_backup ASM listener: LISTENER ASM instance count: 3 Cluster ASM listener: ASMNET1LSNR_ASM[rootdb1:/root]# …...

编程日记 2024/7/31 7:42:25