【论文笔记】Number it: Temporal Grounding Videos like Flipping Manga

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
基本信息
标题: Number it: Temporal Grounding Videos like Flipping Manga
作者: Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang
arXiv: https://arxiv.org/abs/2411.10332
摘要
视频大型语言模型(Vid-LLMs)在理解视频内容以进行问答对话方面取得了显著进展。
然而,它们在将这种视觉理解扩展到需要精确时间定位的任务上存在困难,这些任务被称为视频时间定位(VTG)。
为了解决这一差距,我们引入了数字提示(NumPro),这是一种新颖的方法,它通过为每个视频帧添加独特的数字标识符,使Vid-LLMs能够将视觉理解与时间定位相结合。
将视频视为一系列编号的帧图像,NumPro将VTG转化为一个直观的过程:按顺序翻阅漫画分镜。
这使得Vid-LLMs能够“阅读”事件时间线,准确地将视觉内容与相应的时序信息联系起来。
我们的实验表明,NumPro显著提高了顶级Vid-LLMs的VTG性能,而无需额外的计算成本。
此外,在NumPro增强的数据集上进行微调为VTG定义了新的最先进水平,在关键帧检索的mIoU上超越了之前的最优方法高达6.9%,在突出检测的mAP上提高了8.5%。代码将在https://github.com/yongliang-wu/NumPro上提供。
主要贡献
- 我们引入了NumPro,这是一种新颖的方法,通过在视频帧上叠加帧号,增强了视频大型语言模型(Vid-LLMs)的视频时间定位(VTG)能力,使时间定位变得与翻阅漫画时跟随编号面板一样直观。
- 通过实验研究,我们发现了一种合适的NumPro设计(字体大小、颜色和位置),确保模型的高可检测性,同时最小程度地干扰原始视频内容。
- 我们在无训练和微调场景下,对标准VTG基准和指标进行了彻底的NumPro评估,证明了其在各种模型和数据集上的有效性。
Number-Prompt 方法
我们的数字提示(NumPro)方法提供了一种简单而有效的解决方案,以增强现有视频大型语言模型(Vid-LLMs)的视频时间基础(VTG)能力,无论是在无训练还是微调设置下。
Attention Analysis
当前视频语言模型将视频处理为一系列帧。视频的视觉表示可以视为每个单独帧的拼接表示,将离散帧的信息汇总为全面的视频级别。这允许视频语言模型通过将帧图像的视觉表示与语言查询的文本表示对齐来理解视频。
为了探索视频时间定位(VTG)的挑战,我们分析了帧图像token表示和查询语言token之间的注意力图,然后评估了相关视频帧的时间描述。以Qwen2-VL-7B为案例研究,我们突出了VTG对视频语言模型(Vid-LLMs)的挑战:虽然Vid-LLMs可以理解视频中正在发生的事件,但它们难以将这种理解转化为描述事件开始和结束时间的文本描述。
具体来说,我们以视频和语言查询作为输入,从Qwen2-VL-7B的最终多头自注意力层中提取注意力分数。对于视频序列中的每一帧,我们聚合所有对应该帧的视觉token在所有注意力头中的注意力分数。
如图2所示,注意力图揭示了事件文本查询与目标视频片段之间的强相关性。这表明Qwen2-VL-7B能够有效地聚焦于与查询相关的帧,这与模型在其他内容相关的视频理解任务中的出色表现一致。然而,模型在表述正确的时间边界方面存在困难,并产生了诸如“从200到599”这样的令人惊讶的幻觉。这一观察强调了需要机制来弥合空间特征对齐与Vid-LLMs的时间推理之间的差距,这是我们NumPro方法旨在解决的问题。
NumPro and NumPro-FT
我们的方法,编号提示(NumPro),使VidLLMs能够直接将特定视觉内容与其时间信息关联起来,将时间定位转化为视觉对齐任务。如图3所示,NumPro在无训练和微调场景下均能运行。
在无训练设置中,每个视频帧都标有相应的帧号。通过利用VidLLMs内置的光学字符识别(OCR)功能,我们使它们能够通过与视觉内容相关的帧号“读取”时间线。为了阐明添加的数字对Vid-LLMs的目的,我们在每个事件查询前添加一条简单的指令:“每个帧上的红色数字代表帧号。”这种方法允许Vid-LLMs通过直接将帧号与语言查询相联系,准确识别帧级边界。
为了提高性能,NumPro-FT在NumPro增强的数据集上微调VidLLMs。这一阶段将训练数据中的帧数与时间跨度对齐,将时间定位能力嵌入到模型的学得表示中。在微调过程中,我们冻结视觉编码器,仅微调视觉投影器和LLM组件。为了减少参数数量和训练开销,我们应用低秩自适应(LoRA)来调整LLM。我们的训练目标是最大化通过自回归语言模型生成正确答案token A \mathbf{A} A 的可能性:
P ( A ∣ V , T instruct ) = ∏ j = 1 L P θ ( A j ∣ V , X instruct , A < j ) P(\mathbf{A} \mid V, T_{\text{instruct}}) = \prod_{j=1}^{L} P_\theta(A_j \mid V, X_{\text{instruct}}, \mathbf{A}_{<j}) P(A∣V,Tinstruct)=j=1∏LPθ(Aj∣V,Xinstruct,A<j)
其中, V V V 代表输入视频, θ \theta θ 表示可训练参数, T instruct T_{\text{instruct}} Tinstruct 表示文本指令, L L L 表示答案序列 A \mathbf{A} A 的长度, A < j \mathbf{A}_{<j} A<j 包含所有在当前token A j \mathbf{A}_{j} Aj 之前的答案token。
Design of Numerical Prompt
一个有效的NumPro设计必须确保:
- 数字易于模型识别;
- 对视觉内容的干扰最小。
先前的研究表明,视觉提示的出现和位置可以影响模型的注意力。
鉴于所有Vid-LLMs都在336 × 336的固定分辨率下运行,我们通过评估三个因素来优化NumPro:字体大小、颜色和帧编号的放置位置。
为了确定有效的NumPro设计,我们使用两个主要指标:数字准确性,评估模型识别叠加数字的能力;字幕准确性,衡量添加数字后原始字幕与帧内容的一致性。平衡这两个指标,我们可以选择数字清晰可辨且不会干扰主要视频内容的NumPro配置。
为了使设计选择在各种模型和数据集上具有鲁棒性,我们在MSCOCO数据集的子集上进行了基于CLIP的实验,分别计算了数字准确率和字幕准确率。
我们使用CLIP ViT-B/32模型生成视觉和文本表示,因为许多Vid-LLMs都使用CLIP风格的视觉编码器,这使得我们的发现能够很好地推广到Vid-LLMs。
COCO图像-字幕对作为视频帧的代理,避免了直接VTG测试的高成本和有限的可扩展性。
具体来说,我们从MSCOCO中随机选择了1,000个不同的图像-字幕对,并在各种配置下将“0”到“99”的数字叠加到图像上。
如图4所示,我们首先从CLIP视觉和文本编码器中获取表示,并计算它们之间的中间相似度分数(即数字和标题相似度)。使用添加的数字和原始标题作为真实情况,我们选择具有最高相似度分数的文本数字和标题作为预测,以计算数字和标题准确率。平衡这些准确率的配置对NumPro设计最优。
如图5所示,我们的研究结果指出,增大字体大小可以提高数字准确性,但会降低标题准确性,这表明中等字体大小(40或60)是最优的。在颜色选择方面,标题准确性在不同颜色下相对稳定。红色在数字准确性方面表现出最佳性能,而黑色效果最差。这一发现也与先前的研究一致。
此外,将文本置于图像中心会因与关键视觉元素重叠而显著降低标题准确性,而将数字置于右下角则能在标题和数字准确性之间提供最佳平衡。最后,我们为最终的NumPro设计选择了40号的字体大小、红色和右下角的位置。这一设计搜索使NumPro能够更好地利用Vid-LLMs固有的OCR和视觉语言对齐能力,以增强视频时间定位。
在实践中,基于CLIP的设计提供的是近似而非确定的指导,对Vid-LLMs进行VTG数据集的进一步测试可能产生额外的模型特定见解。
实验
总结
本文提出了一种名为Number-Prompt(NumPro)的简单而高效的视觉提示,旨在无需努力地增强视频大型语言模型(Vid-LLMs)的视频时间定位(VTG)能力。
通过在视频内容上叠加帧数,NumPro利用Vid-LLMs固有的光学字符识别(OCR)和视觉-语言对齐能力,使它们能够准确地将事件映射到特定的时序边界。
通过基于COCO启发式算法的系统设计,并在VTG基准测试中得到验证,我们证明了NumPro在支持细粒度时序理解的同时,还能保持一般视频理解。
通过广泛的评估,我们证明了NumPro在无训练和微调设置下均能持续达到最先进的性能,使其能够适应性地集成到闭源和开源的Vid-LLMs中。
NumProFT进一步提升了时间定位性能,在VTG任务中建立了新的SOTA。
此外,对一般视频-QA的微小影响表明,NumPro可以在保持稳健视频理解的同时增强VTG。
相关文章:

【论文笔记】Number it: Temporal Grounding Videos like Flipping Manga
🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 基本信息 标题: Number it: Temporal Grou…...

C语言菜鸟入门·关键字·int的用法
目录 1. int关键字 1.1 取值范围 1.2 符号类型 1.3 运算 1.3.1 加法运算() 1.3.2 减法运算(-) 1.3.3 乘法运算(*) 1.3.4 除法运算(/) 1.3.5 取余运算(%) 1.3.6 自增()与自减(--) 1.3.7 位运算 2. 更多关键字 1. int关键字 int 是一个关键字࿰…...

基于企业微信客户端设计一个文件下载与预览系统
在企业内部沟通与协作中,文件分享和管理是不可或缺的一部分。企业微信(WeCom)作为一款广泛应用于企业的沟通工具,提供了丰富的API接口和功能,帮助企业进行高效的团队协作。然而,随着文件交换和协作的日益增…...

昇思MindSpore第七课---文本解码原理
1. 文本解码原理 文本解码是将模型的输出(通常是概率分布或词汇索引)转换为可读的自然语言文本的过程。在生成文本时,常见的解码方法包括贪心解码、束搜索(BeamSearch)、随机采样等。 2 实践 2.1 配置环境 安装mindn…...

C# 数据结构之【图】C#图
1. 图的概念 图是一种重要的数据结构,用于表示节点(顶点)之间的关系。图由一组顶点和连接这些顶点的边组成。图可以是有向的(边有方向)或无向的(边没有方向),可以是加权的ÿ…...

传输控制协议(TCP)和用户数据报协议(UDP)
一、传输控制协议(TCP) 传输控制协议(Transmission Control Protocol,TCP)是一种面向连接的、可靠的、基于字节流的传输层通信协议,由 IETF 的 RFC 793 定义。 它通过三次握手建立连接,确保数…...

【Python爬虫】Scrapy框架实战---百度首页热榜新闻
如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接 一、安装Scrapy库 二、创建项目(以BaiduSpider为例) scrapy startproject BaiduSpider生成每个文件的功能: 二、 创建爬虫脚本(爬虫名:newsÿ…...

采用python3.12 +django5.1 结合 RabbitMQ 和发送邮件功能,实现一个简单的告警系统 前后端分离 vue-element
一、开发环境搭建和配置 #mac环境 brew install python3.12 python3.12 --version python3.12 -m pip install --upgrade pip python3.12 -m pip install Django5.1 python3.12 -m django --version #用于检索系统信息和进程管理 python3.12 -m pip install psutil #集成 pika…...

Qt 实现网络数据报文大小端数据的收发
1.大小端数据简介 大小端(Endianness)是计算机体系结构的一个术语,它描述了多字节数据在内存中的存储顺序。以下是大小端的定义和它们的特点: 大端(Big-Endian) 在大端模式中,一个字的最高有效…...

[译]Elasticsearch Sequence ID实现思路及用途
原文地址:https://www.elastic.co/blog/elasticsearch-sequence-ids-6-0 如果 几年前,在Elastic,我们问自己一个"如果"问题,我们知道这将带来有趣的见解: "如果我们在Elasticsearch中对索引操作进行全面排序会怎样…...

Java基于SpringBoot+Vue的藏区特产销售平台
博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…...

12-表的约束
知识背景 表的约束,就是在表中的数据上加上约束,也被称为数据完整性约束。数据完整性约束的目的是为了不被规定的、不符合规范的数据进入数据库 在录入数据库或数据发生变化时,DBMS(数据库管理系统)会按照一定的约束条件对数据进行监测&…...

【人工智能】深度学习入门:用TensorFlow实现多层感知器(MLP)模型
《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门! 多层感知器(MLP)是一种基础的神经网络结构,广泛应用于分类和回归任务。作为深度学习的重要组成部分,理解并实现MLP是学习更复杂神经网络模型的基础。本文将介绍多层感知器的核心概念、数学原理,并使用…...

【Go】-go中的锁机制
目录 一、锁的基础知识 1. 互斥量/互斥锁 2. CAS(compare and swap) 3. 自旋锁 4. 读写锁 5. 乐观锁 & 悲观锁 6. 死锁 二、go中锁机制 1. Mutex-互斥锁 2. RWMutex-读写锁 2.1 RWMutex流程概览 2.2 写锁饥饿问题 2.3. golang的读写锁源…...

c ++零基础可视化——vector
c 零基础可视化——vector 初始化 vector<int> v0(5); // 0 0 0 0 0 vector<int> v1(5, 1); // 1 1 1 1 1 vector<int> v2{1, 2, 3} // 1 2 3 vector<int> v3(v1); // 1 1 1 1 1 vector<vector<int>> v4(2, vect…...

Centos 7 安装 Docker 最新版本
文章目录 一、卸载旧版本二、安装最新版本docker三、问题解决3.1 启动docker报错3.2 启动容器报错 一、卸载旧版本 #如果之前安装过旧版本的Docker,可以使用下面命令卸载 yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest …...

构建高效在线教育:SpringBoot课程管理系统
1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理在线课程管理系统的相关信息成为必然。开发…...

二进制与网络安全的关系
二进制与网络安全的关系 声明! 学习视频来自B站up主 泷羽sec 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以…...

【计算机网络】网段划分
一、为什么有网段划分 IP地址 网络号(目标网络) 主机号(目标主机) 网络号: 保证相互连接的两个网段具有不同的标识 主机号: 同一网段内,主机之间具有相同的网络号,但是必须有不同的主机号 互联网中的每一台主机,都要隶属于某一个子网 -&…...

VB、VBS、VBA的区别及作用
VB、VBS 和 VBA 是三种与微软 Visual Basic 相关的编程语言或环境,它们在功能和用途上有所不同: # Visual Basic (VB) Visual Basic 是一种面向对象的编程语言,最初由微软公司开发。它是一种高级编程语言,旨在简化开发过程&…...

深度学习中的循环神经网络(RNN)与时间序列预测
一、循环神经网络(RNN)简介 循环神经网络(Recurrent Neural Networks,简称RNN)是一种专门用于处理序列数据的神经网络架构。与传统神经网络不同,RNN具有内部记忆能力,能够捕捉数据中的时间依赖…...

Unity 设计模式-原型模式(Prototype Pattern)详解
原型模式 (Prototype Pattern) 原型模式 (Prototype Pattern) 是一种创建型设计模式,它允许通过复制现有的对象来创建新对象,而不是通过直接实例化类。这意味着你可以通过克隆原型对象来生成新的实例,而不必依赖类的构造函数。该模式的核心思…...

如何在 RK3568 Android 11 系统上排查以太网问题
1. 硬件连接检查 在进行软件诊断之前,首先确保所有硬件连接正常: 确认网线可靠插入设备的以太网端口。交换机、路由器中与设备连接的端口是否正常工作。若有可能,尝试更换网线或使用其他端口。2. 使用命令行工具进行基本检查 检查网络接口状态 连接设备并使用 ADB 或终端…...

如何在WPF中嵌入其它程序
在WPF中嵌入其它程序,这里提供两种方案 一、使用WindowsFormHost 使用步骤如下 1、添加WindowsFormsIntegration和System.Windows.Forms引用 2、在界面上放置WindowsFormHost和System.Windows.Forms.Panel 1 <Grid> 2 <WindowsFormsHost> 3…...

大模型呼入系统是什么?
大模型呼入系统是什么? 作者:开源呼叫中心系统 FreeIPCC,Github地址:https://github.com/lihaiya/freeipcc 在呼叫中心领域,大模型呼入是指利用大型语言模型(如GPT等)处理客户呼入的电话请求&a…...

Flutter:SlideTransition位移动画,Interval动画延迟
配置vsync,需要实现一下with SingleTickerProviderStateMixinclass _MyHomePageState extends State<MyHomePage> with SingleTickerProviderStateMixin{// 定义 AnimationControllerlate AnimationController _controller;overridevoid initState() {super.…...

【Elasticsearch入门到落地】2、正向索引和倒排索引
接上篇《1、初识Elasticsearch》 上一篇我们学习了什么是Elasticsearch,以及Elastic stack(ELK)技术栈介绍。本篇我们来什么是正向索引和倒排索引,这是了解Elasticsearch底层架构的核心。 上一篇我们学习到,Elasticsearch的底层是由Lucene实…...

网络安全概论
一、 网络安全是一个综合性的技术。在Internet这样的环境中,其本身的目的就是为了提供一种开放式的交互环境,但是为了保护一些秘密信息,网络安全成为了在开放网络环境中必要的技术之一。网络安全技术是随着网络技术的进步逐步发展的。 网络安…...

后端开发如何高效使用 Apifox?
对于后端开发者来说,日常工作中少不了接口的设计、调试和文档编写。你是否也曾因接口文档更新不及时、测试工具分散而头疼不已?Apifox,这款全能型工具,或许能成为你的效率神器! Apifox究竟有哪些功能能帮助后端开发者…...

实现List接口的三类-ArrayList -Vector -LinkedList
一、ArrayList 数据结构与存储原理 ArrayList是基于动态数组实现的。它在内存中是一块连续的存储空间。当创建一个ArrayList时,会初始化一个默认大小(通常为10)的数组。随着元素的不断添加,如果数组容量不够,会进行扩…...