当前位置: 首页 > news >正文

【论文笔记】Number it: Temporal Grounding Videos like Flipping Manga

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Number it: Temporal Grounding Videos like Flipping Manga
作者: Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang
arXiv: https://arxiv.org/abs/2411.10332

基本信息

摘要

视频大型语言模型(Vid-LLMs)在理解视频内容以进行问答对话方面取得了显著进展。

然而,它们在将这种视觉理解扩展到需要精确时间定位的任务上存在困难,这些任务被称为视频时间定位(VTG)。

为了解决这一差距,我们引入了数字提示(NumPro),这是一种新颖的方法,它通过为每个视频帧添加独特的数字标识符,使Vid-LLMs能够将视觉理解与时间定位相结合。

将视频视为一系列编号的帧图像,NumPro将VTG转化为一个直观的过程:按顺序翻阅漫画分镜。

这使得Vid-LLMs能够“阅读”事件时间线,准确地将视觉内容与相应的时序信息联系起来。

我们的实验表明,NumPro显著提高了顶级Vid-LLMs的VTG性能,而无需额外的计算成本。

此外,在NumPro增强的数据集上进行微调为VTG定义了新的最先进水平,在关键帧检索的mIoU上超越了之前的最优方法高达6.9%,在突出检测的mAP上提高了8.5%。代码将在https://github.com/yongliang-wu/NumPro上提供。

Effectiveness of Adding Frame Numbers for Temporal Grounding

主要贡献

  • 我们引入了NumPro,这是一种新颖的方法,通过在视频帧上叠加帧号,增强了视频大型语言模型(Vid-LLMs)的视频时间定位(VTG)能力,使时间定位变得与翻阅漫画时跟随编号面板一样直观。
  • 通过实验研究,我们发现了一种合适的NumPro设计(字体大小、颜色和位置),确保模型的高可检测性,同时最小程度地干扰原始视频内容。
  • 我们在无训练和微调场景下,对标准VTG基准和指标进行了彻底的NumPro评估,证明了其在各种模型和数据集上的有效性。

Number-Prompt 方法

我们的数字提示(NumPro)方法提供了一种简单而有效的解决方案,以增强现有视频大型语言模型(Vid-LLMs)的视频时间基础(VTG)能力,无论是在无训练还是微调设置下。

Attention Analysis

当前视频语言模型将视频处理为一系列帧。视频的视觉表示可以视为每个单独帧的拼接表示,将离散帧的信息汇总为全面的视频级别。这允许视频语言模型通过将帧图像的视觉表示与语言查询的文本表示对齐来理解视频。

为了探索视频时间定位(VTG)的挑战,我们分析了帧图像token表示和查询语言token之间的注意力图,然后评估了相关视频帧的时间描述。以Qwen2-VL-7B为案例研究,我们突出了VTG对视频语言模型(Vid-LLMs)的挑战:虽然Vid-LLMs可以理解视频中正在发生的事件,但它们难以将这种理解转化为描述事件开始和结束时间的文本描述。

具体来说,我们以视频和语言查询作为输入,从Qwen2-VL-7B的最终多头自注意力层中提取注意力分数。对于视频序列中的每一帧,我们聚合所有对应该帧的视觉token在所有注意力头中的注意力分数。

Attention Analysis between Video Frames and Event Query

如图2所示,注意力图揭示了事件文本查询与目标视频片段之间的强相关性。这表明Qwen2-VL-7B能够有效地聚焦于与查询相关的帧,这与模型在其他内容相关的视频理解任务中的出色表现一致。然而,模型在表述正确的时间边界方面存在困难,并产生了诸如“从200到599”这样的令人惊讶的幻觉。这一观察强调了需要机制来弥合空间特征对齐与Vid-LLMs的时间推理之间的差距,这是我们NumPro方法旨在解决的问题。

NumPro and NumPro-FT

我们的方法,编号提示(NumPro),使VidLLMs能够直接将特定视觉内容与其时间信息关联起来,将时间定位转化为视觉对齐任务。如图3所示,NumPro在无训练和微调场景下均能运行。

Framework of Our Approach in Two Settings

在无训练设置中,每个视频帧都标有相应的帧号。通过利用VidLLMs内置的光学字符识别(OCR)功能,我们使它们能够通过与视觉内容相关的帧号“读取”时间线。为了阐明添加的数字对Vid-LLMs的目的,我们在每个事件查询前添加一条简单的指令:“每个帧上的红色数字代表帧号。”这种方法允许Vid-LLMs通过直接将帧号与语言查询相联系,准确识别帧级边界。

为了提高性能,NumPro-FT在NumPro增强的数据集上微调VidLLMs。这一阶段将训练数据中的帧数与时间跨度对齐,将时间定位能力嵌入到模型的学得表示中。在微调过程中,我们冻结视觉编码器,仅微调视觉投影器和LLM组件。为了减少参数数量和训练开销,我们应用低秩自适应(LoRA)来调整LLM。我们的训练目标是最大化通过自回归语言模型生成正确答案token A \mathbf{A} A 的可能性:

P ( A ∣ V , T instruct ) = ∏ j = 1 L P θ ( A j ∣ V , X instruct , A < j ) P(\mathbf{A} \mid V, T_{\text{instruct}}) = \prod_{j=1}^{L} P_\theta(A_j \mid V, X_{\text{instruct}}, \mathbf{A}_{<j}) P(AV,Tinstruct)=j=1LPθ(AjV,Xinstruct,A<j)

其中, V V V 代表输入视频, θ \theta θ 表示可训练参数, T instruct T_{\text{instruct}} Tinstruct 表示文本指令, L L L 表示答案序列 A \mathbf{A} A 的长度, A < j \mathbf{A}_{<j} A<j 包含所有在当前token A j \mathbf{A}_{j} Aj 之前的答案token。

Design of Numerical Prompt

一个有效的NumPro设计必须确保:

  1. 数字易于模型识别;
  2. 对视觉内容的干扰最小。

先前的研究表明,视觉提示的出现和位置可以影响模型的注意力。

鉴于所有Vid-LLMs都在336 × 336的固定分辨率下运行,我们通过评估三个因素来优化NumPro:字体大小、颜色和帧编号的放置位置。

为了确定有效的NumPro设计,我们使用两个主要指标:数字准确性,评估模型识别叠加数字的能力;字幕准确性,衡量添加数字后原始字幕与帧内容的一致性。平衡这两个指标,我们可以选择数字清晰可辨且不会干扰主要视频内容的NumPro配置。

为了使设计选择在各种模型和数据集上具有鲁棒性,我们在MSCOCO数据集的子集上进行了基于CLIP的实验,分别计算了数字准确率和字幕准确率。

我们使用CLIP ViT-B/32模型生成视觉和文本表示,因为许多Vid-LLMs都使用CLIP风格的视觉编码器,这使得我们的发现能够很好地推广到Vid-LLMs。

COCO图像-字幕对作为视频帧的代理,避免了直接VTG测试的高成本和有限的可扩展性。

具体来说,我们从MSCOCO中随机选择了1,000个不同的图像-字幕对,并在各种配置下将“0”到“99”的数字叠加到图像上。

Illustration of Our NumPro Design Algorithm

如图4所示,我们首先从CLIP视觉和文本编码器中获取表示,并计算它们之间的中间相似度分数(即数字和标题相似度)。使用添加的数字和原始标题作为真实情况,我们选择具有最高相似度分数的文本数字和标题作为预测,以计算数字和标题准确率。平衡这些准确率的配置对NumPro设计最优。

The Impact of Different Number-Prompt Designs

如图5所示,我们的研究结果指出,增大字体大小可以提高数字准确性,但会降低标题准确性,这表明中等字体大小(40或60)是最优的。在颜色选择方面,标题准确性在不同颜色下相对稳定。红色在数字准确性方面表现出最佳性能,而黑色效果最差。这一发现也与先前的研究一致。

此外,将文本置于图像中心会因与关键视觉元素重叠而显著降低标题准确性,而将数字置于右下角则能在标题和数字准确性之间提供最佳平衡。最后,我们为最终的NumPro设计选择了40号的字体大小、红色和右下角的位置。这一设计搜索使NumPro能够更好地利用Vid-LLMs固有的OCR和视觉语言对齐能力,以增强视频时间定位。

在实践中,基于CLIP的设计提供的是近似而非确定的指导,对Vid-LLMs进行VTG数据集的进一步测试可能产生额外的模型特定见解。

实验

Comparison of performance on the video temporal grounding task with previous state-of-the-art methods

Performance of Applying NumPro to Various Vid-LLMs and Ablation Results on NumPro-FT

Ablation study on various NumPro designs

Qualitative Comparison with State-of-the-Art

Performance Comparison of Sampling Strategies for NumPro

The influence of applying NumPro to general videoQA

总结

本文提出了一种名为Number-Prompt(NumPro)的简单而高效的视觉提示,旨在无需努力地增强视频大型语言模型(Vid-LLMs)的视频时间定位(VTG)能力。

通过在视频内容上叠加帧数,NumPro利用Vid-LLMs固有的光学字符识别(OCR)和视觉-语言对齐能力,使它们能够准确地将事件映射到特定的时序边界。

通过基于COCO启发式算法的系统设计,并在VTG基准测试中得到验证,我们证明了NumPro在支持细粒度时序理解的同时,还能保持一般视频理解。

通过广泛的评估,我们证明了NumPro在无训练和微调设置下均能持续达到最先进的性能,使其能够适应性地集成到闭源和开源的Vid-LLMs中。

NumProFT进一步提升了时间定位性能,在VTG任务中建立了新的SOTA。

此外,对一般视频-QA的微小影响表明,NumPro可以在保持稳健视频理解的同时增强VTG。

相关文章:

【论文笔记】Number it: Temporal Grounding Videos like Flipping Manga

&#x1f34e;个人主页&#xff1a;小嗷犬的个人主页 &#x1f34a;个人网站&#xff1a;小嗷犬的技术小站 &#x1f96d;个人信条&#xff1a;为天地立心&#xff0c;为生民立命&#xff0c;为往圣继绝学&#xff0c;为万世开太平。 基本信息 标题: Number it: Temporal Grou…...

C语言菜鸟入门·关键字·int的用法

目录 1. int关键字 1.1 取值范围 1.2 符号类型 1.3 运算 1.3.1 加法运算() 1.3.2 减法运算(-) 1.3.3 乘法运算(*) 1.3.4 除法运算(/) 1.3.5 取余运算(%) 1.3.6 自增()与自减(--) 1.3.7 位运算 2. 更多关键字 1. int关键字 int 是一个关键字&#xff0…...

基于企业微信客户端设计一个文件下载与预览系统

在企业内部沟通与协作中&#xff0c;文件分享和管理是不可或缺的一部分。企业微信&#xff08;WeCom&#xff09;作为一款广泛应用于企业的沟通工具&#xff0c;提供了丰富的API接口和功能&#xff0c;帮助企业进行高效的团队协作。然而&#xff0c;随着文件交换和协作的日益增…...

昇思MindSpore第七课---文本解码原理

1. 文本解码原理 文本解码是将模型的输出&#xff08;通常是概率分布或词汇索引&#xff09;转换为可读的自然语言文本的过程。在生成文本时&#xff0c;常见的解码方法包括贪心解码、束搜索&#xff08;BeamSearch&#xff09;、随机采样等。 2 实践 2.1 配置环境 安装mindn…...

C# 数据结构之【图】C#图

1. 图的概念 图是一种重要的数据结构&#xff0c;用于表示节点&#xff08;顶点&#xff09;之间的关系。图由一组顶点和连接这些顶点的边组成。图可以是有向的&#xff08;边有方向&#xff09;或无向的&#xff08;边没有方向&#xff09;&#xff0c;可以是加权的&#xff…...

传输控制协议(TCP)和用户数据报协议(UDP)

一、传输控制协议&#xff08;TCP&#xff09; 传输控制协议&#xff08;Transmission Control Protocol&#xff0c;TCP&#xff09;是一种面向连接的、可靠的、基于字节流的传输层通信协议&#xff0c;由 IETF 的 RFC 793 定义。 它通过三次握手建立连接&#xff0c;确保数…...

【Python爬虫】Scrapy框架实战---百度首页热榜新闻

如何利用Scrapy框架实战提取百度首页热榜新闻的排名、标题和链接 一、安装Scrapy库 二、创建项目&#xff08;以BaiduSpider为例&#xff09; scrapy startproject BaiduSpider生成每个文件的功能&#xff1a; 二、 创建爬虫脚本&#xff08;爬虫名&#xff1a;news&#xff…...

采用python3.12 +django5.1 结合 RabbitMQ 和发送邮件功能,实现一个简单的告警系统 前后端分离 vue-element

一、开发环境搭建和配置 #mac环境 brew install python3.12 python3.12 --version python3.12 -m pip install --upgrade pip python3.12 -m pip install Django5.1 python3.12 -m django --version #用于检索系统信息和进程管理 python3.12 -m pip install psutil #集成 pika…...

Qt 实现网络数据报文大小端数据的收发

1.大小端数据简介 大小端&#xff08;Endianness&#xff09;是计算机体系结构的一个术语&#xff0c;它描述了多字节数据在内存中的存储顺序。以下是大小端的定义和它们的特点&#xff1a; 大端&#xff08;Big-Endian&#xff09; 在大端模式中&#xff0c;一个字的最高有效…...

[译]Elasticsearch Sequence ID实现思路及用途

原文地址:https://www.elastic.co/blog/elasticsearch-sequence-ids-6-0 如果 几年前&#xff0c;在Elastic&#xff0c;我们问自己一个"如果"问题&#xff0c;我们知道这将带来有趣的见解&#xff1a; "如果我们在Elasticsearch中对索引操作进行全面排序会怎样…...

Java基于SpringBoot+Vue的藏区特产销售平台

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…...

12-表的约束

知识背景 表的约束&#xff0c;就是在表中的数据上加上约束&#xff0c;也被称为数据完整性约束。数据完整性约束的目的是为了不被规定的、不符合规范的数据进入数据库 在录入数据库或数据发生变化时&#xff0c;DBMS(数据库管理系统)会按照一定的约束条件对数据进行监测&…...

【人工智能】深度学习入门:用TensorFlow实现多层感知器(MLP)模型

《Python OpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门! 多层感知器(MLP)是一种基础的神经网络结构,广泛应用于分类和回归任务。作为深度学习的重要组成部分,理解并实现MLP是学习更复杂神经网络模型的基础。本文将介绍多层感知器的核心概念、数学原理,并使用…...

【Go】-go中的锁机制

目录 一、锁的基础知识 1. 互斥量/互斥锁 2. CAS&#xff08;compare and swap&#xff09; 3. 自旋锁 4. 读写锁 5. 乐观锁 & 悲观锁 6. 死锁 二、go中锁机制 1. Mutex-互斥锁 2. RWMutex-读写锁 2.1 RWMutex流程概览 2.2 写锁饥饿问题 2.3. golang的读写锁源…...

c ++零基础可视化——vector

c 零基础可视化——vector 初始化 vector<int> v0(5); // 0 0 0 0 0 vector<int> v1(5, 1); // 1 1 1 1 1 vector<int> v2{1, 2, 3} // 1 2 3 vector<int> v3(v1); // 1 1 1 1 1 vector<vector<int>> v4(2, vect…...

Centos 7 安装 Docker 最新版本

文章目录 一、卸载旧版本二、安装最新版本docker三、问题解决3.1 启动docker报错3.2 启动容器报错 一、卸载旧版本 #如果之前安装过旧版本的Docker&#xff0c;可以使用下面命令卸载 yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest …...

构建高效在线教育:SpringBoot课程管理系统

1系统概述 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及&#xff0c;互联网成为人们查找信息的重要场所&#xff0c;二十一世纪是信息的时代&#xff0c;所以信息的管理显得特别重要。因此&#xff0c;使用计算机来管理在线课程管理系统的相关信息成为必然。开发…...

二进制与网络安全的关系

二进制与网络安全的关系 声明&#xff01; 学习视频来自B站up主 泷羽sec 有兴趣的师傅可以关注一下&#xff0c;如涉及侵权马上删除文章&#xff0c;笔记只是方便各位师傅的学习和探讨&#xff0c;文章所提到的网站以及内容&#xff0c;只做学习交流&#xff0c;其他均与本人以…...

【计算机网络】网段划分

一、为什么有网段划分 IP地址 网络号(目标网络) 主机号(目标主机) 网络号: 保证相互连接的两个网段具有不同的标识 主机号: 同一网段内&#xff0c;主机之间具有相同的网络号&#xff0c;但是必须有不同的主机号 互联网中的每一台主机&#xff0c;都要隶属于某一个子网 -&…...

VB、VBS、VBA的区别及作用

VB、VBS 和 VBA 是三种与微软 Visual Basic 相关的编程语言或环境&#xff0c;它们在功能和用途上有所不同&#xff1a; # Visual Basic (VB) Visual Basic 是一种面向对象的编程语言&#xff0c;最初由微软公司开发。它是一种高级编程语言&#xff0c;旨在简化开发过程&…...

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…...

定时器任务——若依源码分析

分析util包下面的工具类schedule utils&#xff1a; ScheduleUtils 是若依中用于与 Quartz 框架交互的工具类&#xff0c;封装了定时任务的 创建、更新、暂停、删除等核心逻辑。 createScheduleJob createScheduleJob 用于将任务注册到 Quartz&#xff0c;先构建任务的 JobD…...

spring:实例工厂方法获取bean

spring处理使用静态工厂方法获取bean实例&#xff0c;也可以通过实例工厂方法获取bean实例。 实例工厂方法步骤如下&#xff1a; 定义实例工厂类&#xff08;Java代码&#xff09;&#xff0c;定义实例工厂&#xff08;xml&#xff09;&#xff0c;定义调用实例工厂&#xff…...

ios苹果系统,js 滑动屏幕、锚定无效

现象&#xff1a;window.addEventListener监听touch无效&#xff0c;划不动屏幕&#xff0c;但是代码逻辑都有执行到。 scrollIntoView也无效。 原因&#xff1a;这是因为 iOS 的触摸事件处理机制和 touch-action: none 的设置有关。ios有太多得交互动作&#xff0c;从而会影响…...

为什么要创建 Vue 实例

核心原因:Vue 需要一个「控制中心」来驱动整个应用 你可以把 Vue 实例想象成你应用的**「大脑」或「引擎」。它负责协调模板、数据、逻辑和行为,将它们变成一个活的、可交互的应用**。没有这个实例,你的代码只是一堆静态的 HTML、JavaScript 变量和函数,无法「活」起来。 …...

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散

前言 如上一篇文章《dexcap升级版之DexWild》中的前言部分所说&#xff0c;在叠衣服的过程中&#xff0c;我会带着团队对比各种模型、方法、策略&#xff0c;毕竟针对各个场景始终寻找更优的解决方案&#xff0c;是我个人和我司「七月在线」的职责之一 且个人认为&#xff0c…...

API网关Kong的鉴权与限流:高并发场景下的核心实践

&#x1f525;「炎码工坊」技术弹药已装填&#xff01; 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 引言 在微服务架构中&#xff0c;API网关承担着流量调度、安全防护和协议转换的核心职责。作为云原生时代的代表性网关&#xff0c;Kong凭借其插件化架构…...

人工智能 - 在Dify、Coze、n8n、FastGPT和RAGFlow之间做出技术选型

在Dify、Coze、n8n、FastGPT和RAGFlow之间做出技术选型。这些平台各有侧重&#xff0c;适用场景差异显著。下面我将从核心功能定位、典型应用场景、真实体验痛点、选型决策关键点进行拆解&#xff0c;并提供具体场景下的推荐方案。 一、核心功能定位速览 平台核心定位技术栈亮…...

​​企业大模型服务合规指南:深度解析备案与登记制度​​

伴随AI技术的爆炸式发展&#xff0c;尤其是大模型&#xff08;LLM&#xff09;在各行各业的深度应用和整合&#xff0c;企业利用AI技术提升效率、创新服务的步伐不断加快。无论是像DeepSeek这样的前沿技术提供者&#xff0c;还是积极拥抱AI转型的传统企业&#xff0c;在面向公众…...