《Video Mamba Suite》论文笔记(4)Mamba在时空建模中的作用
原文翻译
4.4 Mamba for Spatial-Temporal Modeling
Tasks and datasets.最后,我们评估了 Mamba 的时空建模能力。与之前的小节类似,我们在 Epic-Kitchens-100 数据集 [13] 上评估模型在zero-shot多实例检索中的性能。
Baseline and competitor.ViViT[2]和TimeSformer[6]研究了ViT在空间注意转化为具有时空联合注意的模型的转换。根据这些工作,我们进一步扩展了ViM模型的空间选择扫描来合并时空选择性扫描。我们将此扩展模型称为 ViViM。我们利用在 ImageNet-1K [16] 上预训练的 ViM 模型进行初始化。ViM 模型包含一个 cls 标记,该标记插入到扁平标记序列的中间。为了将 ViM 模型转换为 ViViM,我们采用了图 6 所示的直接方法。对于由 M 帧组成的给定输入,我们在对应于每一帧的标记序列的中间插入 cls 标记。此外,我们添加了每帧初始化为零的时间位置嵌入。然后将扁平的视频序列输入到 ViViM 模型中。模型的输出是通过计算每个帧的cls令牌的平均值来实现的。
Results and analysis.我们进一步分析了ViViM在zero-shot多实例检索上的结果。表11给出了各种时空模型在zero-shot多实例检索上的性能。在比较ViT和ViM时,它们都在ImageNet-1K[16]上进行预训练,我们观察到我们的ViM优于ViT。有趣的是,尽管 ImageNet-1K 上 ViT-S [69] 和 ViM-S [96] 之间的性能差距很小(79.8 vs. 88.5),ViViM-S 在零样本多实例检索上显示出比 ViT-S 的显着改进(+2.1 mAP@Avg)。这一发现表明,我们的 ViViM 在对长序列进行建模方面非常有效,从而提高了性能。
5 Efficiency Analysis
我们比较了不同时空模型的推理速度。该测试在空间维度上修复了 196 个标记,并不断提高帧数。所有测试都是在单个 A100 GPU 上以半精度执行的。为了公平比较,所有注意块都配备了 Flash-attention [14, 15]。我们将推理速度从 4 帧测试到 8192 帧,并在图 7 和图 8 中列出测试结果。两个表都表明,Mamba 比 Transformer 系列模型提供速度优势,尤其是当帧数很大时。在图 8 中,为了公平比较,我们将 ViViM-T 与 ViT 进行比较,无论是否使用 Flash-attention [14, 15]。ViM-T 与 ViT+Flash-attention 的比较是公平的,因为这两种方法都是在考虑硬件 I/O 速度的情况下优化的。当输入帧数大于 256 时,我们的 ViViM-T 比具有闪存注意力的 ViT-T 更有效。如果没有 Flash-Attention,ViM-T 相对更有效,当帧数大于 64 时超过 ViT。对于图 7 中的 TimeMambaB,当输入超过 8192 帧时,效率开始超过 timeformer-B 的效率。由于令牌交互的形式仅在时间交互上有所不同,因此效率差异不如 ViVM 和 ViT 之间的比较那么显着。
6 Conclusion
我们在视频理解领域对 Mamba 的全面评估展示了它作为传统转换器的可行替代方案的潜力。通过Video Mamba Suite,包括14个模型/模块12个视频理解任务,我们证明了Mamba能够有效地处理复杂的时空动态,表现出优越的性能和有前途的效率-性能权衡。这些发现不仅强调了 Mamba 对视频分析任务的适用性,而且还为其在计算机视觉中的应用开辟了新的途径。未来的工作可以进一步探索 Mamba 的适应性,并将其效用扩展到更复杂、多模态视频理解挑战。
相关文章:
《Video Mamba Suite》论文笔记(4)Mamba在时空建模中的作用
原文翻译 4.4 Mamba for Spatial-Temporal Modeling Tasks and datasets.最后,我们评估了 Mamba 的时空建模能力。与之前的小节类似,我们在 Epic-Kitchens-100 数据集 [13] 上评估模型在zero-shot多实例检索中的性能。 Baseline and competitor.ViViT…...
【备战软考(嵌入式系统设计师)】10 - 软件工程基础
这一部分的内容是概念比较多,不要理解,去感受。 涉及的知识点是嵌入式系统开发和维护的部分,也就是和管理相关的,而不是具体如何进行嵌入式系统开发的细节。 系统开发生命周期 按照顺序有下面几个阶段,我们主要要记…...
随手笔记-GNN(朴素图神经网络)
自己看代码随手写的一点备忘录,自己看的,不喜勿喷 GNN (《------ 代码) 刚开始我还在怀疑为什么没有加weigth bias,已经为什么权重才两个,原来是对node_feats进行的network的传播,而且自己内部直接进行了。 下面是一…...
C 语言指针怎么理解?
在今天的学习中,我注意到有位学员似乎对 C 语言指针的理解有些困惑。为了帮助大家更好地理解,我来举个例子。 C 语言指针就好比 Windows 桌面上常见的快捷方式。快捷方式可以指向某个游戏,这就是普通指针;它也可以指向另一个快捷…...
HTTP协议:通信机制、特点及实践应用
目录 前言 1. 运行机制 2. 通信方式 3. 主要特点 4. 统一资源标识符(URL) 5. HTTP报文 6. HTTP请求 7. HTTP响应 8. 实体 9. 持续连接 结语 前言 HTTP(Hypertext Transfer Protocol)是互联网上应用最广泛的一种协议&a…...
Leetcode—289. 生命游戏【中等】
2024每日刷题(126) Leetcode—289. 生命游戏 算法思想 实现代码 class Solution { public:void gameOfLife(vector<vector<int>>& board) {int rows board.size();int cols board[0].size();int neighbors[3] {0, 1, -1};vector<…...
系统运维(虚拟化)
1.VLAN VLAN(Virtual Local Area Network)即虚拟局域网,是将一个物理的LAN在逻辑上划分成多个广播域的通信技术。 每个VLAN是一个广播域,VLAN内的主机间可以直接通信,而VLAN间则不能直接互通。这样,广播报…...
Linux域名解析
1.hosts:windows c盘下面 Linux: /etc/hosts 作用:实现名字解析,主要为本地主机名、集群节点提供快速解析。平面式结构,集中式数据库。 缺点:不便于查询更新 2.DNS:域名系统 作用:实现名字解析(分层性,层次性) FQDN:完全合格域名/全称域…...
树形结构和列表的区别
树形结构和列表在数据组织、表示方式以及应用场景等方面存在明显的区别。 首先,树形结构是一种非线性的数据结构,表现为层次的嵌套结构。每个节点可以有多个子节点,这些子节点又可以有自己的子节点,形成一个层次分明的结构。这种一…...
Go中json的解析和反解析
在解析过程中,反向解析不包含其中的部分参数也不会报错,这是需要注意的一点 31 func main() { // E: main redeclared in this block 32 type A…...
SpringBoot+vue实现退出功能
目录 1. 创建点击事件 2. 编写退出逻辑 在Spring Boot 和 Vue.js 应用中实现退出功能,通常涉及到前端的用户界面操作和注销逻辑。 以下是实现退出功能的步骤: 1. 创建点击事件 在header.vue中创建一个点击事件 <span style"text-decoratio…...
Linux操作系统中管理磁盘的另外一种操作方式。即LVM——逻辑卷管理操作
在Linux操作系统中管理磁盘的一种方法名称——LVM,这种管理磁盘的优势。 1.使用LVM去管理磁盘可以在不影响原来数据的前提下去扩容磁盘空间或者是缩减磁盘空间。 在LVM中除了上层逻辑券可以扩容,下层的券组也可以扩容。 2.使用LVM管理的磁盘支持快照功…...
Lua 零基础入门
Lua 1.Lua是什么? 1.1 Lua的历史 Lua是由Roberto Ierusalimschy、Luiz Henrique de Figueiredo和Waldemar Celes于1993年创建的,当时他们是巴西里约热内卢天主教大学计算机图形技术组(Tecgraf)的成员。在开发Lua之前࿰…...
记录DemoApplication.java不变蓝问题
问题 解决方案 一、点击右下角加载 二、右键项目 勾选maven...
22_Scala集合Seq
文章目录 Seq序列1.构建集合2.List集合元素拼接&&集合拼接3.可变Seq&&List3.1 ListBuffer创建3.2 增删改查3.3 相互转化 Appendix1.Scala起别名2.Seq底层3.关于运算符操作: :4.空集合的表示 Seq序列 –Seq表示有序,数据可重复的集合 1.构建集合 …...
机器学习初学者 6 个核心算法!建议收藏,反复观看!
今天再来介绍机器学习算法的基本概念和适用场景! 首先,引用一句英国统计学家George E. P. Box的名言:All models are wrong, but some are useful. 没有哪一种算法能够适用所有情况,只有针对某一种问题更有用的算法。 也就是说&…...
SpringBoot 打包所有依赖
SpringBoot 项目打包的时候可以通过插件 spring-boot-maven-plugin 来 repackage 项目,使得打的包中包含所有依赖,可以直接运行。例如: <plugins><plugin><groupId>org.springframework.boot</groupId><artifact…...
QpushButton绘制圆角矩形并绘制背景颜色
要在QPushButton的paintEvent中绘制按钮的颜色,可以创建一个自定义的QPushButton类,并重写它的paintEvent函数。在paintEvent函数中,可以使用QPainter来绘制按钮的背景颜色。 以下是一个简单的示例代码,演示如何在自定义的QPushB…...
Core Impact 21.5 (Windows) - 高级渗透测试
Core Impact 21.5 (Windows) - 高级渗透测试 Fortra | Core Security Penetration testing software, Release Feb 2024 请访问原文链接:Core Impact 21.5 (Windows) - 高级渗透测试,查看最新版。原创作品,转载请保留出处。 作者主页&…...
【Web前端】定位_浮动_音视频
1、定位 1.1想对定位 相对定位,使用relative,参考点是标签之前的位置,不是相对于父节点、同级节点或浏览器。相对定位通过left、right进行水平偏移,通过top、bottom进行垂直偏移Ieft:表示相对于原本位置的左外边界右移的距离rig…...
【Osek网络管理测试】[TG4_TC3]LimpHome状态下的睡眠中断
🙋♂️ 【Osek网络管理测试】系列💁♂️点击跳转 文章目录 1.环境搭建2.测试目的3.测试步骤4.预期结果5.测试结果1.环境搭建 硬件:VN1630 软件:CANoe 2.测试目的 验证DUT在LimpHome状态下的睡眠中断是否正确 分析:在跛脚运行状态下,满足睡眠条件后,进入到NM…...
【QT教程】QT6硬件数据库编程 QT硬件数据库
QT6硬件数据库编程 使用AI技术辅助生成 QT界面美化视频课程 QT性能优化视频课程 QT原理与源码分析视频课程 QT QML C扩展开发视频课程 免费QT视频课程 您可以看免费1000个QT技术视频 免费QT视频课程 QT统计图和QT数据可视化视频免费看 免费QT视频课程 QT性能优化视频免费看 免…...
unaipp推荐算法的汽车租赁系统zaxzu 微信小程序hbuiderx
随着现代汽车租赁管理的快速发展,可以说汽车租赁管理已经逐渐成为现代汽车租赁管理过程中最为重要的部分之一。但是一直以来我国传统的汽车租赁管理并没有建立一套完善的行之有效的汽车租赁管理系统,传统的汽车租赁管理已经无法适应高速发展,…...
STM32单片机中C语言的一些隐藏bug
必须类型一致的判断才能正常 double a-0.4; if(a < -0.2){print("低电平"); }这段代码可能未必如你所愿的运行. < 小于号的判断一定要类型一致, 尤其是牵扯到双精度类型的判断… 一定要保证符号 两边的数据类型一致才有可能得到你想要的结果. 代码里 -0.4 默认…...
车载测试到底怎么样?真实揭秘!
什么是车载智能系统测试? 车载智能系统,是汽车智能化重要的组成部分,由旧有的车载资通讯系统结合联网汽车技术所演进而来,随着软硬件技术的不断进步, 让车载智能系统拥有强大的运算能力及多元化的应用功能。 车载智能…...
RustGUI学习(iced)之小部件(八):如何使用svg部件显示矢量图形?
前言 本专栏是学习Rust的GUI库iced的合集,将介绍iced涉及的各个小部件分别介绍,最后会汇总为一个总的程序。 iced是RustGUI中比较强大的一个,目前处于发展中(即版本可能会改变),本专栏基于版本0.12.1. 概述 这是本专栏的第八篇,主要讲述svg矢量图形部件的使用,会结合实…...
gitlab设置保护分支
gitlab设置保护分支方法 进入代码仓库首页,找到settings下的repository并点击进入 找到Protected Branches 下的Exoand按钮,并点击展开 可以看到已经存在默认的保护分支,通常是master/main分支,也可以添加新的保护分支 新建保护分…...
五月加仓比特币
作者:Arthur Hayes Co-Founder of 100x. 编译:Liam 编者注:本文略有删减 (以下内容仅代表作者个人观点,不应作为投资决策的依据,也不应被视为参与投资交易的建议或意见)。 从四月中旬到现在,当你…...
为什么需要归档和管理合同
归档和管理合同是非常重要的,主要有以下几个原因: 1. 法律合规性:公司需要遵守法律和监管要求,合同是法律文件,涉及公司的权益和责任。归档和管理合同可以确保公司遵守法律法规,合同的内容和执行过程都符合…...
什么是DMA? STM32如何配置DMA?
您好,我们一些喜欢嵌入式的朋友一起建立的一个技术交流平台,本着大家一起互相学习的心态而建立,不太成熟,希望志同道合的朋友一起来,抱歉打扰您了QQ群372991598 一、DMA简介 1、DMA简介 DMA(Direct Memory Access&a…...
一级门户网站建设费用/网站营销推广有哪些
原文出处:http://blog.csdn.net/lhw1204/article/details/8439229 Window--Preferences--"General"--"Content Types",右边有个树形的text,展开找到"JSP",最底下有个"Default encoding",里面默认的是…...
wordpress 删除图片/重庆网络推广外包
简单的来说就是为了方便查找和导航代码用的。 下面举例如何快速的定位到我已经标识过的代码。#pragma mark 播放节拍器- (void) Run:(NSNumber *)tick{ //... } OK,那么如何查找呢,点击代码编辑器上面的导航栏即可:接着我修改一下代码:#pragm…...
购物网站如何做/如何在外贸平台推广
OpenCV cv.InRange功能是否仅适用于RGB图像?我可以使用此功能对灰度图像进行阈值处理吗?我收到一个错误,以下是我的代码:import cv2imagecv2.imread("disparitySGB.jpg")threshcv2.inRange(image,190,255);它给出以下错误ÿ…...
静态网站做毕业设计/seo在线培训机构
一. ThreadLocal是什么 ThreadLocal 可以理解为线程本地变量,每个线程拥有本地变量的副本,各个线程之间的变量互不干扰,主要用于保证多线程环境下变量的安全。 也就是对于同一个 ThreadLocal,每个线程通过 get、set、remove 接口…...
重庆网站制作外包公司/合肥百度seo代理
一、简介 不管是给电脑安装linux系统还是安装对应的虚拟机,都面对一个大问题,那就是下载源的问题!这篇博客就用来记载下载源,以后下载对应的镜像就方便了。 二、教育网主要镜像网站 1、东北地区: (1&…...
2015手机版网站制作/搜索网站关键词
前言:欢迎大家给我指出错误,一起进步。谢谢,也希望大家能认真看。 如果没有看Activity、View、Window之间关系的朋友,推荐先看一下,因为清楚了Activity与View之间的关系,对于触摸事件的传递理解起来也更…...