当前位置：首页 > news >正文

【Spatial-Temporal Action Localization（五）】论文阅读2020年

news 2026/3/7 15:19:22

文章目录

1. Actions as Moving Points
- 摘要和结论
- 引言：针对痛点和贡献
- 模型框架
- 实验

1. Actions as Moving Points

Actions as Moving Points (ECCV 2020)

摘要和结论

MovingCenter Detector (MOCdetector) 通过将动作实例视为移动点的轨迹。通过三个分支生成 tubelet detection results（bbos sequences）。

(1)中心分支(Center Branch)用于中心检测和动作识别;
(2)运动分支(Movement Branch)用于相邻帧的运动估计，形成运动点的轨迹;
(3)盒子分支(Box Branch)用于空间范围检测，通过直接回归每个估计中心的边界框大小。

Tubelet检测结果，可以进一步链接到生成具有匹配策略的视频级管。

引言：针对痛点和贡献

痛点：

Frame-level Detector：一些早期的方法独立地在每一帧上应用一个动作检测器，然后通过将这些帧级检测结果或跨时间跟踪一个检测结果来生成动作管。这些方法在进行帧级检测时不能很好地捕获时间信息，因此在现实中检测动作管效果较差。
Clip-level Detector（action tubelet detectors）： 现有的小管检测方法与目前主流的目标检测器(如Faster R-CNN[24]或SSD[20])密切相关，这些方法都是在大量的预定义锚盒上运行。ACT [15] 采用了从锚长方体回归的短帧和输出小管序列。STEP [36] 提出了一种渐进式方法，通过几个步骤细化提案以解决大位移问题并利用更长的时间信息。一些方法[12,17]首先链接帧或小管提议来生成管提议，然后进行分类。这些方法都是基于锚点的目标检测器，由于锚点盒数量多，其设计对锚点设计和计算成本比较敏感。
首先，随着剪辑时间的增加，可能的小管锚点数量会急剧增加，这对训练和推理都提出了很大的挑战。
通常需要设计更复杂的锚盒放置和调整，以考虑沿时间维度的变化。
这些基于锚点的方法直接沿着时间维度扩展2D锚点，将每个动作实例预定义为跨越空间和时间的长方体。这种假设缺乏灵活性，无法很好地捕捉相邻帧级边界框的时间相干性和相关性。

贡献：
提出了一个新的检测框架（动作实例视为移动点moving points），并且时Anchor-free的。

模型框架

在这里插入图片描述
将一组连续的帧作为输入，并将它们分别输入到一个有效的2D主干中，以提取帧级特征。我们设计了三个头部分支，以无锚的方式执行小管检测。这三个分支协同工作以从短剪辑中产生小管检测，这将通过遵循常见的链接策略进一步链接到在长未修剪的视频中形成动作管检测。

Backbone：输入 K 帧，每帧的分辨率为 W × H。R=4 是空间下采样率，B=64 表示通道数。为了保留完整的时间信息以供后续检测，我们不对时间维度执行任何下采样。具体来说，我们选择 DLA-34 [38] 架构作为我们遵循 CenterNet [41] 的 MOC 检测器特征主干。该架构采用编码器-解码器架构来提取每个帧的特征。提取的特征由三个头分支共享。
输出特征大小为：K * W/R * W/R * B
Center Branch: Detect Center at Key Frame ：目的是检测关键帧（即中心帧）中的动作实例中心，并根据提取的视频特征识别其类别。

时间信息对于动作识别很重要，因此我们设计了一个时间模块来估计动作中心并通过沿通道维度连接多帧特征图来识别其类别。
估计关键帧的中心热图 ˆL ∈ [0, 1] W/R × H/R ×C。C 是动作类别的数量。 ^L(x,y,c) 的值表示在位置 (x, y) 处检测到类 c 的动作实例的可能性，值越高表示可能性越强。
Movement Branch: Move Center Temporally：运动分支尝试关联相邻帧以预测动作实例中心沿时间维度的运动。

与中心分支类似，运动分支也利用时间信息来回归当前帧相对于关键帧的中心偏移。具体来说，运动分支以堆叠特征表示作为输入，并输出运动预测图 ˆM ∈ W/R × H/R ×(K×2)。 2K 通道表示 X 和 Y 方向上从关键帧到当前帧的中心移动。
Box Branch: Determine Spatial Extent：Box Branch 是 tubelet 检测的最后一步，重点是确定动作实例的空间范围。

与中心分支和运动分支不同，我们假设框检测仅取决于当前帧，并且时间信息不会有利于与类无关的边界框生成。 我们将在附录 B 中提供消融研究。从这个意义上说，这个分支可以以逐帧的方式进行。具体来说，Box Branch 输入单帧的特征 f j ∈ W/R × H/R ×B 并生成第 j 帧的尺寸预测图 ˆSj ∈W/R × H/R ×2 来直接估计边界框尺寸（即宽度和高度）。请注意，Box Branch 在 K 个帧之间共享。
Tubelet Linking：获得剪辑级检测结果后，我们将这些小管跨时间连接成最终的管。MOC模型会对输入的视频进行处理，提取出多个短序列的图像帧，并以每个序列为单位提取出最优的10个候选物体作为候选的区域，这些候选区域会在每个序列中按照一定步长进行滑动，并通过连接每个序列中的候选物体，形成最终的动作管道。
首先，在第一帧中，所有候选动作都会开始一个新的链接。在后续帧中，没有分配到任何现有链接的候选动作会开始新的链接。
在每一帧中，我们按照链接得分的降序扩展现有的链接，使用一个可用的tubelet候选动作作为链接的一部分。链接的得分是该链接中所有tubelet的平均得分。当满足以下三个条件时，一个候选动作只能分配给一个现有链接：(1)候选动作没有被其他链接选择，(2)链接和候选动作之间的重叠大于阈值τ，(3)候选动作拥有最高的得分。
如果一个存在的链接在连续的K帧中没有被扩展，它就会停止。我们为每个链接构建一个动作tube，其得分是链接中所有tubelet的平均得分。对于链接中的每一帧，我们平均包含该帧的tubelet的bbox坐标。初始化和终止确定tube的时间范围。具有低置信度和短持续时间的tube会被丢弃。~~由于这个链接算法是在线的，因此MOC可以应用于在线视频流。~~

实验

在这里插入图片描述

【Spatial-Temporal Action Localization（五）】论文阅读2020年

文章目录

1. Actions as Moving Points

摘要和结论

引言：针对痛点和贡献

模型框架

实验

相关文章：

【Spatial-Temporal Action Localization（五）】论文阅读2020年

Linux基本指令（中）——“Linux”

OWASP Top 10漏洞解析（3）- A3:Injection 注入攻击

Java自定义类加载器的详解与步骤

完美清晰，炫酷畅享——Perfectly Clear Video为你带来卓越的AI视频增强体验

如何让FileBeat支持http的output插件

解密人工智能：决策树 | 随机森林 | 朴素贝叶斯

web：[极客大挑战 2019]BabySQL

DRM全解析 —— plane详解（1）

数据结构总结

在SOLIDWORKS搭建一个简易的履带式机器人

C# 为什么要限制静态方法的使用

【已解决】Pyecharts折线图，只有坐标轴没有折线数据

win10搭建Selenium环境+java+IDEA（3）

String 、Stringbuffer、StringBuilder区别

如何提升爬虫IP使用效率？精打细算的方法分享

(高阶) Redis 7 第19讲缓存过期淘汰策略大厂篇

【四旋翼飞行器】模拟四旋翼飞行器的平移和旋转动力学（Simulink仿真实现）

Kaggle - LLM Science Exam（一）：赛事概述、数据收集、BERT Baseline

mmap底层驱动实现（remap_pfn_range函数）

Android Wi-Fi 连接失败日志分析

C++_核心编程_多态案例二-制作饮品

React Native 导航系统实战（React Navigation）

Spring Boot 实现流式响应（兼容 2.7.x）

React第五十七节 Router中RouterProvider使用详解及注意事项

Golang dig框架与GraphQL的完美结合

[10-3]软件I2C读写MPU6050 江协科技学习笔记（16个知识点）

C# SqlSugar：依赖注入与仓储模式实践

Razor编程中@Html的方法使用大全

群晖NAS如何在虚拟机创建飞牛NAS