当前位置：首页 > news >正文

一文轻松入门DeepSort

news 2026/3/15 5:37:13

1.背景

Deepsort是目标检测任务的后续任务，得益于Yolo系列的大放异彩，DeepSort目标追踪任务的精度也不断提高，同时，DeepSort属于目标追踪任务中的多目标追踪，即MOT（Multiple Object Tracking，MOT），追踪多个目标的位置。

2.引言-Sort算法

sort算法是deepsort的前身，本身引入了卡尔曼预测和匈牙利匹配算法。

sort算法的匹配过程如下所示：
1.对于之前的每一个track，利用卡尔曼算法预测出下一帧的情况（包括八个部分：x,y,h/w,h,4个速度量）与detect到的每一个框进行IOU匹配。

2.基于IOU矩阵，进行匈牙利匹配，对于匹配的结果有以下三种

（1）有剩余的track未被匹配到，直接删除这些track；

（2）有检测框没和之前的track相匹配，即当前的yolo框出的先验框找不到前几帧的任一图像进行追踪，则将此框作为新的track加入到下一次的匹配当中；

（3）对于所有匹配到的track，继续加入下一次的track进行下一次的追踪

这里的匈牙利匹配，上图中是IOU Match那里，即基于IOU距离构造的成本矩阵对Detection和Track作匹配，SK-learn库的linear_assignment_和scipy库的linear_sum_assignment都实现了这一算法，只需要输入cost_matrix即代价矩阵就能得到最优匹配。

sort的缺点是，没有引入REID深度学习特征，REID是通过预训练好的模型进行特征提取，deepsort中。

3.deepsort算法

3.1卡尔曼滤波

定义：利用线性系统状态方程，通过系统输入输出观测数据，对系统状态进行最优估计的算法。由于观测数据中包括系统中的噪声和干扰的影响，所以这一最优估计也可看作是滤波过程。

tips：（1）线性系统，意思是卡尔曼滤波必须一帧一帧的进行检测，不能跳帧，否则无法进行估计。

（2）分predict和update两部分。predict基于先验的model（状态转移信息），如小车运动方程等，从k-1时刻根据model predict k时刻的状态和协方差；update是基于当下k时刻传感器（观测信息），对prediction进行更新。每一帧做完都要返回来更新之前的卡尔曼增益矩阵。

3.2匈牙利算法

给出代价矩阵后，借助匈牙利算法即可计算出类似于预测框与检测框之间最小距离的对应关系

具体计算过程如下

代价矩阵包括REID和运动信息构建的代价矩阵，这个代价矩阵位于级联匹配之中。

代价矩阵还包括IOU匹配，位于IOU Match中。

3.3 级联匹配

输入为：

1、基于第k-1帧由卡尔曼滤波predict到的当前第k帧所有confirmed状态的track；

2、当前第k帧的所有detection

输出为：

1、match上的detection、track；

2、没有match上的track；

3、没有match上的detection。

大概工作流程为，deepsort在第一步会先进行级联匹配，级联匹配时，会优先使用到匹配之前已经匹配过的且按照匹配次数降序排列帧，对于连续匹配3帧的track，会将其置为confirmed状态，对于之前已经匹配的confirmed状态帧，若连续70帧未匹配，将被剔除，只有连续匹配3帧的track才会进入级联匹配，否则会直接进入IOU匹配。

REID和卡尔曼估计在级联匹配过程中生效，对于在级联匹配中未匹配的检测框将和未确认的track一起放入IOU匹配中。

级联匹配按照代价矩阵的距离进行计算（检测框与track之间的代价距离），其中设置有门单元，即对于计算出的代价矩阵中的值，若代价距离大于门限值，则不认为他们直接有关系，在代码中会对这个距离加上一个极小数，然后将大于门限值的值进行剔除。

3.4REID

行人重识别，利用预训练的模型，来提取当前yolo检测到的bbox和当前所有track的128维特征，对于每一个track，不仅检测其上一帧的特征，会保留大概前100帧中计算出的每一帧的特征，bbox的特征与这100帧的特征列表全部进行一次比较，形如[128维向量，128维向量，128维向量，...，128维向量]，选择余弦相似度最大的一帧的特征。

4.追踪任务流程

对于第一帧，不会有track，也即不会有框出现

对于第二帧，还没有confirmed的track，所以不会进入级联匹配，会直接进入到IOU匹配，利用卡尔曼预测的八个值【x,y,w/h........】和检测框构建代价矩阵，然后继续更新卡尔曼参数。

注意，每一次对于匹配到的track，都要更新其卡尔曼参数

代价矩阵的构建包括两大部分：

第一大部分位于级联匹配：

1.REID构建的对于bbox的128维向量和confirmed的track的前100帧的128维向量构建的余弦距离的代价矩阵；（deepsort的核心）

2.卡尔曼估计得到的运动信息，即八个状态量【】和当前框bbox检测到的运动信息，即bbox的八个状态量之间的差异构建的代价矩阵

第二大部分为IOU 匹配

利用检测出的框detect和后验估计，即卡尔曼估计得到的框计算其iou距离，构建代价矩阵。

一文轻松入门DeepSort

1.背景

2.引言-Sort算法

3.deepsort算法

3.1卡尔曼滤波

3.2匈牙利算法

3.3 级联匹配

3.4REID

4.追踪任务流程

相关文章：

一文轻松入门DeepSort

关于linux openssl的自签证书认证与nginx配置

Mybatis--关联关系映射

Golang基本的网络编程

Postgresql的一个bug_涉及归档和pg_wal

轻量、便捷、高效—经纬恒润AETP助力车载以太网测试

【跟小嘉学 Rust 编程】二十四、内联汇编(inline assembly)

综合实训-------成绩管理系统 V1.1

13.108.Spark 优化、Spark优化与hive的区别、SparkSQL启动参数调优、四川任务优化实践：执行效率提升50%以上

大模型综述论文笔记6-15

树的介绍（C语言版）

Android studio实现圆形进度条

基于Halcon的喷码识别方法

【Sword系列】Vulnhub靶机HACKADEMIC: RTB1 writeup

idea使用maven时的java.lang.IllegalArgumentException: Malformed \uxxxx encoding问题解决

linux深入理解多进程间通信

使用自定义注解+aop实现公共字段的填充

Unity 安卓（Android）端AVProVideo插件播放不了视频，屏幕一闪一闪的

无涯教程-JavaScript - DMIN函数

GaussDB数据库SQL系列-层次递归查询

DLSSTweaks开源工具：突破DLSS限制的深度定制解决方案

如何提升科研插图专业性？Bioicons开源图标库的3大核心价值

SiameseAOE快速入门：一键加载示例，轻松抽取文本情感

零成本玩转工业控制！手把手教你搭建汇川PLC仿真环境

开源吐槽大会：推动项目改进的利器

iOS设备上GoodNotes卡死自救指南：无需备份也能恢复笔记（附Filza详细操作）

同步四开关升降压电源设计：MP28167-A 3A宽输入可编程DC-DC模块

实战指南：基于快马ai从centos8下载到基础web服务自动部署全流程

倍速链流水线源头厂家选型：3个必看核心参数

40G QSFP+ ER4 光模块技术解析：安科士硬核方案赋能远距离高速光通信