当前位置：首页 > news >正文

【多模态】20、OVR-CNN | 使用 caption 来实现开放词汇目标检测

news 文章来源：https://blog.csdn.net/jiaoyangwm/article/details/132000797 2025/2/9 0:14:56

在这里插入图片描述

文章目录

- 一、背景
- 二、方法
- - 2.1 学习视觉-语义空间
  - 2.2 学习开放词汇目标检测
- 三、效果

论文：Open-Vocabulary Object Detection Using Captions

代码：https://github.com/alirezazareian/ovr-cnn

出处：CVPR2021 Oral

一、背景

目标检测数据标注很耗费人力，现有的开集大型数据，如 Open Images 和 MSCOCO 数据集大约包含 600 个数据类别

如果想要识别现实世界中的任何物体，则需要更多的人工数据标注

但人类学习显示视觉世界中的物体很大程度上是基于语言的监督信号，也可以使用几个简单的例子来泛化到其他目标上，而不需要所有的目标实例。

所以在本文中，作者模仿人类的能力，设计了一个双阶段开集目标检测 Open-Vocabulary object Detection（OVD）

首次提出了使用 image-caption pairs 来获得无限的词汇，类似于人类从自然语言中学习一样，然后使用部分标注实例来学习目标检测
这样就能够仅仅使用有限类别的标注样本就可以了，其他的就从 caption 中来学习
这些样本对儿获得起来更加方便，而且网络上就有很多现成的

图 2 展示了几种非常相近的任务的差别：

Open-vocabulary：通过语言词汇来将目标类和基础类进行关联
Zero-Shot：主要目标是实现从见过的类上扩展到没见过的类上
Weaky Supervised：

二、方法

大体框架结构如图 1 所示：

要训练能检测任何目标（ target vocabulary： $V_T$ ）的模型需要下面的几种信息
大量的 image-caption 数据集（包含大量的多样的单词）： $V_C$
较少数据量的检测数据集（有基础类别框标注信息)： $V_B$

在这里插入图片描述

图 3 展示了详细的结构：

本文方法基于 Faster R-CNN，在基础类别上进行训练，在目标类别上进行测试
预训练：为了避免在基础类别上过拟合，作者在大量词汇量 $V_C$ 下进行了预训练（上半部分），让模型能够学习到更全面的语义信息，而不是只有基础类别的语义信息。即在 image-caption pairs 上通过 grounding、masked language modeling (MLM) 、 image-text matching 来训练 ResNet 和 V2L layer，V2L layer 是 vision2language 模块，负责将视觉特征变换到文本空间，好让两个不同模态的特征能在同一空间来衡量相似性。
训练：预训练后使用得到的 ResNet 和 V2L layer 来初始化 Faster R-CNN ，以此来实现开放词汇目标检测，ResNet 50 用于 backbone，V2L layer 是会用于对每个 proposal 特征进行变换的，变换之后会与类别标签的文本特征计算相似度来进行分类的，训练的时候会固定 V2L layer 的，使其学习到的广泛的信息能够泛化到新类
整个模型框架和 Faster RCNN 一样，只是将最后的 cls head 替换成了 V2L，也就是换成了一个将 visual feature 投影到 text embedding space 的投影矩阵

在这里插入图片描述

2.1 学习视觉-语义空间

本文提出了一个 Vision to Language（V2L）映射层，和 CNN 一起在预训练中进行学习，使用 grounding 任务和和一些辅助自监督任务来训练 CNN 和 V2L layer。

输入：image-caption pairs
特征提取：image 输入 visual backbone（ResNet50），caption 输入 language backbone（BERT），分别提取对应的特征
特征融合：将两种特征输入多模态特征融合器中，来抽取多模态的 embedding
目标：让每个 caption 的 word embedding 和其对应的图像区域更加接近，且作者设定了一个 global grounding score 来度量其关系，成对儿的 image-caption 得分要最大，不成对儿的 image-caption 得分要小
负样本对儿：作者使用同一个 batch 中的其他图像作为每个 caption 的negative examples，也使用同一 batch 中的其他 caption 作为每个 image 的 negative examples
grounding objective functions 如下：
最终的 loss:

2.2 学习开放词汇目标检测

在完成 ResNet 和 V2L 的预训练后，作者要把其学习到的东西迁移到 object detection 上，方式就是用训练后的特征来初始化 Faster R-CNN

首先，使用经过预训练的 ResNet50 的 stem 和前 3 个 block 来抽取图像特征
然后，使用 region proposal network 来预测目标可能出现的位置和 objectness score，并且使用 NMS 和 RoI pooling 来得到每个目标框
之后，给每个 proposal 使用 ResNet50 的第 4 个 block （和一个 pooling）来提取每个 proposal 的最终特征
最终，对比每个 proposal 被编码到 word space 中的特征和基础类别 k 的得分

三、效果

在这里插入图片描述

【多模态】20、OVR-CNN | 使用 caption 来实现开放词汇目标检测

文章目录一、背景二、方法2.1 学习视觉-语义空间2.2 学习开放词汇目标检测三、效果论文：Open-Vocabulary Object Detection Using Captions 代码：https://github.com/alirezazareian/ovr-cnn 出处：CVPR2021 Oral 一、背景目标检测数…...

编程日记 2023/7/30 20:20:52

网络编程 IO多路复用 [select版] (TCP网络聊天室)

//head.h 头文件 //TcpGrpSer.c 服务器端 //TcpGrpUsr.c 客户端 select函数功能：阻塞函数，让内核去监测集合中的文件描述符是否准备就绪，若准备就绪则解除阻塞。原型： #include <sys/select.…...

编程日记 2023/7/30 20:19:50

数学建模学习（7）：单目标和多目标规划

优化问题描述优化优化算法是指在满足一定条件下,在众多方案中或者参数中最优方案,或者参数值,以使得某个或者多个功能指标达到最优,或使得系统的某些性能指标达到最大值或者最小值线性规划线性规划是指目标函数和约束都是线性的情况 [x,fval]linprog(f,A,b,Aeq,Beq,LB,U…...

编程日记 2023/7/30 20:18:49

Element UI如何自定义样式

简介 Element UI是一套非常完善的前端组件库，但是如何个性化定制其中的组件样式呢？今天我们就来聊一聊这个举例就拿最常见的按钮el-button来举例，一般来说默认是蓝底白字。效果图如下可是我们想个性化定制，让他成为粉底红字应…...

编程日记 2023/7/30 20:17:48

protobuf入门实践2

如何在proto中定义一个rpc服务? syntax "proto3"; //声明protobuf的版本package fixbug; //声明了代码所在的包 （对于C来说就是namespace)//下面的选项，表示生成service服务类和rpc方法描述， 默认是不生成的 option cc_generi…...

编程日记 2023/7/30 20:16:45

adb shell使用总结

文章目录日志记录系统概览adb 使用方式 adb命令日志过滤按照告警等级进行过滤按照tag进行过滤根据告警等级和tag进行联合过滤屏蔽系统和其他App干扰，仅仅关注App自身日志查看“当前页面”Activity文件传输截屏和录屏安装、卸载App启动activity其他日志记录系统概…...

编程日记 2023/7/30 20:15:44

UG NX二次开发（C++）-Tag的含义、Tag类型与其他的转换

文章目录 1、前言2、Tag号的含义3、tag_t转换为int3、TaggedObject与Tag转换3.1 TaggedObject定义3.2 TaggedObject获取Tag3.3 根据Tag获取TaggedObject4.Tag与double类型的转换1、前言在UG NX中，每个对象对应一个tag号，C++中，其类型是tag_t，一般是5位或者6位的int数字，…...

编程日记 2023/7/30 20:14:43

Informer 论文学习笔记

论文：《Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting》代码：https://github.com/zhouhaoyi/Informer2020 地址：https://arxiv.org/abs/2012.07436v3 特点： 实现时间与空间复杂度为 O ( …...

编程日记 2023/7/30 20:13:41

c语言位段知识详解

本篇文章带来位段相关知识详细讲解！ 如果您觉得文章不错，期待你的一键三连哦，你的鼓励是我创作的动力之源，让我们一起加油，一起奔跑，让我们顶峰相见！！！ 目录一.什么是…...

编程日记 2023/7/30 20:12:41

ffmpeg option的解析 aresample_swr_opts是AVFilterGraph中的option。 static const AVOption filtergraph_options[] {{ "thread_type", "Allowed thread types", OFFSET(thread_type), AV_OPT_TYPE_FLAGS,{ .i64 AVFILTER_THREAD_SLICE }, 0, INT_MA…...

编程日记 2023/7/30 20:11:39

CAN学习笔记3：STM32 CAN控制器介绍

STM32 CAN控制器 1 概述 STM32 CAN控制器（bxCAN），支持CAN 2.0A 和 CAN 2.0B Active版本协议。CAN 2.0A 只能处理标准数据帧且扩展帧的内容会识别错误，而CAN 2.0B Active 可以处理标准数据帧和扩展数据帧。 2 bxCAN 特性波特率…...

编程日记 2023/7/30 20:10:38

软工导论知识框架（二）结构化的需求分析

本章节涉及很多重要图表的制作，如ER图、数据流图、状态转换图、数据字典的书写等，对初学者来说比较生僻，本贴只介绍基础的轮廓，后面会有单独的帖子详解各图表如何绘制。一.结构化的软件开发方法：结构化的分析、设计、…...

编程日记 2023/7/30 20:09:34

[SQL挖掘机] - 算术函数 - abs

介绍: 当谈到 SQL 中的 abs 函数时，它是一个用于计算数值的绝对值的函数。“abs” 代表 “absolute”（绝对），因此 abs 函数的作用是返回一个给定数值的非负值（即该数值的绝对值）。 abs 函数接受一个参数&a…...

编程日记 2023/7/30 20:08:32

vue拼接html点击事件不生效

vue使用ts，拼接html，点击事件不生效或者报 is not defined 点击事件要用onclick 不是click let data{name:测,id:123} let conHtml <div> "名称：" data.name "<br>" <p class"cursor blue&quo…...

编程日记 2023/7/30 20:07:30

【Spring】Spring之依赖注入源码解析

1 Spring注入方式 1.1 手动注入 xml中定义Bean，程序员手动给某个属性赋值。 set方式注入 <bean name"userService" class"com.firechou.service.UserService"><property name"orderService" ref"orderService"…...

编程日记 2023/7/30 20:06:28

【微软知识】微软相关技术知识分享

微软技术领域一、微软操作系统： 微软的操作系统主要是 Windows 系列，包括 Windows 10、Windows Server 等。了解 Windows 操作系统的基本使用、配置和故障排除是非常重要的。微软操作系统（Microsoft System）是美国微软开发的Wi…...

编程日记 2023/7/30 20:05:27

12.python设计模式【观察者模式】

内容：定义对象间的一种一对多的依赖关系，当一个对象的状态发生改变的时候，所有依赖于它的对象得到通知并被自动更新。观者者模式又称为“发布-订阅”模式。比如天气预报，气象局分发气象数据。角色： 抽象主题&#xf…...

编程日记 2023/7/30 20:04:25

重生之我要学C++第五天

这篇文章主要内容是构造函数的初始化列表以及运算符重载在顺序表中的简单应用，运算符重载实现自定义类型的流插入流提取。希望对大家有所帮助，点赞收藏评论，支持一下吧！ 目录构造函数进阶理解 1.内置类型成员在参数列表中的定义 …...

编程日记 2023/7/30 20:03:24

复习之linux高级存储管理

一、lvm----逻辑卷管理 1.lvm定义 LVM是 Logical Volume Manager（逻辑卷管理）的简写，它是Linux环境下对磁盘分区进行管理的一种机制。逻辑卷管理器(LogicalVolumeManager)本质上是一个虚拟设备驱动，是在内核中块设备和物理设备…...

编程日记 2023/7/30 20:02:22

HuggingGPT Solving AI Tasks with ChatGPT and its Friends in Hugging Face

总述 HuggingGPT 让LLM发挥向路由器一样的作用，让LLM来选择调用那个专业的模型来执行任务。HuggingGPT搭建LLM和专业AI模型的桥梁。Language is a generic interface for LLMs to connect AI models 四个阶段 Task Planning： 将复杂的任务分解。但是这里…...

编程日记 2023/7/30 20:01:21

java工程重写jar包中class类覆盖问题

结论：直接在程序中复写jar中的类即可原因：一般我java工程是运行在tomcat容器中，tomcat容易在加载我们工程类和jar包是的优先级为： 我们工程的class 先于我们工程lib下的jar 重复的类只加载一次，加载我们复写后的类后…...

编程日记 2023/7/30 20:00:20

Mybatis基于注解与XML开发

文章目录 1 关于SpringBoot2 关于MyBatis2.1 MyBatis概述2.2 MyBatis核心思想2.3 MyBatis使用流程3 MyBatis配置SQL方式3.1 基于注解方式3.1.1 说明3.1.2 使用流程3.1.3 常用注解 3.2 基于XML方式3.2.1 相比注解优势3.2.2 使用流程3.2.3 常用标签 1 关于SpringBoot SpringBoot…...

编程日记 2023/7/30 19:59:18

数字化转型导师坚鹏：数字化时代扩大内需的8大具体建议

在日新月异的数字化时代、复杂多变的国际化环境下，扩大内需成为推动经济发展的国家战略，如何真正地扩大内需？结合本人15年的管理咨询经验及目前实际情况的深入研究，提出以下8大具体建议： 1、制定国民收入倍增计划。结…...

编程日记 2023/7/30 19:58:17

M1/M2 通过VM Fusion安装Win11 ARM，解决联网和文件传输

前言最近新入了Macmini M2，但是以前的老电脑的虚拟机运行不起来了。😅，实际上用过K8S的时候，会发现部分镜像也跑不起来，X86的架构和ARM实际上还是有很多隐形兼容问题。所以只能重新安装ARM Win11，幸好微软…...

编程日记 2023/7/30 19:57:16

Linux中显示系统正在运行的进程的命令

2023年7月29日，周六上午在Linux中，ps命令用于显示当前系统中正在运行的进程， ps应该是processes snapshot（进程快照）的缩写。以下是ps命令的常见用法和示例： 显示当前用户的所有进程：ps 显示…...

编程日记 2023/7/30 19:56:15

vite中安装less

使用vite创建的项目，默认是没有安装less的如果直接在style中书写less 会报下图错误： 解决方案： npm install --save less 在package.json中查看是否安装成功安装完成刷新页面，问题解决...

编程日记 2023/7/30 19:55:13

Aduino中eps环境搭建

这里只记录Arduino2.0以后版本：如果有外网环境，那么可以轻松搜到ESP32开发板环境并安装，如果没有，那就见下面操作： 进入首选项，将esp8266的国内镜像地址填入，然后保存，在开发板中查…...

编程日记 2023/7/30 19:54:12

python——案例二求两个数的和

#案例二求两个数的和 num1input(请输入第一个数字：) num2input(请输入第二个数字：) sumfloat(num1)float(num2) #计算公式 print(sum) #显示结果输入num11、num22得到结果sum3...

编程日记 2023/7/30 19:53:11

一文了解 Android 车机如何处理中控的旋钮输入？

前言上篇文章《从实体按键看 Android 车载的自定义事件机制》带大家了解了 Android 车机支持自定义输入的机制 CustomInputService。事实上，除了支持自定义事件，对于中控上常见的音量控制、焦点控制的旋钮事件，Android 车机也是支持的。那…...

编程日记 2023/7/30 19:52:10

小红书推广方法总结

大家好，我是网媒智星，今天跟大家分享一下小红书的推广方法和经验。一、平台简介 1、什么是小红书？ 小红书是一个消费决策/生活方式平台，用户可以通过图片、文案、视频等方式分享美好生活。 2、用户画像 - 2亿月活跃…...

编程日记 2023/7/30 19:51:09

wordpress seo标题/百度投诉中心人工电话

但是在portlet中我们一般不直接使用xxUtil方法，所以要通过BooksLocalServiceUtil方法进行调用，需要再进行一层包装，找到xxx.service.impl里面的BooksLocalServiceImpl类，我们在里面添加一个方法名为getAllBooks，然后在…...

编程日记 2025/2/8 22:09:55

wordpress 主题缓存/企业邮箱怎么开通注册

检查一下采购订单...

编程日记 2025/2/8 21:00:25

网站怎么做有创意/优秀软文案例

首先介绍矩阵的迹（trace）的概念： 如果一个矩阵是方阵，那它的迹tr(A)等于对角线的元素之和。多元函数判断驻点性质的方法： 找到多元函数jacobian向量（即目标函数对自变量的一阶偏导数向量）为…...

编程日记 2025/2/8 19:50:17

深圳网站制作与建设公司/免费网络营销软件

####定义AOP，面向领域编程，是在不修改源代码的情况下，通过编译时或者运行时的代码修改来实现改变程序功能的目的。####问题和实现例如如何在c#中实现类似于python的方法装饰器的功能呢？fody这个库，通过修改编译好的dll…...

编程日记 2025/2/8 19:00:45

中心网站建设/青岛神马排名优化

LeetCode1.两数之和JavaScript 给定一个整数数组和一个目标值，找出数组中和为目标值的两个数。你可以假设每个输入只对应一种答案，且同样的元素不能被重复利用。实例： 给定 nums [2, 7, 11, 15], target 9因为 nums[0] nums[1] 2 7 9所…...

编程日记 2025/2/8 18:27:00

怎么免费做自己的网站/合肥百度推广公司哪家好

先来介绍下 media，确切的说应该是 CSS media queries（CSS 媒体查询），媒体查询包含了一个媒体类型和至少一个使用如宽度、高度和颜色等媒体属性来限制样式表范围的表达式。CSS3 加入的媒体查询使得无需修改内容便可以使样式应用于某…...

编程日记 2025/2/8 18:02:43

文章目录

一、背景

二、方法

2.1 学习 视觉-语义 空间

2.2 学习开放词汇目标检测

三、效果

相关文章：

2.1 学习视觉-语义空间