connect-caption-and-trace——用于共同建模图像、文本和人类凝视轨迹预测
介绍
论文地址:https://arxiv.org/abs/2105.05964
源码地址:https://github.com/facebookresearch/connect-caption-and-trace
在过去,计算机视觉和自然语言处理领域的模型和算法的发展只有偶尔的重叠,但近年来,这两个领域的想法逐渐趋同。
特别是,重点是建立多模态模型来协调视觉和语言,这些模型的目标是模仿人类压缩信息和跨模态翻译的非凡能力。
然而,尽管取得了这些进展现有的图像标题数据集只提供简短的名词或短语级别的标题,并且而且,到目前为止,图像标题和视觉定位模型无法联合生成长篇自然语言标题和高度精确的词级视觉定位。
本文介绍了一个使用新颖的Transformer架构解决上述问题的论文,该架构对图像、标题和追踪这三种模式进行联合建模。
数据集和新任务概述
首先,描述了本文中使用的本地化叙事数据集和使用它的新任务。
本地化叙述数据集是通过同时记录注释者描述图像内容时的声音和鼠标痕迹来收集的。该数据集将由三种模式组成:图像、标题和追踪。
虽然关于这个数据集的原始论文只处理了一个任务**–从图像和痕迹中生成标题**–但本文提出了两个额外的、具有挑战性的新任务
- 以图像和标题作为输入,生成痕迹。
- 只用图像作为输入就能生成标题和痕迹。
这在下图中得到了体现。(表中第1行和第3行是新任务)
虽然这三项任务乍看之下是分开的,但本文提出了一个新颖的模型架构并提出了一个统一的框架对这三项任务进行联合建模。
MRL(Mirrored TransformeR)
本文没有为上述三个任务建立三个独立的模型,而是提出了一个模型,在一个统一的框架内有效地学习,并共享参数,由于其对称结构,本文将这个模型架构命名为Mirrored TransformeR(MITR)。该模型架构因其对称的结构而被命名为镜像传输(MITR)。(见下图)
特征值
模型的输入是一个图像特征、文本特征和痕迹特征的子集,每个特征都是
- 图像特征使用预先训练好的Faster R-CNNs来计算检测区域的视觉特征。
- 对于文本特征,与现有的研究一样,总和位置嵌入和词嵌入
- 在轨迹特征中,位置嵌入和输入轨迹对d个隐藏维度的投影被加在一起。
模型结构
该模型由三个模块组成:1)图像编码器,2)字幕编码-解码器和3)轨迹编码-解码器。(见下图)
让我们分别用xv、 xw和 xr来表示输入的图像特征、文本特征和痕迹特征。图像编码器hv定义如下。
这里,按照现有的研究,前馈网络(FFN)被定义为两个线性转换层,中间有一个ReLU激活函数,MultiHead定义如下。
标题编码器-解码器hw和跟踪编码器-解码器hr也定义如下。
这些模块被设计成具有镜像结构,在标题生成和跟踪生成这两项任务中,两种模式是对称的。
另外,通过执行现有研究中提出的屏蔽操作,即编码器指的是所有输入,而解码器只指部分过去的信息 ,上述两个模块的特点是能够在编码器和解码器的角色之间无缝切换。这两个模块可以在编码器和解码器的角色之间无缝切换。
总损失功能
最终的损失函数可以表述如下
其中,**L[trace]**是trace生成中预测的trace盒与地面真实trace盒之间的L1损失,L[caption]是caption生成中的cross-entropy损失,**Lr~→w→r是循环损失,而L[联合]**是联合字幕和追踪生成任务中的追踪损失和字幕损失之和。
实验
本文在四个数据集上进行了实验,COCO、Flickr 30k、ADE 20k和Open Images。
痕迹和标题的生成
使用本文提出的方法,跟踪生成(任务1)和标题生成(任务2)的结果如下图所示。结果显示在图2中。
如图所示,所提出的方法能够为这两项任务获得准确的生成结果。
联合字幕和痕迹生成
同时生成字幕和追踪的结果(任务3)如下图所示。
与只对字幕进行建模的基线相比,同时对痕迹和字幕进行建模,使字幕生成性能得到了显著提高。
然而,在没有人为痕迹注释生成标题的情况下,有时会观察到诸如同一对象或描述在一个标题中重复多次的缺陷,这表明需要采取一些措施,如保留所有参考对象的记录,以便在未来的发展中避免这种重复。有人建议,在未来的发展中,应采取诸如保留所有参考对象的记录的措施,以避免这种重复。
总结
提出了Mirrored TransformeR(MITR),这是一个新颖的转化器架构,它对图像、标题和追踪三种模式进行联合建模。
由于该模型有可能被用来解决各种社会问题,例如为社交媒体上的视障人士自动生成图片的本地化描述。未来的发展将受到密切关注。
相关文章:
![](https://img-blog.csdnimg.cn/img_convert/8d489d7afd3979a65b0dc64f78fa5e9c.jpeg)
connect-caption-and-trace——用于共同建模图像、文本和人类凝视轨迹预测
介绍 论文地址:https://arxiv.org/abs/2105.05964 源码地址:https://github.com/facebookresearch/connect-caption-and-trace 在过去,计算机视觉和自然语言处理领域的模型和算法的发展只有偶尔的重叠,但近年来,这两…...
![](https://www.ngui.cc/images/no-images.jpg)
iOS API方法弃用警告说明及添加
一、常见系统方法警告或说明释义 NS_DEPRECATED_IOS(6_0, 8_0) 释义:iOS用;且在6.0被引用,将在8.0后废弃此方法。NS_DEPRECATED(6_0, 6_6, 8_0, 8_8) 释义:MacOS与iOS中都可用;但Mac系统中是在6.0被引用,6…...
![](https://img-blog.csdnimg.cn/direct/a65e26f6fed240fb96db55f77a75ea87.png)
canvas绘制红绿灯路口(二)
系列文章 canvas绘制红绿灯路口(一) 无图不欢,先上图 优化项: 一:加入人行道红绿信号 二:加入专用车道标识(无方向标识时采用专用车道标识) 三:东南西北四项路口优化绘…...
![](https://img-blog.csdnimg.cn/direct/531e5c329fb14eb59bfea257c869f936.png#pic_center)
Semantic Kernel 直接调用本地大模型与阿里云灵积 DashScope
本文主要介绍如何在无需网关,无需配置 HttpClient 的情况下,使用 Semantic Kernel 直接调用本地大模型与阿里云灵积 DashScope 等 OpenAI 接口兼容的大模型服务。 1. 背景 一直以来,我们都在探索如何更好地利用大型语言模型(LLM&…...
![](https://www.ngui.cc/images/no-images.jpg)
【人工智能】深度解读 ChatGPT基本原理
ChatGPT是OpenAI开发的一种基于人工智能技术的自然语言处理工具,它代表了自然语言处理(NLP)技术的前沿进展。ChatGPT的基本原理建立在一系列先进技术和方法之上,主要包括GPT(Generative Pre-trained Transformer&#…...
![](https://img-blog.csdnimg.cn/direct/1b058adaed794366b73d753725a49864.png)
【教程】2024年如何快速提取爆款视频的视频文案?
关于如何提取爆款视频的视频文案,很朋友都不是很清楚,今天小编就带大家了解一下,希望这个知识点对大家有所帮助。 剪辑工作者有剪映、arctime、视频字幕等,但唯独编辑工作者或者编导没用直接提取视频文案的工具今天就说说可直接在…...
![](https://img-blog.csdnimg.cn/direct/07f61af9bc914a6682cf09216adc0309.jpeg#pic_center)
【MySQL连接器(Python)指南】02-MySQL连接器(Python)版本与实现
文章目录 前言MySQL连接器(Python)版本MySQL连接器(Python)实现总结前言 MySQL连接器(Python),用于让Python程序能够访问MySQL数据库。要想让Python应用程序正确高效地使用MySQL数据,就需要深入了解MySQL连接器的特性和使用方法。 MySQL连接器(Python)版本 下表总结了可用的…...
![](https://www.ngui.cc/images/no-images.jpg)
Vim入门教程
Vim是一个高度可配置的文本编辑器,用于创建和修改各种类型的文本文件。以下是一些基本的Vim使用示例,展示如何在Vim中进行编辑和操作。 1. 打开和保存文件 打开一个名为example.txt的文件: vim example.txt 打开多个文件,使用大…...
机器学习课程复习——隐马尔可夫
不考计算题 Q:概率图有几种结构? 条件独立性的公式? 顺序结构发散结构汇总结构Q:隐马尔可夫模型理解? 概念 集合:状态集合、观测集合 序列:状态序列、观测序列...
![](https://img-blog.csdnimg.cn/direct/f57b4d53f547424f94cc8825921d46bf.png)
大数据-数据分析初步学习,待补充
参考视频:数据分析只需3小时从入门到进阶(up亲身实践)_哔哩哔哩_bilibili 数据指标: 对当前业务有参考价值的统计数据 分类:用户数据,业务数据,行为数据 用户数据 存量: DAU&#…...
![](https://www.ngui.cc/images/no-images.jpg)
微服务为什么使用RPC而不使用HTTP通信
微服务架构中使用RPC(Remote Procedure Call)而不是HTTP通信,主要是因为RPC在某些方面相比HTTP具有显著的优势。以下是一些关键原因: 性能: RPC通常比HTTP性能更高。RPC协议可以使用二进制序列化格式(如gRP…...
![](https://img-blog.csdnimg.cn/direct/2777542368b04acabec886b32ec9427e.png)
怪物猎人物语什么时候上线?游戏售价多少?
怪物猎人物语是一款全新的RPG游戏,玩家在游戏中将化身为骑士,不断与怪物建立羁绊、不断成长,踏上前往外面世界的旅程,且最终目的地是以狩猎怪物为生的猎人世界。因为最近有不少玩家在关注这款游戏,所以下面就给大家分享…...
![](https://img-blog.csdnimg.cn/direct/2b1814ca4f024417921dcf95c585b7a8.png)
以创新思维点亮盲盒小程序:探索未来零售新趋势
随着科技的飞速发展和消费者需求的不断变化,零售行业正迎来一场前所未有的变革。在这个变革的浪潮中,盲盒小程序凭借其独特的魅力和巨大的潜力,成为未来零售新趋势的代表之一。本文将探讨如何以创新思维点亮盲盒小程序,探索未来零…...
![](https://img-blog.csdnimg.cn/img_convert/b67fa67aca3e818ed51a42b5de60298f.png)
DzzOffice集成功能最丰富的开源PHP+MySQL办公系统套件
DzzOffice是一套开源办公套件,旨在为企业和团队提供类似“Google企业应用套件”和“微软Office365”的协同办公平台。以下是对DzzOffice的详细介绍: 主要功能和应用: 网盘:支持企业、团队文件的集中管理,提供文件标签…...
![](https://img-blog.csdnimg.cn/direct/0a5c367c410b40c3ba86909addec72c2.jpeg)
关于生成式人工智能的发展
近年来,人工智能的发展引起了广泛关注,尤其是在深度学习领域,以深度神经网络为代表的人工智能技术已经取得了重大突破。然而,深度神经网络也有其局限性。深度学习技术在处理一些复杂问题时表现良好,但在解决更广泛的任…...
![](https://img-blog.csdnimg.cn/direct/bbeaffeb53934a8d8176bab168e8dc02.png)
Python魔法方法__call__深入详解
目录 1、魔法方法__call__初探 🧙♂️ 1.1 什么是__call__? 1.2 基础用法演示 1.3 自定义行为与参数传递 2、实现轻量级装饰器模式 🎗️ 2.1 装饰器概念回顾 2.2 利用__call__构建装饰器 2.3 深入理解装饰器应用场景 3、类实例变身函数调用 🔮 3.1 类似函数的…...
![](https://img-blog.csdnimg.cn/direct/937beee68db8422394aa45266a421881.png)
PyQt5 生成py文件不能运行;pushButton点击事件;QTextEdit 获取输入框内容
目录 cant open file c.pyuic: c.pyuic $FileName$ -o $FileNameWithoutExtension$.p PyQt5 生成py文件不能运行 pushButton点击事件 QTextEdit 获取输入框内容 整体运行代码: Creating a Qt Widget Based Application | Qt Creator Manual cant open file c.pyuic: c.…...
![](https://img-blog.csdnimg.cn/direct/f7b42c5df3d14ea8ac1c71278077d2eb.png)
HarmonyOS最佳实践文档总结汇总(面试题可能会问)
api12 上面来了最佳实现方案,未来面试题有的问了 编号分类内容子类链接 1性能体验设计体验设计概述 文档中心用户体验设计 文档中心流畅评测指标 文档中心交互流畅体验设计 文档中心视觉流畅体验设计 文档中心2性能优化开发高性能ArkUIUI组件性能优化文档中心合…...
![](https://img-blog.csdnimg.cn/direct/d673903746e6453e99b02ce4fc479dda.jpeg)
leetcode 56合并区间
思路 合并就是首先应该按照left左边界排序,排完序以后,如果i的左边界小于等于i-1的右边界,说明有重合,此时这两个可以合并,右边界应该取最大值。 代码 排序 我是定义了一个类,存储左右边界,先将数组转化…...
![](https://img-blog.csdnimg.cn/direct/aabb1f59c1b242299c2da3fdd639f256.png)
企业微信内嵌H5项目接入聊天功能
产品需求是,在列表中把符合条件的列表接入聊天功能,以下是详细步骤: 1.引入企业微信 <script src"https://res.wx.qq.com/wwopen/js/jsapi/jweixin-1.0.0.js"></script> 2.获取wx签名(必须要) /*** 获取wx签名**/ export function getWxJsApi(data) {r…...
![](https://img-blog.csdnimg.cn/direct/50eece6e30a549e18611a3e0d891361d.png)
微信小程序 this.setData高级用法(只更改单个数据)
合理使用 setData | 微信开放文档 1、页面 <view class"h-100px"></view> <view>最简单的数据:</view> <button bind:tap"handleAdd" data-type"1">点我加 1: {{text}}</button> &…...
![](https://www.ngui.cc/images/no-images.jpg)
使用npm发布自己的插件包
文章目录 1. 准备工作1.1 拥有一个npm账号1.2 准备你的插件代码1.3 编写package.json文件 2. 本地测试3. 发布到npm3.1 登录npm3.2 发布插件3.3 更新插件 4. 注意事项 在JavaScript和Node.js的生态系统中,npm(Node Package Manager)是一个非常…...
![](./transition-demo/4.jpg)
前端入门篇(五十二)练习6:transition过渡小动画
所以应该先找到第n个li,找到li再找img,li没有找错,底下又各自只有一个img,解决 ul li:nth-child(1) img { } 描述文字从下往上: 一开始描述也在框框下面,当hover时,translateY(0)࿰…...
![](https://img-blog.csdnimg.cn/direct/1324bf5ef9e34395b3230e09e9d14123.png)
scrapy模块的基础使用
scrapy模块是爬虫工作者最常用的一个模块之一,因它有许多好用的模板,和丰富的中间件,深受欢迎。 一,scrapy的安装 可以通过pypi的指引进行安装 在终端内输入以下代码: pip install scrapy 二,项目的建…...
![](https://www.ngui.cc/images/no-images.jpg)
如何在不降低网络安全防护的前提下,优化pcdn的流量清洗效率?
在不降低网络安全防护的前提下,优化PCDN的流量清洗效率是一个复杂但至关重要的任务。以下是一些建议,帮助您实现这一目标: 一.升级硬件与网络设备: 投资于高性能的硬件和网络设备,以确保流量清洗过程中的…...
![](https://www.ngui.cc/images/no-images.jpg)
linux发行版CentOS、Debian和Ubuntu的对比
一、CentOS、Debian和Ubuntu优缺点比较 CentOS、Debian和Ubuntu是目前国内云服务市场上最常见三个linux发行版本,在我们选购云服务时,要怎么选择?以下表格详细介绍了三者之间的优缺点和适用场景。 特性CentOSDebianUbuntu优点稳定性高&…...
![](https://img-blog.csdnimg.cn/img_convert/1b4fb3c9bca6142151bf316b0c9ecc00.png)
WordPress如何删除内存中的缓存?
今天boke112百科将某篇文章修改分类和内容更新后,发现文章底部的相关文章显示的内容跟文章分类、标签毫无关系,还是显示原来的旧内容。后来查看YIA主题相关文章的代码,才发现相关文章的数据保存到内存中的,而且是永不过期…...
![](https://www.ngui.cc/images/no-images.jpg)
【XML模版文件参数初始化】
XML 模版文件,内部存在需要自定义的数据,使用 Python 进行初始化。 1、存在一个 XML 模版文件,定义如下 <!-- 文件名称 index.xml --> <root><HEAD><VER>1.0</VER><SRC>10000000000000</SRC><…...
![](https://img-blog.csdnimg.cn/direct/83cbe39daf794dd7abd22e754fb9d5bf.png)
Golang | Leetcode Golang题解之第160题相交链表
题目: 题解: func getIntersectionNode(headA, headB *ListNode) *ListNode {if headA nil || headB nil {return nil}pa, pb : headA, headBfor pa ! pb {if pa nil {pa headB} else {pa pa.Next}if pb nil {pb headA} else {pb pb.Next}}retu…...
![](https://img-blog.csdnimg.cn/direct/a0bae6a038c14387a0de0af93b9c95c4.png)
基于FOC控制器的BLDC无刷直流电机控制系统matlab编程与仿真
目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于FOC控制器的BLDC无刷直流电机控制系统matlab编程与仿真,使用MATLAB编程实现,包括FOC控制器,clark,park等,不使用…...
![](https://img-blog.csdnimg.cn/1e88fa6335524e1fa7b8d200b3434faf.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBA6YOt5bqG5rGd,size_20,color_FFFFFF,t_70,g_se,x_16)
做bjd娃娃的手工网站/杭州新站整站seo
jQuery鼠标换轮滚动事件1、鼠标混轮滚动事件2、添加class属性3、实现屏幕滚动效果css代码部分html与javascript部分1、鼠标混轮滚动事件 代码如下所示: <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8">…...
![](/images/no-images.jpg)
wordpress 在线课程/真正免费建站
基于webstorm的ESlint检查错误:TypeError: this.cliEngineCtor is not a constructor 网上有很多解决办法都是【过时的】基于ESlint在不断升级,请降级ESlint版本即可 【此版本ESlint6.7.2不会报错】 选择ESlint版本最好的方式就是使用 Vue-cli脚手架创建一个Vue3的…...
![](/images/no-images.jpg)
从零开始做一个网站需要多少钱/最新疫情新闻100字
计算轮廓点的最小凸包像素面积,最小外接圆的快速方法 计算轮廓点的最小凸包像素面积和求解最小外接圆的方法有很多,本文各举出一种比较简单且快速的方法,读者可根据实际情况定义返回值精度,本文采用的是整型精度,代码…...
![](/images/no-images.jpg)
学习之家网站/龙华线上推广
1、响应头文件Open Buffer{#进行判断后端服务返回的响应文件是否大大于响应头大小设置if proxy_buffer_size > c.proxy_buffer_size:#进行缓存,每个连接缓冲区最大数量,proxy_buffersc.proxy_buffer_size(number,size) >> connect.hash(c.proxy_buffer_siz…...
![](http://www.cnblogs.com/Images/OutliningIndicators/ExpandedBlockEnd.gif)
分类信息网站开发报价/哈尔滨seo优化培训
随着Internet的飞速发展,W3C成员意识到必须找到一种办法将数据和Web的表现方式分离出来,于是XML诞生了。当今的XML已经成为IT领域各个数据(特别是文档)的首选格式。由于它具有标记不同字段的能力,因此使搜索变得更简单…...
![](https://img-blog.csdnimg.cn/img_convert/08e170f15b2e94e9cebf7aed79480bfa.png)
现在做网站还用dw做模板了吗/建设网站的步骤
近期,爱奇艺携手华为在华为cLab创新实验室完成了基于5G MECCDN的边缘加速业务验证,通过实现在接近用户一端完成数据存储、计算与分析——即5G MEC的规模化落地,打通5G商业落地的核心技术的关键一环,在视频行业中抢跑5G商用落地。2…...