Target-absent Human Attention
Abstract
预测人类注视行为对于构建能够预测用户注意力的人机交互系统非常重要。已经开发出计算机视觉模型来预测人们在搜索目标物体时的注视点。但当目标不存在于图像中时,又该如何处理呢?同样重要的是要了解当人们找不到目标时,他们如何进行搜索,以及何时停止搜索。在本文中,我们提出了一种数据驱动的计算模型,解决了搜索终止问题,并预测了人们在搜索图像中没有出现目标时的搜索注视路径。我们将视觉搜索建模为一个模仿学习问题,并通过一种新的状态表示方法来表示观察者通过注视点所获得的内部知识,称为聚焦特征图(FFMs)。FFMs将一个模拟的中央视网膜集成到一个预训练的卷积神经网络(ConvNet)中,该网络生成一个网络内的特征金字塔,并且几乎没有计算开销。我们的方法将FFMs作为状态表示集成到反向强化学习中。从实验结果来看,我们在COCO-Search18数据集上提高了预测人类目标缺失搜索行为的现有技术水平。代码可在以下链接找到:https://github.com/cvlab-stonybrook/Target-absentHuman-Attention。
关键词:视觉搜索、人类注意力、反向强化学习、注视路径预测、终止预测、目标缺失
Introduction
人类用来优先选择和筛选视觉信息的注意力机制[37,36,35],引起了计算机视觉研究人员的兴趣,他们希望在机器中复制这种选择效率[43,8,44,7,38]。研究这种效率的最常用范式是视觉搜索任务,其中效率是通过检测图像中的目标所需的注意力转移(凝视注视点)次数来衡量的。但如果目标不在图像中呢?理解目标缺失搜索中的凝视行为(包括搜索终止)将有助于人机交互应用,并解决注意力研究中的一些基本问题。任何预测人类搜索注视点的模型,如果没有解决目标缺失搜索所带来的独特问题,都不算完整。
灵长类动物的中央视网膜(黄斑)神经解剖结构使得视觉锐度随着与高分辨率中心黄斑的距离增加而降低。在寻找目标时,这种黄斑视网膜驱使人们选择性地将眼睛移向最有可能是目标的图像位置,从而为目标识别任务提供最高分辨率的视觉输入,每次凝视的移动都由来自周边视觉的低分辨率输入引导。认识到人类视觉输入是通过黄斑视网膜过滤的,对于理解和预测人类凝视行为至关重要,尤其是在目标缺失搜索中,因为此时没有明确的目标信号,凝视行为更多地受到与其他物体的上下文关系和可能提供目标位置的空间线索的驱动。
为了模拟黄斑视网膜以预测人类的搜索凝视,Zelinsky等人[44]直接将预训练的ResNet[16]应用于黄斑图像[34],以提取特征图作为状态表示。Yang等人[43]提出了DCB(多尺度卷积块),通过分别使用完整分辨率图像和其模糊版本的分割图,近似高分辨率的黄斑和低分辨率的外周,后者通过预训练的Panoptic-FPN[22]进行预测。像其他预测人类注意力的模型[31,25,26,7,46]一样,这些方法依赖于预训练网络来提取图像特征,并通过迁移学习训练较小的下游网络,通常是由于缺乏足够的人类凝视数据进行训练。值得注意的是,这些方法应用了在完整分辨率图像上预训练的网络(例如,使用ImageNet[39]训练的ResNets[16]),并将其应用于模糊图像,期望这些预训练网络能够模拟人类如何感知模糊图像。然而,卷积神经网络(ConvNets)对图像扰动非常敏感[17,13],因此从模型中提取的模糊图像特征在目标识别的上下文中几乎没有意义(与人类视觉不同,人类视觉会主动寻求低分辨率外周视觉的指导来帮助目标识别)。
“缺乏足够的人类凝视数据”与“使用预训练的ResNet”之间的关联,主要体现在如何通过迁移学习和预训练网络来缓解数据不足问题,特别是在目标任务(如人类凝视点预测)上。下面是详细的解释:
1. 缺乏足够的人类凝视数据
在凝视点预测等任务中,标注数据(即标出图片中人眼凝视的位置)通常是稀缺的、昂贵的,并且收集过程非常复杂。例如,收集大量带有准确凝视位置的图像需要人工标注,这不仅耗时,而且数据量通常远远不够训练一个高效的深度学习模型。因此,在许多视觉任务中,标注的数据量有限,导致直接从头开始训练深度学习模型变得困难。
2. 预训练网络(如 ResNet)如何帮助解决这个问题
预训练网络的作用
预训练网络(如在ImageNet上训练的ResNet)已经通过大规模数据集(例如 ImageNet,包含了上百万个标注图像)学习到了通用的图像特征。这些特征包括但不限于:
- 物体的形状、纹理
- 图像中的边缘、角点等低级特征
- 复杂物体的构成关系
通过这些学习到的通用特征,网络能够理解并提取图像中最基本的信息,这对于很多视觉任务来说是通用且有效的。
迁移学习与数据不足的关系
迁移学习的核心思想是,利用在大规模数据集(如 ImageNet)上训练的网络,这个网络已经具备了强大的图像特征提取能力。当我们面对一个数据稀缺的任务时(例如凝视点预测),我们可以将预训练网络的参数迁移到新的任务中,并对其进行微调(fine-tuning),即对网络进行少量的再训练,以使其适应新的任务(例如凝视点预测)。
为什么可以弥补数据不足的问题:
- 预训练网络学到的通用特征可以迁移到不同的任务上,甚至是没有大量标注数据的任务。
- 微调:我们并不需要从零开始训练网络,而是利用预训练网络已经学习到的知识(通用的图像特征),然后仅在少量的凝视点数据上进行微调。这意味着,我们可以用相对较少的数据来适应特定的任务,而不是完全
相关文章:
Target-absent Human Attention
Abstract 预测人类注视行为对于构建能够预测用户注意力的人机交互系统非常重要。已经开发出计算机视觉模型来预测人们在搜索目标物体时的注视点。但当目标不存在于图像中时,又该如何处理呢?同样重要的是要了解当人们找不到目标时,他们如何进行搜索,以及何时停止搜索。在本文…...
<QNAP 453D QTS-5.x> 日志记录:在 Docker 中运行的 Flask 应用安装 自签名 SSL 证书 解决 Chrome 等浏览器证书安全
原因:Chrome 不信任 ssc 证书 使启用了 HTTPS,即使有使用 自签名证书 (self-signed certificate 非由可信的证书颁发机构 【CA,Certificate Authority】签发的)。浏览器 Chrome 默认不信任自签名证书,也会报 NET::ERR_…...
通过huggingface-cli下载Hugging Face上的公开数据集或模型至本地
1. 获取 Access Tokens 在使用huggingface-cli命令下载之前需要先去官网获取 Access Tokens: 获取tokens的官网链接:https://huggingface.co/settings/tokens点击新增 token: 然后选择 write 权限: 最后,这个 Access…...
论文阅读——Intrusion detection systems using longshort‑term memory (LSTM)
一.基本信息 论文名称:Intrusion detection systems using longshort‑term memory (LSTM) 中文翻译:基于长短期记忆(LSTM)的入侵检测系统 DOI:10.1186/s40537-021-00448-4 作者:FatimaEzzahra Laghrissi1* , Samira Douzi2*, Kha…...
SparkSQL的执行过程:从源码角度解析逻辑计划、优化计划和物理计划
SparkSQL的执行过程可以分为以下几个阶段:从用户的SQL语句到最终生成的RDD执行,涵盖逻辑计划、优化计划和物理计划。以下是详细的源码角度解析: 1. 解析阶段(Parsing) SQL语句解析:Spark 使用 Catalyst 引…...
Leetcode打卡:新增道路查询后的最短距离II
执行结果:通过 题目:3244 新增道路查询后的最短距离II 给你一个整数 n 和一个二维整数数组 queries。 有 n 个城市,编号从 0 到 n - 1。初始时,每个城市 i 都有一条单向道路通往城市 i 1( 0 < i < n - 1&…...
Spring Web入门练习
加法计算器 约定前后端交互接⼝ 约定 "前后端交互接⼝" 是进⾏ Web 开发中的关键环节. 接⼝⼜叫 API(Application Programming Interface), 我们⼀般讲到接⼝或者 API,指的都是同⼀个东西. 是指应⽤程序对外提供的服务的描述, ⽤于交换信息…...
计算机毕业设计 | SpringBoot+vue汽车资讯网站 汽车购买咨询管理系统(附源码+论文)
1,绪论 1.1 研究背景 随着计算机技术的发展以及计算机网络的逐渐普及,互联网成为人们查找信息的重要场所,二十一世纪是信息的时代,所以信息的管理显得特别重要。因此,使用计算机来管理汽车资讯网站的相关信息成为必然…...
stm32下的ADC转换(江科协 HAL版)
十二. ADC采样 文章目录 十二. ADC采样12.1 ADC的采样原理12.2 STM32的采样基本过程1.引脚与GPIO端口的对应关系2.ADC规则组的四种转换模式(**)2.2 关于转换模式与配置之间的关系 12.3 ADC的时钟12.4 代码实现(ADC单通道 & ADC多通道)1. 单通道采样2. 多通道采样 19.ADC模数…...
解决IntelliJ IDEA的Plugins无法访问Marketplace去下载插件
勾选Auto-detect proxy setting并填入 https://plugins.jetbrains.com 代理URL,可以先做检查连接:...
react 如何修改弹出的modal的标题
原来标题的样子: 修改为: 实现方式: <Modal title<span>股价趋势/{this.state.pccode}</span> visible{this.state.isPriceModalOpen} style{{ top: 20 }} width{1320} height{400} footer{null} onCancel{()>this.hideMo…...
C#中的二维数组的应用:探索物理含义与数据结构的奇妙融合
在C#编程中,二维数组(或矩阵)是一种重要的数据结构,它不仅能够高效地存储和组织数据,还能通过其行、列和交叉点(备注:此处相交处通常称为“元素”或“单元格”,代表二维数组中的一个…...
HTML5拖拽API学习 托拽排序和可托拽课程表
文章目录 前言拖拽API核心概念拖拽式使用流程例子注意事项综合例子🌰 可拖拽课程表拖拽排序 前言 前端拖拽功能让网页元素可以通过鼠标或触摸操作移动。HTML5 提供了标准的拖拽API,简化了拖放操作的实现。以下是拖拽API的基本使用指南: 拖拽…...
内容补充页(相关公式解释)
from 学习日记_20241117_聚类方法(高斯混合模型) 学习日记_20241117_聚类方法(高斯混合模型) 公式 P ( Z k ) π k P(Zk) \pi_k P(Zk)πk 在高斯混合模型 (GMM) 中,公式 P ( Z k ) π k P(Zk) \pi_k P(Zk…...
vue中动态渲染静态图片资源
不报错且f12查看元素的时候,显示的src说明已经渲染到html的src上,但是就是不显示在页面上 原因 在vue上,动态渲染静态图片资源(比如从assets文件夹加载的图片)需要注意打包工具对静态资源的解析方式 由于vue2的脚手…...
管伊佳ERP,原名华夏ERP,一个简约易上手的国产ERP系统
JSH_ERP(管伊佳ERP)是一款开源、模块化的企业资源计划系统,旨在为中小企业提供高效的管理工具。它基于SpringBoot框架和SaaS模式,支持进销存、财务、生产等业务模块,包括零售、采购、销售、仓库和报表管理。 核心特点…...
学习虚幻C++开发日志——委托(持续更新中)
委托 官方文档:Delegates and Lamba Functions in Unreal Engine | 虚幻引擎 5.5 文档 | Epic Developer Community | Epic Developer Community 简单地说,委托就像是一个“函数指针”,但它更加安全和灵活。它允许程序在运行时动态地调用不…...
开窗函数 - first_value/last_value
1、开窗函数是什么? 开窗函数用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用 GROUP BY 子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。 2、…...
「一」HarmonyOS端云一体化概要
关于作者 白晓明 宁夏图尔科技有限公司董事长兼CEO、坚果派联合创始人 华为HDE、润和软件HiHope社区专家、鸿蒙KOL、仓颉KOL 华为开发者学堂/51CTO学堂/CSDN学堂认证讲师 开放原子开源基金会2023开源贡献之星 「目录」 「一」HarmonyOS端云一体化概要 「二」体验HarmonyOS端云一…...
nodejs21: 快速构建自定义设计样式Tailwind CSS
Tailwind CSS 是一个功能强大的低级 CSS 框架,只需书写 HTML 代码,无需书写 CSS,即可快速构建美观的网站。 1. 安装 Tailwind CSS React 项目中安装 Tailwind CSS: 1.1 安装 Tailwind CSS 和相关依赖 安装 Tailwind CSS: npm…...
OneAPI国产信创适配:麒麟V10+统信UOS操作系统部署验证
OneAPI国产信创适配:麒麟V10统信UOS操作系统部署验证 1. 引言 如果你正在国产信创环境下工作,比如使用麒麟V10或者统信UOS操作系统,想要接入各种大模型服务,可能会遇到一个头疼的问题:每个大模型厂商都有自己的API接…...
红外波段光子晶体设计避坑指南:CST布里渊区扫描常见错误解析
红外波段光子晶体设计避坑指南:CST布里渊区扫描常见错误解析 在红外波段光子晶体设计中,布里渊区扫描是获取能带结构的关键步骤,但许多工程师在使用CST进行仿真时,常因参数设置不当导致结果失真或计算失败。本文将深入解析220THz红…...
Phi-4-Reasoning-Vision保姆级教程:宽屏界面适配2K/4K显示器的CSS定制技巧
Phi-4-Reasoning-Vision保姆级教程:宽屏界面适配2K/4K显示器的CSS定制技巧 1. 工具简介与适配需求 Phi-4-Reasoning-Vision是基于微软Phi-4-reasoning-vision-15B多模态大模型开发的高性能推理工具,专为双卡4090环境优化。该工具通过Streamlit搭建的宽…...
Socket.IO vs WebSocket:如何为你的项目选择最佳实时通信方案?
Socket.IO与WebSocket深度对比:从技术本质到选型决策 实时通信技术已经成为现代Web应用的标配能力,但面对琳琅满目的技术方案,开发者常常陷入选择困境。当项目需要实现聊天室、实时数据看板或多人在线协作等功能时,Socket.IO和原生…...
别再手动查天气了!用Python和MCP给Claude做个专属天气助手(附完整代码)
打造智能天气助手:Python与MCP的无缝集成实战 每次出门前都要打开天气应用查看预报?在不同工具间反复切换查询天气信息?这种低效操作已经成为过去式。今天我们将用Python和MCP协议为Claude打造一个专属天气助手,让你直接通过对话获…...
保姆级教程:IndexTTS-2-LLM从部署到生成语音的全流程实战
保姆级教程:IndexTTS-2-LLM从部署到生成语音的全流程实战 1. 项目介绍与核心优势 1.1 什么是IndexTTS-2-LLM? IndexTTS-2-LLM是一款基于大语言模型的智能语音合成系统,它能够将文字转换为自然流畅的语音。与传统的语音合成技术相比&#x…...
【车辆控制】基于H∞控制器与鲁棒线性二次调节器RLQR的铰接式重型车辆的稳健路径跟踪控制研究(Matlab代码实现)
💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...
微信聊天记录永久备份指南:三步完成数据导出与离线查看
微信聊天记录永久备份指南:三步完成数据导出与离线查看 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否担心更换手机时丢失珍贵的聊天记录?…...
Cesium实战:精准加载省级天地图(CGCS2000坐标系)
1. 为什么需要省级天地图精准加载? 第一次在Cesium中加载福建省天地图时,我遇到了一个棘手的问题:地图显示的位置和实际位置总是存在偏移。这个问题困扰了我整整两天,直到发现问题的根源在于坐标系不匹配。全国通用的天地图服务通…...
Nginx 高可用集群与 LVS 负载均衡实战指南(场景选型对比 + 完整配置步骤 + 主备漂移部署实操)
一、Nginx vs LVSipvsadm 核心场景对比表(终极对照)对比维度Nginx(你的高可用方案)LVSipvsadm(4 层负载方案)核心定位7 层应用层负载均衡4 层内核级负载均衡适用协议HTTP/HTTPS(Web、API、前端&…...
