深圳东风大厦 网站建设/网络运营师资格证
RSGPT: A Remote Sensing Vision Language Model and Benchmark
贡献:构建了一个高质量的遥感图像描述数据集(RSICap)和一个名为RSIEval的基准评估数据集,并在新创建的RSICap数据集上开发了基于微调InstructBLIP的遥感生成预训练模型(RSGPT)。通过仅微调Q-Former网络和InstructBLIP的线性层,模型可以快速学习以数据高效的方式将遥感图像的视觉特征与LLM对齐。
引言:
VLM是指集成计算机视觉和自然语言处理技术以实现对视觉和文本数据的整体理解的一类人工智能模型。通过同时分析视觉和语义模式,VLM 具有辨别视觉元素和语言信息之间复杂关系的能力,并提供更全面、更接近人类的视觉内容理解能力。
VLM 在遥感领域发展的一个具有挑战性的问题是缺乏大规模对齐的图像文本数据集。现有的RSI数据集大多专注于视觉识别任务,不提供语言注释。只有少数尝试构建图像文本RSI数据集,但数据规模和质量远未达到预期。
构建了一个高质量的遥感图像描述数据集(RSICap),以促进遥感领域大型 VLM 的开发。与之前采用模型生成的说明文字或简短描述的遥感数据集不同,RSICap 包含 2,585 个人工注释的说明文字,具有丰富且高质量的信息。该数据集提供每张图像的详细描述,包括场景描述(例如住宅区、机场或农田)以及物体信息(例如颜色、形状、数量、绝对位置等)。为了方便遥感领域VLM的评估,我们还提供了一个名为RSIEval的基准评估数据集。该数据集由人工注释的标题和视觉问答对组成,允许在遥感背景下对 VLM 进行全面评估。RSIEval由100个人工注释的标题和936个视觉问答对组成,包含丰富的信息和开放式的问题和答案。我们的目标是建立一个标准基准,涵盖各种遥感图像理解任务,包括图像字幕,视觉问题回答,视觉接地等。
在新创建的RSICap数据集上开发了基于微调InstructBLIP的遥感生成预训练模型(RSGPT)。通过仅微调Q-Former网络和InstructBLIP的线性层,模型可以快速学习以数据高效的方式将遥感图像的视觉特征与LLM对齐。
数据集介绍:
UCM-Captions 和Sydney-Captions:是最早的遥感图像字幕数据集,分别基于UCM数据集和Sydney数据集构建。
UCM-Captions:包含2100个图像和10500个字幕
Sydney-Captions:包含613个图像和3065个字幕
RSICD:包括10921张图像和54605个字幕,其中只有24333个不同的字幕
NWPUCaptions:包含31500张图片和157500个字幕。
这些数据集中的每幅图像都用五个简短的字幕进行了注释,但它们之间的差异相对较小,细节程度仅限于对主要场景的粗略描述。
RS5M:包含500万个对齐的图像文本对,平均标题长度为40个词汇。RS5M数据集是通过从公开可用的数据集(包括LAION400M和CC3 中仔细过滤RS相关图像,并利用BLIP2模型自动生成图像标题来创建的。
DOTA:来自不同卫星和航空传感器的图像,如GF-2,JL-1和Google Earth卫星图像,以及不同分辨率的航空图像。DOTA包括彩色和全色图像; DOTA数据集包含不同的场景。本文使用的DOTA-v1.5覆盖了16个对象类别; DOTA提供了类别和边界框标签,方便了感兴趣对象的统计计数。DOTA中图像的原始尺寸从800×800到4,000 × 4,000不等。
RSICaps:本文提出的数据集,是基于DOTA目标检测数据集构建RSICap。标题细节方面超过了RS5M数据集,平均长度为60个词汇。构建过程:将训练集中的图像分成大小为512×512的块,然后随机选择总共2,585块。五位遥感专家对图像作了注释。说明注记过程遵循以下原则:(1)描述图像属性,包括卫星/航空图像、彩色/全色图像和高/低分辨率;(2)描述对象属性,包括对象数量、颜色、形状、大小和空间位置(包括图像中的绝对位置和对象之间的相对位置);(3)一般而言,注释过程涉及首先描述图像的整体场景,然后描述特定对象。根据这些原则,我们生成了2,585个高质量的RS图像-文本对。
RSIEval:将DOTA-v1.5验证集中的图像分成大小为512×512的块,然后从这些块中选择100幅图像进行进一步的人工标注。5名遥感专家参加了注释。RSIEval由100个高质量的图像-标题对(每个图像一个标题)和936个不同的图像-问题-答案三元组(每个图像平均9个问题)组成。
方法:
Image Encoder:EVA-G; LLM:vicuna7b, vicuna13b
线性层:把Q-Former输出映射到LLM输入特征空间
训练:将InstructBLIP的预训练权重集成到RSGPT中,用RSICap数据集微调RSGPT中的Q-Former和线性层。
实验:
从细节描述、位置描述和幻觉描述三个维度对生成的遥感图像字幕质量进行四级评分。
RSICap数据集的分辨率多样性,场景多样性和合理推测的可视化。(a)RSICap涵盖不同分辨率的航空图像、全色卫星图像和彩色卫星图像。(b)RSICap覆盖机场、港口、网球场、居民区等多种场景。(c)注释器可以在标题生成期间添加合理推测的描述。
BLIP2、InstructBLIP、MiniGPT4和RSGPT在提出的RSIEval图像字幕测试集上的定性比较。详细描述、位置描述和幻觉描述的分数在括号中用粗体字表示。预测字幕中的幻觉描述以蓝色突出显示。
BLIP2、InstructBLIP、MiniGPT4和RSGPT在提出的RSIEval RSVQA测试集上的定性比较。问题类型在括号内以粗体显示。评分结果用对勾和叉号表示。
相关文章:

论文阅读——RSGPT
RSGPT: A Remote Sensing Vision Language Model and Benchmark 贡献:构建了一个高质量的遥感图像描述数据集(RSICap)和一个名为RSIEval的基准评估数据集,并在新创建的RSICap数据集上开发了基于微调InstructBLIP的遥感生成预训练…...

长连接技术
个人学习记录,欢迎指正 1.轮询 1.1 轮询的形式 短连接轮询 前端每隔一段时间向服务端发起一次Http请求来获取数据。 const shortPolling () > { const intervalHandler setInterval(() > {fetch(/xxx/yyy).then(response > response.json()).then(respo…...

供电系统分类详解
一、供电系统分类 电力供电系统一般有5种供电模式,常用的有:IT系统,TT系统,TN系统,其中TN系统又可以分为TN-C,TN-S,TN-C-S。 1、TN-C系统(三相四线制) 优点: 该系统中…...

基于centos7的k8s最新版v1.29.2安装教程
k8s概述 Kubernetes 是一个可移植、可扩展的开源平台,用于管理容器化的工作负载和服务,可促进声明式配置和自动化。 Kubernetes 拥有一个庞大且快速增长的生态,其服务、支持和工具的使用范围相当广泛。 Kubernetes 这个名字源于希腊语&…...

【赠书第20期】AI绘画与修图实战:Photoshop+Firefly从入门到精通
文章目录 前言 1 入门篇:初识Photoshop与Firefly 2 进阶篇:掌握Photoshop与Firefly的核心技巧 3 实战篇:运用Photoshop与Firefly进行创作 4 精通篇:提升创作水平,拓展应用领域 5 结语 6 推荐图书 7 粉丝福利 前…...

如何在并行超算云上玩转PWmat③:使用Q-Flow提交计算的案例演示
3月的每周二下午14:00我们将会在并行直播间为大家持续带来线上讲座。前面两期我们分享了”PWmat特色功能和应用“以及“如何在并行超算云平台使用PWmat计算软件”主题讲座,回看视频和PPT已上传至B站”龙讯旷腾“账号内。 本周张持讲师将继续带着大家手把手上机教学…...

html5cssjs代码 017样式示例
html5&css&js代码 017样式示例 一、代码二、解释 这段HTML代码定义了一个网页的基本结构,包括头部、主体和尾部。在头部中,设置了网页标题、字符编码和样式。主体部分包含一个标题和一个表格,表格内分为两个单元格,左侧为…...

Vue.js动画
Vue.js动画 Vue.js动画是指在Vue组件中通过添加/移除CSS类或应用CSS过渡/动画效果来实现的视觉效果。这些动画可以帮助改善用户体验,使界面更加生动和吸引人。 Vue.js提供了两种类型的动画:过渡和动画。 过渡:过渡是在元素插入、更新或删除…...

信号与系统学习笔记——信号的分类
目录 一、确定与随机 二、连续与离散 三、周期与非周期 判断是否为周期函数 离散信号的周期 结论 四、能量与功率 定义 结论 五、因果与反因果 六、阶跃函数 定义 性质 七、冲激函数 定义 重要关系 作用 一、确定与随机 确定信号:可以确定时间函数…...

PyTorch深度学习实战(39)——小样本学习
PyTorch深度学习实战(39)——小样本学习 0. 前言1. 小样本学习简介2. 孪生网络2.1 模型分析2.2 数据集分析2.3 构建孪生网络 3. 原型网络3. 关系网络小结系列链接 0. 前言 小样本学习 (Few-shot Learning) 旨在解决在训练集中只有很少样本的情况下进行分…...

论文阅读——Vision Transformer with Deformable Attention
Vision Transformer with Deformable Attention 多头自注意力公式化为: 第l层transformer模块公式化为: 在Transformer模型中简单地实现DCN是一个non-trivial的问题。在DCN中,特征图上的每个元素都单独学习其偏移,其中HWC特征图上…...

AJAX概念和axios使用、URL、请求方法和数据提交、HTTP协议、接口、form-serialize插件
AJAX概念和axios使用 AJAX概念 AJAX就是使用XMLHttpRequest对象与服务器通信,它可以使用JSON、XML、HTML和text文本等格式发送和接收数据,AJAX最吸引人的就是它的异步特性,也就是说它可以在不重新刷新页面的情况下与服务器通信,…...

【R语言基础操作】
🍉CSDN小墨&晓末:https://blog.csdn.net/jd1813346972 个人介绍: 研一|统计学|干货分享 擅长Python、Matlab、R等主流编程软件 累计十余项国家级比赛奖项,参与研究经费10w、40w级横向 文…...

sqlite 常见命令 表结构
在 SQLite 中,将表结构保存为 SQL 具有一定的便捷性和重要性,原因如下 便捷性: 备份和恢复:将表结构保存为 SQL 可以方便地进行备份。如果需要还原或迁移数据库,只需执行保存的 SQL 脚本,就可以重新创建表…...

基于深度学习的车辆检测技术
基于深度学习的车辆检测技术是现代智能交通系统的重要组成部分,它利用计算机视觉和机器学习算法,特别是深度学习模型,来识别和定位图像或视频中的车辆。这项技术广泛应用于自动驾驶、交通监控、违章抓拍等多个领域。 深度学习车辆检测技术的…...

MyBatis 之三:配置文件详解和 Mapper 接口方式
配置文件 MyBatis 的配置文件是 XML 格式的,它定义了 MyBatis 运行时的核心行为和设置。默认的配置文件名称为 mybatis-config.xml,该文件用于配置数据库连接、事务管理器、数据源、类型别名、映射器(mapper 文件)以及其他全局属性…...

【PyTorch】基础学习:一文详细介绍 torch.load() 的用法和应用
【PyTorch】基础学习:一文详细介绍 torch.load() 的用法和应用 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程ὄ…...

事务、并发、锁机制的实现
配置全局事务 DATABASES {default: {ENGINE: django.db.backends.mysql,NAME: mydb,USER:root,PASSWORD:pass,HOST:127.0.0.1,PORT:3306,ATOMIC_REQUESTS: True, # 全局开启事务,绑定的是http请求响应整个过程# (non_atomic_requests可局部实现不让事务控制)} } …...

PC-DARTS: PARTIAL CHANNEL CONNECTIONS FOR MEMORY-EFFICIENT ARCHITECTURE SEARCH
PC-DARTS:用于内存高效架构搜索的部分通道连接 论文链接:https://arxiv.org/abs/1907.05737 项目链接:https://github.com/yuhuixu1993/PC-DARTS ABSTRACT 可微分体系结构搜索(DARTS)在寻找有效的网络体系结构方面提供了一种快速的解决方案…...

git的下载与安装
下载 首先,打开您的浏览器,并输入Git的官方网站地址 点击图标进行下载 下载页面会列出不同操作系统和平台的Git安装包。根据您的操作系统(Windows、macOS、Linux等)和位数(32位或64位),选择适…...

windows文档格式转换的实用工具
大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…...

四级缓存实现
CommandLineRunner接口的run方法 什么是多级缓存? 多级缓存就是充分利用请求处理的每个环节,分别添加缓存,减轻Server端的压力,提升服务性能。 一级缓存:1.CDN:内容分发网络 二级缓存:2.NGINX+Lua脚本+OpenResty服务器 负载均衡反向代理【静态和转发】 三级缓存:J…...

程序员如何规划职业赛道?
在快速发展的信息技术时代,程序员作为数字世界的构建者,面临着前所未有的职业选择和发展机会。选择合适的职业赛道,不仅关乎个人职业发展的高度和速度,更影响着个人职业生涯的满意度和幸福感。本文将从自我评估与兴趣探索、市场需…...

蓝桥杯day3刷题日记--P9240 冶炼金属
P9240 [蓝桥杯 2023 省 B] 冶炼金属 经典二分,先在第一组中找到最小值,在利用最小值限制范围寻找最大值 #include <iostream> #include <algorithm> using namespace std; int n,kk; int m[10001],num[10001]; int maxs,mins;bool check1…...

Mybatis-xml映射文件与动态SQL
xml映射文件 动态SQL <where><if test"name!null">name like concat(%,#{name},%)</if><if test"username!null">and username#{username}</if></where> <!-- collection:遍历的集合--> <!-- …...

MySQL_数据库图形化界面软件_00000_00001
目录 NavicatSQLyogDBeaverMySQL Workbench可能出现的问题 Navicat 官网地址: 英文:https://www.navicat.com 中文:https://www.navicat.com.cn SQLyog 官网地址: 英文:https://webyog.com DBeaver 官网地址&…...

流媒体学习之路(WebRTC)——FEC逻辑分析(6)
流媒体学习之路(WebRTC)——FEC逻辑分析(6) —— 我正在的github给大家开发一个用于做实验的项目 —— github.com/qw225967/Bifrost目标:可以让大家熟悉各类Qos能力、带宽估计能力,提供每个环节关键参数调节接口并实现一个json全…...

command failed: npm install --loglevel error --legacy-peer-deps
在使用vue create xxx创建vue3项目的时候报错。 解决方法,之前使用的https://registry.npm.taobao.org 证书过期更换镜像地址即可 操作如下: 1.cd ~2.执行rm .npmrc3. sudo npm install -g cnpm --registryhttp://registry.npmmirror.com…...

KubeSphere集群安装-nfs分布式文件共享-对接Harbor-对接阿里云镜像仓库-遇到踩坑记录
KubeSphere安装和使用集群版 官网:https://www.kubesphere.io/zh/ 使用 KubeKey 内置 HAproxy 创建高可用集群:https://www.kubesphere.io/zh/docs/v3.3/installing-on-linux/high-availability-configurations/internal-ha-configuration/ 特别注意 安装前注意必须把当前使…...

Epuck2机器人固件更新及IP查询
文章目录 前言一、下载固件更新软件包:二、查询机器人在局域网下的IP 前言 前面进行了多机器人编队仿真包括集中式和分布式,最近打算在实物机器人上跑一跑之前的编队算法。但由于Epuck2机器人长时间没使用,故对其进行固件的更新,…...