图像超分辨率技术新进展:混合注意力聚合变换器HAAT
目录
1. 引言:
2. 混合注意力聚合变换器(HAAT):
2.1 Swin-Dense-Residual-Connected Block(SDRCB):
2.2 Hybrid Grid Attention Block(HGAB):
3. 实验结果:
4. 结论:
1. 引言:
在计算机视觉领域,单图像超分辨率(SISR)技术的目标是从一个低分辨率的图像中重建出高分辨率的图像。这一技术因其在多种应用中的广泛需求而成为一个关键的研究领域。传统的基于CNN的方法,如SRCNN、VDSR和SRGAN,通过使用卷积神经网络显著改善了图像的纹理特征恢复。然而,这些方法在模拟图像中的长距离依赖关系方面存在局限,这主要是由于CNN的固有偏置,包括参数依赖的感受野扩展和卷积操作的核大小限制,这可能导致忽略图像中的非局部空间信息。
为了解决这些问题,研究者开始探索基于Transformer的SISR模型,这些模型能够利用其长距离依赖模拟的能力,从而提高SISR的性能。特别是,SwinIR利用Swin Transformer取得了显著的改进,而混合注意力变换器(HAT)通过结合重叠的交叉注意力模块、基于窗口的自注意力和通道注意力,也产生了最先进的结果。
2. 混合注意力聚合变换器(HAAT):
HAAT模型的提出是为了解决现有基于Transformer的方法在图像恢复问题上的局限性,尤其是当前基于窗口的Transformer网络将自注意力计算限制在集中区域,导致感受野受限并且无法充分利用原始图像的特征信息。
HAAT通过整合Swin-Dense-Residual-Connected Blocks(SDRCB)和Hybrid Grid Attention Blocks(HGAB)来构建,其中SDRCB在保持精简架构的同时扩展了感受野,从而提高了性能。HGAB则结合了通道注意力、稀疏注意力和窗口注意力,以改善非局部特征融合,并实现更引人注目的视觉结果。
2.1 Swin-Dense-Residual-Connected Block(SDRCB):
SDRCB是HAAT模型的一个关键组成部分,它利用Swin Transformer Layer(STL)的移窗自注意力机制来捕获长距离依赖关系。STL根据全局内容调整模型的强调点,增强特征提取,并在网络加深时保持全局细节,扩大感受野而不降低性能。SDRCB通过与密集残差连接的结合,进一步扩展了感受野,并提高了对关键信息的强调,这对于需要细致、上下文敏感处理的SISR任务至关重要。SDRCB的计算过程涉及到多级特征图的连接、特征转换和残差缩放,其中残差缩放因子用于稳定训练过程。下图是SDRCB框架:

2.2 Hybrid Grid Attention Block(HGAB):
HGAB是HAAT模型的另一个核心组成部分,它由混合注意力层(MAL)和多层感知器(MLP)层组成。HGAB的工作流程是将输入特征按照通道分割,并分别通过不同的自注意力机制进行处理,包括窗口多头自注意力(W-MSA)、稀疏窗口多头自注意力(SW-MSA)和网格多头自注意力(Grid-MSA)。此外,HGAB还对输入特征执行通道注意力操作。HGAB的设计采用了后归一化方法,以增强网络训练的稳定性。MAL的计算过程涉及到对输入特征的分割、不同自注意力机制的处理以及通道注意力的操作,最终将这些特征重新组合并加到原始特征上。下图是HGAB结构:

3. 实验结果:
HAAT模型在DF2K数据集上进行了训练,该数据集是一个包含DIV2K和Flickr2K的大规模聚合数据集。在训练过程中,研究人员通过双三次下采样方法生成了不同缩放因子的低分辨率图像。为了评估模型的有效性,研究人员在Set5和Set14等知名的SISR基准数据集上进行了性能评估。实验结果表明,HAAT在峰值信噪比(PSNR)和结构相似性(SSIM)这两个评价指标上均优于现有的最先进技术。这一结果证明了HAAT在参数数量更少、计算需求更低的情况下,仍然能够取得比现有最先进模型更好的结果。下图是HAAT与SOTA方法的定量比较:

4. 结论:
本文介绍了HAAT,这是一种新型的单图像超分辨率模型。HAAT通过增强DRCT架构,强调了信息流的稳定性和通过残差块中的密集连接扩展感受野,以及通过移窗注意力机制自适应地获取全局信息。这使得模型能够增强对全局地理信息的强调,优化其能力,并避免信息瓶颈。此外,HAAT还提供了HGAB来表示图像中的长距离关系,通过整合通道注意力、稀疏注意力和窗口注意力,提高了多级结构相似性。
HAAT在DF2K数据集上进行了训练,并在Set5和Set14数据集上进行了验证。实验结果表明,HAAT在单图像超分辨率任务中的性能超越了现有的最先进技术。
引用论文:HAAT: Hybrid Attention Aggregation Transformer for Image Super-Resolution
相关文章:
图像超分辨率技术新进展:混合注意力聚合变换器HAAT
目录 1. 引言: 2. 混合注意力聚合变换器(HAAT): 2.1 Swin-Dense-Residual-Connected Block(SDRCB): 2.2 Hybrid Grid Attention Block(HGAB): 3. 实验结…...
文件IO——01
1. 认识文件 1)文件概念 “文件”是一个广义的概念,可以代表很多东西 操作系统里,会把很多的硬件设备和软件资源抽象成“文件”,统一管理 但是大部分情况下的文件,都是指硬盘的文件(文件相当于是对“硬…...
【opencv入门教程】5. Mat 类用法
文章选自: 一、BackGround Mat对象是一种图像数据结构,它是一个容器,存储任何通道任何数的图片数据以及对应的矩阵,使用完成后,内存自动释放。二、Code void Samples::MatFunc() {1. 图像处理// 方法1:…...
SSM虾米音乐项目2--分页查询
1.分页查询的底层逻辑 首先根据用户输入的流派,进行模糊查询根据查询的数据进行分页需要前端用户提供pageNo(当前页数)和pageSize(每页的数据量)并且要从后端计算count(总数据量)和totalPage(总页数),以及startNum(每页开始的记录)从而将对应的页面数据…...
nodejs 获取本地局域网 ip 扫描本地端口
因为傻逼老板的垃圾需求,不得不成长 示例代码: 获取本地局域网 ip 地址: 需要注意的是:如果存在虚拟机网络,则返回的是虚拟机网络的 ipv4 地址 import os from os; export const getLocalIp () > {const in…...
区块链签名种类
1. eth_sign 简介:最早实现的签名方法,用于对任意数据进行签名。签名内容:直接对原始消息的哈希值进行签名。特点: 安全性较低,因为签名的消息没有明确的上下文或结构。很容易被滥用,攻击者可以伪造签名内…...
【062B】基于51单片机无线病房呼叫系统(+时间)【Keil程序+报告+原理图】
☆、设计硬件组成:51单片机最小系统NRF24L01无线模块DS1302时钟芯片LCD1602液晶显示按键设置蜂鸣器LED灯。 1、本设计采用STC89C51/52、AT89C51/52、AT89S51/52作为主控芯片,采用LCD1602液晶显示呼叫信息,系统共有两个板子(一个接…...
突破空间限制!从2D到3D:北大等开源Lift3D,助力精准具身智能操作!
文章链接:https://arxiv.org/pdf/2411.18623 项目链接:https://lift3d-web.github.io/ 亮点直击 提出了Lift3D,通过系统地提升隐式和显式的3D机器人表示,提升2D基础模型,构建一个3D操作策略。 对于隐式3D机器人表示&a…...
【pyspark学习从入门到精通24】机器学习库_7
目录 聚类 在出生数据集中寻找簇 主题挖掘 回归 聚类 聚类是机器学习中另一个重要的部分:在现实世界中,我们并不总是有目标特征的奢侈条件,因此我们需要回归到无监督学习的范式,在那里我们尝试在数据中发现模式。 在出生数据…...
Echart折线图属性设置 vue2
Echart折线图 官方配置项手册 Documentation - Apache ECharts 下面代码包含:设置标题、线条样式、图例圆圈的样式、显示名称格式、图片保存、增加Y轴目标值 updateChart(data) {const sortedData data.slice().sort((a, b) > new Date(a.deviceTime) - ne…...
LabVIEW-简单串口助手
LabVIEW-简单串口助手 串口函数VISA配置串口VISA写入函数VISA读取函数VISA资源名称按名称解除捆绑 函数存放位置思维导图主体界面为以下 串口函数 VISA配置串口 VISA写入函数 VISA读取函数 VISA资源名称 按名称解除捆绑 函数存放位置 思维导图 主体界面为以下 从创建好的“枚举…...
Linux下,用ufw实现端口关闭、流量控制(二)
本文是 网安小白的端口关闭实践 的续篇。 海量报文,一手掌握,你值得拥有,让我们开始吧~ ufw 与 iptables的关系 理论介绍: ufw(Uncomplicated Firewall)是一个基于iptables的前端工具…...
C#开发-集合使用和技巧(九)Join的用法
在C#中,IEnumerable 的 Join 方法用于根据键将两个序列中的元素进行关联。Join 方法通常用于执行类似于 SQL 中的内连接操作。以下是 Join 方法的基本用法: 基本语法 public static IEnumerable<TResult> Join<TOuter, TInner, TKey, TResult…...
Dockerfile容器镜像构建技术
文章目录 1、容器回顾1_容器与容器镜像之间的关系2_容器镜像分类3_容器镜像获取的方法 2、其他容器镜像获取方法演示1_在DockerHub直接下载2_把操作系统的文件系统打包为容器镜像3_把正在运行的容器打包为容器镜像 3、Dockerfile介绍4、Dockerfile指令1_FROM2_RUN3_CMD4_EXPOSE…...
Github 2024-12-01 开源项目月报 Top20
根据Github Trendings的统计,本月(2024-12-01统计)共有20个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目10TypeScript项目9Go项目2HTML项目1Shell项目1Jupyter Notebook项目1屏幕截图转代码应用 创建周期:114 天开发语言:TypeScript, Py…...
Spring Boot 3项目集成Swagger3教程
Spring Boot 3项目集成Swagger3教程 ?? 前言 欢迎来到我的小天地,这里是我记录技术点滴、分享学习心得的地方。?? ?? 技能清单 编程语言:Java、C、C、Python、Go、前端技术:Jquery、Vue.js、React、uni-app、EchartsUI设计: Element-u…...
NISP信息安全一级考试200道;免费题库;大风车题库
下载链接:大风车题库-文件 大风车题库网站:大风车题库 大风车excel(试题转excel):大风车excel...
Android ConstraintLayout 约束布局的使用手册
目录 前言 一、ConstraintLayout基本介绍 二、ConstraintLayout使用步骤 1、引入库 2、基本使用,实现按钮居中。相对于父布局的约束。 3、A Button 居中展示,B Button展示在A Button正下方(距离A 46dp)。相对于兄弟控件的约束…...
在网安中什么是白帽子
在网络安全领域,白帽子是指那些专门从事网络安全研究,帮助企业或个人发现并修复安全漏洞的专家。以下是对白帽子的详细解释: 一、定义与角色 白帽子是网络安全领域的术语,通常指那些具备专业技能和知识的网络安全专家。他们的工作…...
软件专业科目难度分级 你输在了哪里?
感想: 我把我们现在软件专业学的东西分了个难度级别 级别描述视角服务对象例子0 基本软件的使用用户-Photoshop wps ssms等1 软件的原理开发者用户各种编程语言2软件的原理的原理开发者开发者各种函数的深层定义,数据结构等 0级就是咱们平时用的那些软…...
未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?
编辑:陈萍萍的公主一点人工一点智能 未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战,在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...
C++实现分布式网络通信框架RPC(3)--rpc调用端
目录 一、前言 二、UserServiceRpc_Stub 三、 CallMethod方法的重写 头文件 实现 四、rpc调用端的调用 实现 五、 google::protobuf::RpcController *controller 头文件 实现 六、总结 一、前言 在前边的文章中,我们已经大致实现了rpc服务端的各项功能代…...
基于FPGA的PID算法学习———实现PID比例控制算法
基于FPGA的PID算法学习 前言一、PID算法分析二、PID仿真分析1. PID代码2.PI代码3.P代码4.顶层5.测试文件6.仿真波形 总结 前言 学习内容:参考网站: PID算法控制 PID即:Proportional(比例)、Integral(积分&…...
以下是对华为 HarmonyOS NETX 5属性动画(ArkTS)文档的结构化整理,通过层级标题、表格和代码块提升可读性:
一、属性动画概述NETX 作用:实现组件通用属性的渐变过渡效果,提升用户体验。支持属性:width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项: 布局类属性(如宽高)变化时&#…...
中南大学无人机智能体的全面评估!BEDI:用于评估无人机上具身智能体的综合性基准测试
作者:Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位:中南大学地球科学与信息物理学院论文标题:BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接:https://arxiv.…...
Frozen-Flask :将 Flask 应用“冻结”为静态文件
Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是:将一个 Flask Web 应用生成成纯静态 HTML 文件,从而可以部署到静态网站托管服务上,如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...
Cloudflare 从 Nginx 到 Pingora:性能、效率与安全的全面升级
在互联网的快速发展中,高性能、高效率和高安全性的网络服务成为了各大互联网基础设施提供商的核心追求。Cloudflare 作为全球领先的互联网安全和基础设施公司,近期做出了一个重大技术决策:弃用长期使用的 Nginx,转而采用其内部开发…...
06 Deep learning神经网络编程基础 激活函数 --吴恩达
深度学习激活函数详解 一、核心作用 引入非线性:使神经网络可学习复杂模式控制输出范围:如Sigmoid将输出限制在(0,1)梯度传递:影响反向传播的稳定性二、常见类型及数学表达 Sigmoid σ ( x ) = 1 1 +...
初学 pytest 记录
安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...
sipsak:SIP瑞士军刀!全参数详细教程!Kali Linux教程!
简介 sipsak 是一个面向会话初始协议 (SIP) 应用程序开发人员和管理员的小型命令行工具。它可以用于对 SIP 应用程序和设备进行一些简单的测试。 sipsak 是一款 SIP 压力和诊断实用程序。它通过 sip-uri 向服务器发送 SIP 请求,并检查收到的响应。它以以下模式之一…...
