当前位置：首页 > news >正文

注意力机制讲解与代码解析

news 2025/7/11 7:42:19

一、SEBlock(通道注意力机制)

先在H*W维度进行压缩，全局平均池化将每个通道平均为一个值。
（B, C, H, W）---- (B, C, 1, 1)

利用各channel维度的相关性计算权重
(B, C, 1, 1) --- (B, C//K, 1, 1) --- (B, C, 1, 1) --- sigmoid

与原特征相乘得到加权后的。

import torch
import torch.nn as nnclass SELayer(nn.Module):def __init__(self, channel, reduction = 4):super(SELayer, self).__init__()self.avg_pool = nn.AdaptiveAvgPool2d(1) //自适应全局池化，只需要给出池化后特征图大小self.fc1 = nn.Sequential(nn.Conv2d(channel, channel//reduction, 1, bias = False),nn.ReLu(implace = True),nn.Conv2d(channel//reduction, channel, 1, bias = False),nn.sigmoid())def forward(self, x):y = self.avg_pool(x)y_out = self.fc1(y)return x * y

二、CBAM(通道注意力+空间注意力机制)

CBAM里面既有通道注意力机制，也有空间注意力机制。
通道注意力同SE的大致相同，但额外加入了全局最大池化与全局平均池化并行。

空间注意力机制：先在channel维度进行最大池化和均值池化，然后在channel维度合并，MLP进行特征交融。最终和原始特征相乘。

import torch
import torch.nn as nnclass ChannelAttention(nn.Module):def __init__(self, channel, rate = 4):super(ChannelAttention, self).__init__()self.avg_pool = nn.AdaptiveAvgPool2d(1)self.max_pool = nn.AdaptiveMaxPool2d(1)self.fc1 = nn.Sequential(nn.Conv2d(channel, channel//rate, 1, bias = False)nn.ReLu(implace = True)nn.Conv2d(channel//rate, channel, 1, bias = False)            )self.sig = nn.sigmoid()def forward(self, x):avg = sefl.avg_pool(x)avg_feature = self.fc1(avg)max = self.max_pool(x)max_feature = self.fc1(max)out = max_feature + avg_featureout = self.sig(out)return x * out

import torch
import torch.nn as nnclass SpatialAttention(nn.Module):def __init__(self):super(SpatialAttention, self).__init__()//(B,C,H,W)---(B,1,H,W)---(B,2,H,W)---(B,1,H,W)self.conv1 = nn.Conv2d(2, 1, kernel_size = 3, padding = 1, bias = False)self.sigmoid = nn.sigmoid()def forward(self, x):mean_f = torch.mean(x, dim = 1, keepdim = True)max_f = torch.max(x, dim = 1, keepdim = True)cat = torch.cat([mean_f, max_f], dim = 1)out = self.conv1(cat)return x*self.sigmod(out)

三、transformer里的注意力机制

Scaled Dot-Product Attention

该注意力机制的输入是QKV。

1.先Q,K相乘。

2.scale

3.softmax

4.求output

import torch
import torch.nn as nnclass ScaledDotProductAttention(nn.Module):def __init__(self, scale):super(ScaledDotProductAttention, self)self.scale = scaleself.softmax = nn.softmax(dim = 2)def forward(self, q, k, v):u = torch.bmm(q, k.transpose(1, 2))u = u / scaleattn = self.softmax(u)output = torch.bmm(attn, v)return outputscale = np.power(d_k, 0.5)  //缩放系数为K维度的根号。
//Q  (B, n_q, d_q) , K (B, n_k, d_k)  V (B, n_v, d_v),Q与K的特征维度一定要一样。KV的个数一定要一样。

MultiHeadAttention

将QKVchannel维度转换为n*C的形式,相当于分成n份，分别做注意力机制。

1.QKV单头变多头 channel ----- n * new_channel通过linear变换,然后把head和batch先合并

2.求单头注意力机制输出

3.维度拆分将最终的head和channel合并。

4.linear得到最终输出维度

import torch
import torch.nn as nnclass MultiHeadAttention(nn.Module):def __init__(self, n_head, d_k, d_k_, d_v, d_v_, d_o):super(MultiHeadAttention, self)self.n_head = n_headself.d_k = d_kself.d_v = d_vself.fc_k = nn.Linear(d_k_, n_head * d_k)self.fc_v = nn.Linear(d_v_, n_head * d_v)self.fc_q = nn.Linear(d_k_, n_head * d_k)self.attention = ScaledDotProductAttention(scale=np.power(d_k, 0.5))self.fc_o = nn.Linear(n_head * d_v, d_0)def forward(self, q, k, v):batch, n_q, d_q_ = q.size()batch, n_k, d_k_ = k.size()batch, n_v, d_v_ = v.size()q = self.fc_q(q)k = self.fc_k(k)v = self.fc_v(v)q = q.view(batch, n_q, n_head, d_q).permute(2, 0, 1, 3).contiguous().view(-1, n_q, d_q)k = k.view(batch, n_k, n_head, d_k).permute(2, 0, 1, 3).contiguous().view(-1, n_k, d_k)v = v.view(batch, n_v, n_head, d_v).permute(2, 0, 1, 3).contiguous().view(-1. n_v, d_v)    output = self.attention(q, k, v)output = output.view(n_head, batch, n_q, d_v).permute(1, 2, 0, 3).contiguous().view(batch, n_q, -1)output = self.fc_0(output)return output

注意力机制讲解与代码解析

一、SEBlock(通道注意力机制) 先在H*W维度进行压缩，全局平均池化将每个通道平均为一个值。 （B, C, H, W）---- (B, C, 1, 1) 利用各channel维度的相关性计算权重 (B, C, 1, 1) --- (B, C//K, 1, 1) --- (B, C, 1, 1) --- sigmoid 与原特征相…...

编程日记 2023/9/11 6:38:10

微调 TrOCR – 训练 TrOCR 识别弯曲文本

TrOCR（基于 Transformer 的光学字符识别）模型是性能最佳的 OCR 模型之一。在我们之前的文章中，我们分析了它们在单行打印和手写文本上的表现。然而，与任何其他深度学习模型一样，它们也有其局限性。TrOCR 在处理开箱即用的弯曲文本时表现不佳。本文将通过在弯曲文本数据集上…...

编程日记 2023/9/11 6:37:09

Jetsonnano B01 笔记7：Mediapipe与人脸手势识别

今日继续我的Jetsonnano学习之路，今日学习安装使用的是：MediaPipe 一款开源的多媒体机器学习模型应用框架。可在移动设备、工作站和服务器上跨平台运行，并支持移动 GPU 加速。介绍与程序搬运官方，只是自己的学习记录笔记&am…...

编程日记 2023/9/11 6:36:08

vue学习之v-if/v-else/v-else-if

v-else/v-else-if 创建 demo7.html,内容如下 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Docum…...

编程日记 2023/9/11 6:35:07

ansible的安装和简单的块使用

目录一、概述二、安装 1、选择源 2、安装ansible 3、模块查看三、实验 1、拓扑编辑 2、设置组、ping模块 3、hostname模块 4、file模块编辑 5、stat模块 6、copy模块（本地拷贝到远程） 7、fetch模块与copy模块类似，但作用…...

编程日记 2023/9/11 6:34:06

Android 状态栏显示运营商名称

Android 原生设计中在锁屏界面会显示运营商名称，用户界面中，大概是基于 icon 数量长度显示考虑，对运营商名称不作显示。但是国内基本都加上运营商名称。对图标显示长度优化基本都是：缩小运营商字体、限制字数长度、信号图标压缩上…...

编程日记 2023/9/11 6:33:05

10.Xaml ListBox控件

1.运行界面 2.运行源码 a.Xaml 源码 <Grid Name="Grid1"><ListBox x:Name="listBo...

编程日记 2023/9/11 6:32:03

基于vue3和element-plus的省市区级联组件

git地址：https://github.com/ht-sauce/elui-china-area-dht 使用:npm i elui-china-area-dht 默认使用使用方法 <template><div class"app"><elui-china-area-dht change"onChange"></elui-china…...

编程日记 2023/9/11 6:31:00

Paper: 利用RNN来提取恶意软件家族的API调用模式

论文摘要恶意软件家族分类是预测恶意软件特征的好方法，因为属于同一家族的恶意软件往往有相似的行为特征恶意软件检测或分类方法分静态分析和动态分析两种： 静态分析基于恶意软件中包含的特定签名进行分析，优点是分析的范围覆盖了整个代码…...

编程日记 2023/9/11 6:29:59

sdkman 安装以及 graalvm安装

sdkman安装以及graalvm安装全过程, (可能需要梯子) tiamTiam-Lenovo:~$ curl -s "https://get.sdkman.io" | bash-syyyyyyys:/yho: -yd./yh/ m..oho. hy ..sh/ :N -/…...

编程日记 2023/9/11 6:28:58

如何正确使用 WEB 接口的 HTTP 状态码和业务状态码？

当设计和开发 Web 接口时，必然会和 HTTP 状态码与业务状态码这两个概念打交道。很多同学可能没有注意过这两个概念或者两者的区别，做得稀里糊涂，接下来详细讲解下二者的定义、区别和使用方法。 HTTP 状态码 HTTP 状态码是由 HTTP 协议定义的…...

编程日记 2023/9/11 6:27:57

Spark【Spark SQL（三）DataSet】

DataSet DataFrame 的出现，让 Spark 可以更好地处理结构化数据的计算，但存在一个问题：编译时的类型安全问题，为了解决它，Spark 引入了 DataSet API（DataFrame API 的扩展）。DataSet 是分布式的数…...

编程日记 2023/9/11 6:26:56

制作立体图像实用软件：3DMasterKit 10.7 Crack

3DMasterKit 软件专为创建具有逼真 3D 和运动效果的光栅图片而设计：翻转、动画、变形和缩放。打印机、广告工作室、摄影工作室和摄影师将发现 3DMasterKit 是一种有用且经济高效的解决方案，可将其业务扩展到新的维度，提高生成的 3D 图像和光…...

编程日记 2023/9/11 6:25:55

高校 Web 站点网络安全面临的主要的威胁

校园网 Web 站点的主要安全威胁来源于计算机病毒、内部用户恶意攻击和破坏、内部用户非恶意的错误操作和网络黑客入侵等。 2.1 计算机病毒计算机病毒是指编制者在计算机程序中插入的破坏计算机功能或者数据， 影响计算机使用并且能够自我复制的一组计算机指令或…...

编程日记 2023/9/11 6:24:54

1,首先 axios请求，看后端接口路径，http://122.226.146.110:25002/api/xx/ResxxList，所以baseURL地址改成 ‘/api’ let setAxios originAxios.create({baseURL: /api, //这里要改掉timeout: 20000 // request timeout}); export default s…...

编程日记 2023/9/11 6:23:53

【Cicadaplayer】解码线程及队列实现

4.4分支https://github.com/alibaba/CicadaPlayer/blob/release/0.4.4/framework/codec/ActiveDecoder.h对外：送入多个包，获取一个帧 int send_packet(std::unique_ptr<IAFPacket> &packet, uint64_t timeOut) override;int getFrame(std::u...

编程日记 2023/9/11 6:22:52

把文件上传到Gitee的详细步骤

目录第一步：创建一个空仓库第二步：找到你想上传的文件所在的地址，打开命令窗口，git init 第三步：git add 想上传的文件 ，git commit -m "给这次提交取个名字" 第四步：和咱们在第…...

编程日记 2023/9/11 6:21:50

基于keras中Lenet对于mnist的处理

文章目录 MNIST导入必要的包加载数据可视化数据集查看数据集的分布开始训练画出loss图画出accuracy图使用数据外的图来测试图片可视化转化灰度图的可视化可视化卷积层的特征图第一层卷积 conv1 和 pool1第二层卷积 conv2 和 pool2 MNIST MNIST（Modified National …...

编程日记 2023/9/11 6:20:48

Python爬虫教程：IP池的使用

前言嗨喽~大家好呀，这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等点击此处跳转文末名片免费获取一、简介爬虫中为什么需要使用代理一些网站会有相应的反爬虫措施，例如很多网站会检测某一段时间某个IP的访问次数，如果访问频率…...

编程日记 2023/9/11 6:19:47

Ansible之playbook剧本

一、playbook概述1.1 playbook 介绍1.2 playbook 组成部分二、playbook 示例2.1 playbook 启动及检测2.2 实例一2.3 vars 定义、引用变量2.4 指定远程主机sudo切换用户2.5 when条件判断2.6 迭代2.7 Templates 模块1.先准备一个以 .j2 为后缀的 template 模板文件，设…...

编程日记 2023/9/11 6:18:45

Swift 协议扩展精进之路：解决 CoreData 托管实体子类的类型不匹配问题（下）

概述在 Swift 开发语言中，各位秃头小码农们可以充分利用语法本身所带来的便利去劈荆斩棘。我们还可以恣意利用泛型、协议关联类型和协议扩展来进一步简化和优化我们复杂的代码需求。不过，在涉及到多个子类派生于基类进行多态模拟的场景下，…...

编程新知 2025/7/10 10:09:42

数据链路层的主要功能是什么

数据链路层（OSI模型第2层）的核心功能是在相邻网络节点（如交换机、主机）间提供可靠的数据帧传输服务，主要职责包括： 🔑 核心功能详解： 帧封装与解封装封装： 将网络层下发…...

编程新知 2025/6/16 23:36:50

2025盘古石杯决赛【手机取证】

前言第三届盘古石杯国际电子数据取证大赛决赛最后一题没有解出来，实在找不到，希望有大佬教一下我。还有就会议时间，我感觉不是图片时间，因为在电脑看到是其他时间用老会议系统开的会。手机取证 1、分析鸿蒙手机检材&#x…...

编程新知 2025/7/11 3:29:19

管理学院权限管理系统开发总结

文章目录 🎓 管理学院权限管理系统开发总结 - 现代化Web应用实践之路📝 项目概述🏗️ 技术架构设计后端技术栈前端技术栈 💡 核心功能特性1. 用户管理模块2. 权限管理系统3. 统计报表功能4. 用户体验优化 🗄️ 数据库设…...

编程新知 2025/6/23 5:12:02

保姆级教程：在无网络无显卡的Windows电脑的vscode本地部署deepseek

文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama（有网络的电脑）2.2.3 安装Ollama（无网络的电脑）2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...

编程新知 2025/7/9 15:30:25

排序算法总结（C++）

目录一、稳定性二、排序算法选择、冒泡、插入排序归并排序随机快速排序堆排序基数排序计数排序三、总结一、稳定性排序算法的稳定性是指：同样大小的样本 **（同样大小的数据）**在排序之后不会改变原始的相对次序。稳定性对基础类型对象…...

编程新知 2025/7/10 16:45:26

动态 Web 开发技术入门篇

一、HTTP 协议核心 1.1 HTTP 基础协议全称 ：HyperText Transfer Protocol（超文本传输协议） 默认端口 ：HTTP 使用 80 端口，HTTPS 使用 443 端口。请求方法 ： GET ：用于获取资源，…...

编程新知 2025/6/21 15:51:18

免费PDF转图片工具

免费PDF转图片工具一款简单易用的PDF转图片工具，可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件，也不需要在线上传文件，保护您的隐私。工具截图主要特点 🚀 快速转换：本地转换，无需等待上…...

编程新知 2025/7/8 17:10:28

Windows安装Miniconda

一、下载 https://www.anaconda.com/download/success 二、安装三、配置镜像源 Anaconda/Miniconda pip 配置清华镜像源_anaconda配置清华源-CSDN博客四、常用操作命令 Anaconda/Miniconda 基本操作命令_miniconda创建环境命令-CSDN博客...

编程新知 2025/7/9 23:07:36

【Linux系统】Linux环境变量：系统配置的隐形指挥官

。# Linux系列文章目录前言一、环境变量的概念二、常见的环境变量三、环境变量特点及其相关指令3.1 环境变量的全局性3.2、环境变量的生命周期四、环境变量的组织方式五、C语言对环境变量的操作5.1 设置环境变量：setenv5.2 删除环境变量:unsetenv5.3 遍历所有环境…...

编程新知 2025/7/9 22:01:44

注意力机制讲解与代码解析

一、SEBlock(通道注意力机制)

二、CBAM(通道注意力+空间注意力机制)

三、transformer里的注意力机制

Scaled Dot-Product Attention

MultiHeadAttention

相关文章：

注意力机制讲解与代码解析

微调 TrOCR – 训练 TrOCR 识别弯曲文本

Jetsonnano B01 笔记7：Mediapipe与人脸手势识别

vue学习之v-if/v-else/v-else-if

ansible的安装和简单的块使用

Android 状态栏显示运营商名称

10.Xaml ListBox控件

基于vue3和element-plus的省市区级联组件

Paper: 利用RNN来提取恶意软件家族的API调用模式

sdkman 安装以及 graalvm安装

如何正确使用 WEB 接口的 HTTP 状态码和业务状态码？

Spark【Spark SQL（三）DataSet】

制作立体图像实用软件：3DMasterKit 10.7 Crack

高校 Web 站点网络安全面临的主要的威胁

vue前端解决跨域

【Cicadaplayer】解码线程及队列实现

把文件上传到Gitee的详细步骤

基于keras中Lenet对于mnist的处理

Python爬虫教程：IP池的使用

Ansible之playbook剧本

Swift 协议扩展精进之路：解决 CoreData 托管实体子类的类型不匹配问题（下）

数据链路层的主要功能是什么

2025盘古石杯决赛【手机取证】

管理学院权限管理系统开发总结

保姆级教程：在无网络无显卡的Windows电脑的vscode本地部署deepseek

排序算法总结（C++）

动态 Web 开发技术入门篇

免费PDF转图片工具

Windows安装Miniconda

【Linux系统】Linux环境变量：系统配置的隐形指挥官