当前位置：首页 > news >正文

上海建筑建材业网站/关键词优化百家号

news 文章来源：https://blog.csdn.net/weixin_50592077/article/details/136069330 2025/2/26 9:52:56

上海建筑建材业网站,关键词优化百家号,茂名做网站公司,福州快速优化排名🚩🚩🚩Transformer实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码 SwinTransformer 算法原理 SwinTransformer 源码解读1（项目配置/SwinTr…

🚩🚩🚩Transformer实战-系列教程总目录

有任何问题欢迎在下面留言
本篇文章的代码运行界面均在Pycharm中进行
本篇文章配套的代码资源已经上传
点我下载源码

SwinTransformer 算法原理
SwinTransformer 源码解读1（项目配置/SwinTransformer类）
SwinTransformer 源码解读2（PatchEmbed类/BasicLayer类）
SwinTransformer 源码解读3（SwinTransformerBlock类）
SwinTransformer 源码解读4（WindowAttention类）
SwinTransformer 源码解读5（Mlp类/PatchMerging类）

6、WindowAttention类

6.1 构造函数

class WindowAttention(nn.Module):def __init__(self, dim, window_size, num_heads, qkv_bias=True, qk_scale=None, attn_drop=0., proj_drop=0.):super().__init__()self.dim = dimself.window_size = window_sizeself.num_heads = num_headshead_dim = dim // num_headsself.scale = qk_scale or head_dim ** -0.5self.relative_position_bias_table = nn.Parameter(torch.zeros((2 * window_size[0] - 1) * (2 * window_size[1] - 1), num_heads))coords_h = torch.arange(self.window_size[0])coords_w = torch.arange(self.window_size[1])coords = torch.stack(torch.meshgrid([coords_h, coords_w]))coords_flatten = torch.flatten(coords, 1)relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]relative_coords = relative_coords.permute(1, 2, 0).contiguous()relative_coords[:, :, 0] += self.window_size[0] - 1relative_coords[:, :, 1] += self.window_size[1] - 1relative_coords[:, :, 0] *= 2 * self.window_size[1] - 1relative_position_index = relative_coords.sum(-1)self.register_buffer("relative_position_index", relative_position_index)self.qkv = nn.Linear(dim, dim * 3, bias=qkv_bias)self.attn_drop = nn.Dropout(attn_drop)self.proj = nn.Linear(dim, dim)self.proj_drop = nn.Dropout(proj_drop)trunc_normal_(self.relative_position_bias_table, std=.02)self.softmax = nn.Softmax(dim=-1)

dim：输入特征维度
window_size：窗口大小
num_heads：多头注意力头数
head_dim：每头注意力的头数
scale ：缩放因子
relative_position_bias_table：相对位置偏置表，它对每个头存储不同窗口位置之间的偏置，以模拟位置信息
coords_h 、coords_w、coords：窗口内每个位置的坐标
coords_flatten ：将坐标展平，为计算相对位置做准备
第1个relative_coords：计算窗口内每个位置相对于其他位置的坐标差
第2个relative_coords：重排坐标差的维度以符合预期的格式
relative_coords[:, :, 0]、relative_coords[:, :, 1]、relative_coords[:, :, 0]：调整坐标差，使其能够映射到相对位置偏置表中的索引
relative_position_index ：计算每对位置之间的相对位置索引
register_buffer：将相对位置索引注册为模型的缓冲区，这样它就不会在训练过程中被更新
qkv ：创建一个线性层，用于生成QKV
attn_drop、proj、proj_drop：初始化注意力dropout、输出投影层及其dropout
trunc_normal_：使用截断正态分布初始化相对位置偏置表
softmax ：初始化softmax层，用于计算注意力权重

6.2 前向传播

    def forward(self, x, mask=None):B_, N, C = x.shapeqkv = self.qkv(x).reshape(B_, N, 3, self.num_heads, C // self.num_heads).permute(2, 0, 3, 1, 4)q, k, v = qkv[0], qkv[1], qkv[2]  # make torchscript happy (cannot use tensor as tuple)q = q * self.scaleattn = (q @ k.transpose(-2, -1))relative_position_bias = self.relative_position_bias_table[self.relative_position_index.view(-1)].view(self.window_size[0] * self.window_size[1], self.window_size[0] * self.window_size[1], -1)  # Wh*Ww,Wh*Ww,nHrelative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous()  # nH, Wh*Ww, Wh*Wwattn = attn + relative_position_bias.unsqueeze(0)if mask is not None:nW = mask.shape[0]attn = attn.view(B_ // nW, nW, self.num_heads, N, N) + mask.unsqueeze(1).unsqueeze(0)attn = attn.view(-1, self.num_heads, N, N)attn = self.softmax(attn)else:attn = self.softmax(attn)attn = self.attn_drop(attn)x = (attn @ v).transpose(1, 2).reshape(B_, N, C)x = self.proj(x)x = self.proj_drop(x)return x

B_, N, C = x.shape原始输入： torch.Size([256, 49, 96])，B_, N, C即原始输入的维度
qkv = self.qkv(x).reshape...qkv: torch.Size([3, 256, 3, 49, 32])，被重塑的一个五维张量，分别代表qkv三个维度、256个窗口、3个注意力头数但是不会一直是3越往后会越多、49是一个窗口有7*7=49元素、每个头的特征维度。在之前的Transformer以及Vision Transformer中，都是用x接上各自的全连接后分别生成QKV，这这里直接一起生成了。
q: torch.Size([256, 3, 49, 32])，k: torch.Size([256, 3, 49, 32])，v: torch.Size([256, 3, 49, 32])，从qkv中分解出q、k、v，而且已经包含了多头注意力机制
attn： torch.Size([256, 3, 49, 49])，attn是q和k的点积
relative_position_bias： torch.Size([49, 49, 3])，从相对位置偏置表中索引出每对位置之间的偏置，并重塑以匹配注意力分数的形状
relative_position_bias： torch.Size([3, 49, 49])，重新排列，位置编码在Transformer中一直当成偏置加进去的，而这个位置编码是对一个窗口的，所以每一个窗口的都对应了相同的位置编码
attn： torch.Size([256, 3, 49, 49])，将位置编码加到注意力分数上，到这里就算完了全部的注意力机制了
attn： torch.Size([256, 3, 49, 49])，掩码加到注意力分数上，使用softmax函数归一化注意力分数，得到注意力权重，应用注意力dropout
x： torch.Size([256, 49, 96])，使用注意力权重对v向量进行重构，然后对结果进行转置和重塑
x： torch.Size([256, 49, 96])，将加权的注意力输出通过一个线性投影层，应用输出dropout，这就是最后WindowAttention的输出，一共256个窗口，每个窗口有49个特征，每个特征对应96维的向量

上海建筑建材业网站/关键词优化百家号

🚩🚩🚩Transformer实战-系列教程总目录

6、WindowAttention类

6.1 构造函数

6.2 前向传播

相关文章：

Transformer实战-系列教程11：SwinTransformer 源码解读4（WindowAttention类）

Jenkins(本地Windows上搭建)上传 Pipeline构建前端项目并将生成dist文件夹上传至指定服务器

Elasticsearch 安装和配置脚本文档

【Android辟邪】之：gradle——在项目间共享依赖关系版本

Qt 项目树工程，拷贝子项目dll到子项目exe运行路径

进程间通信方式

[linux]：匿名管道和命名管道（什么是管道，怎么创建管道（函数），匿名管道和命名管道的区别，代码例子）

Python调用matlab程序

FlinkSql 窗口函数

十分钟GIS——geoserver+postgis+udig从零开始发布地图服务

鸿蒙（HarmonyOS）项目方舟框架（ArkUI）之Span组件

Leetcode—42. 接雨水【困难】

[Python] opencv - 什么是直方图？如何绘制图像的直方图？如何对直方图进行均匀化处理？

ppi rust开发 python调用

网站后端开发 thinkphp6 入门教程合集（更新中）

Web前端框架-Vue（初识）

配置dns服务的正反向解析

小白水平理解面试经典题目LeetCode 71. Simplify Path【Stack类】

电力负荷预测 | 电力系统负荷预测模型（Python线性回归、随机森林、支持向量机、BP神经网络、GRU、LSTM）

YY调音台：音频后期处理

一键部署一个监控系统hertzbeat

为电子表格嵌入数据库，Excel/WPS一键升级为管理系统

搜索与图论（一）（深搜，广搜，树与图的存储遍历，拓扑排序）

【开源】基于JAVA+Vue+SpringBoot的停车场收费系统

DDoS攻击激增，分享高效可靠的DDoS防御方案

打卡今天学习的命令 (linux

[C#]无法获取源 https://api.nuge t.org/v3-index存储签名信息解决方法

FRP内网穿透如何避免SSH暴力破解（二）——指定地区允许访问

Unity类银河恶魔城学习记录4-1，4-2 Attack Logic，Collider‘s collision excepetion源代码 P54 p55

各种编程语言送祝福:2024龙年大吉