当前位置：首页 > news >正文

深度学习中的注意力模块的添加

news 2025/7/15 5:26:09

在深度学习中，骨干网络通常指的是网络的主要结构或主干部分，它负责从原始输入中提取高级特征。骨干网络通常由卷积神经网络（CNN）或者类似的架构组成，用于对图像、文本或其他类型的数据进行特征提取和表示学习。

注意力模块则是一种用于处理序列数据的重要组件，例如在自然语言处理领域中常用的 Transformer 模型中就包含了注意力机制。注意力模块可以让模型更好地关注输入序列中的不同部分，并学习它们之间的相关性，从而提高模型的性能和泛化能力。

骨干网络和注意力模块通常是结合在一起来构建端到端的深度学习模型。这种结合可以通过多种方式实现：

注意力机制作为模块插入：在骨干网络的某个特定层或者多个层之间插入注意力模块。这样可以让模型在处理输入数据时更加灵活，可以根据任务的需要更加关注特定的信息或特征。
注意力机制与骨干网络并行：将注意力模块与骨干网络的不同部分并行处理输入数据，然后将它们的输出进行合并或者融合。这种方式可以提供更丰富的特征表征，同时保留了骨干网络和注意力模块各自的特点。
注意力机制作为整个模型的一部分：有些模型设计中，注意力机制被整合到模型的整个结构中，例如在 Transformer 模型中，注意力机制是模型的核心组件之一，与编码器、解码器等其他模块相互作用，共同完成任务。

总的来说，骨干网络和注意力模块的结合方式取决于具体的任务和模型设计需求。它们相互协作可以提高模型的表现，并且在不同的应用场景中可能会有不同的结合方式和调整方法。

举例：以 ResNet 骨干网络为例，并在其中的一个特定层插入自注意力机制。

import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision.models import resnet50class SelfAttention(nn.Module):def __init__(self, in_channels, out_channels):super(SelfAttention, self).__init__()self.query_conv = nn.Conv2d(in_channels, out_channels, kernel_size=1)self.key_conv = nn.Conv2d(in_channels, out_channels, kernel_size=1)self.value_conv = nn.Conv2d(in_channels, out_channels, kernel_size=1)self.gamma = nn.Parameter(torch.zeros(1))def forward(self, x):batch_size, channels, height, width = x.size()proj_query = self.query_conv(x).view(batch_size, -1, width * height).permute(0, 2, 1)proj_key = self.key_conv(x).view(batch_size, -1, width * height)energy = torch.bmm(proj_query, proj_key)attention = F.softmax(energy, dim=-1)proj_value = self.value_conv(x).view(batch_size, -1, width * height)out = torch.bmm(proj_value, attention.permute(0, 2, 1))out = out.view(batch_size, channels, height, width)out = self.gamma * out + xreturn outclass ResNetWithAttention(nn.Module):def __init__(self, num_classes):super(ResNetWithAttention, self).__init__()self.resnet = resnet50(pretrained=True)# Insert attention module after the second convolutional layerself.resnet.layer1.add_module("self_attention", SelfAttention(256, 256))self.fc = nn.Linear(2048, num_classes)def forward(self, x):x = self.resnet(x)x = F.avg_pool2d(x, x.size()[2:]).view(x.size(0), -1)x = self.fc(x)return x# Example usage:
model = ResNetWithAttention(num_classes=1000)
input_tensor = torch.randn(1, 3, 224, 224)  # Example input tensor
output = model(input_tensor)
print(output.shape)  # Should print: torch.Size([1, 1000])

在这个示例中，我们定义了一个自注意力模块 SelfAttention，并将其插入到了 ResNet 的第一个残差块 layer1 中的第二个卷积层之后。然后我们定义了一个新的模型 ResNetWithAttention，其中包含了 ResNet 的主干部分和我们插入的注意力模块。最后，我们在模型的最后添加了一个全连接层用于分类。

这个示例展示了如何在 PyTorch 中实现将注意力模块插入到现有骨干网络中的过程。通过这种方式，我们可以灵活地设计深度学习模型，以更好地适应不同的任务和数据特点。

举例：在 PyTorch 中实现将注意力机制与骨干网络并行处理输入数据，我们可以在骨干网络的输出上应用注意力机制，然后将其与骨干网络的输出进行合并或融合。下面是一个示例，我们将在 ResNet50 骨干网络的输出上应用自注意力机制，并将其与原始输出进行融合。

import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision.models import resnet50class SelfAttention(nn.Module):def __init__(self, in_channels, out_channels):super(SelfAttention, self).__init__()self.query_conv = nn.Conv2d(in_channels, out_channels, kernel_size=1)self.key_conv = nn.Conv2d(in_channels, out_channels, kernel_size=1)self.value_conv = nn.Conv2d(in_channels, out_channels, kernel_size=1)self.gamma = nn.Parameter(torch.zeros(1))def forward(self, x):batch_size, channels, height, width = x.size()proj_query = self.query_conv(x).view(batch_size, -1, width * height).permute(0, 2, 1)proj_key = self.key_conv(x).view(batch_size, -1, width * height)energy = torch.bmm(proj_query, proj_key)attention = F.softmax(energy, dim=-1)proj_value = self.value_conv(x).view(batch_size, -1, width * height)out = torch.bmm(proj_value, attention.permute(0, 2, 1))out = out.view(batch_size, channels, height, width)out = self.gamma * out + xreturn outclass ResNetWithAttentionParallel(nn.Module):def __init__(self, num_classes):super(ResNetWithAttentionParallel, self).__init__()self.resnet = resnet50(pretrained=True)self.attention = SelfAttention(2048, 2048)self.fc = nn.Linear(2048 * 2, num_classes)  # Concatenating original and attention-enhanced featuresdef forward(self, x):features = self.resnet(x)attention_out = self.attention(features)combined_features = torch.cat((features, attention_out), dim=1)  # Concatenate original and attention-enhanced featuresoutput = self.fc(combined_features.view(features.size(0), -1))return output# Example usage:
model = ResNetWithAttentionParallel(num_classes=1000)
input_tensor = torch.randn(1, 3, 224, 224)  # Example input tensor
output = model(input_tensor)
print(output.shape)  # Should print: torch.Size([1, 1000])

在这个示例中，我们定义了一个自注意力模块 SelfAttention，并在 ResNet50 的输出上应用了这个注意力机制。然后，我们将注意力机制的输出与原始的骨干网络输出进行了融合，通过将它们连接在一起。最后，我们在融合后的特征上添加了一个全连接层用于分类。

这个示例展示了如何在 PyTorch 中实现将注意力机制与骨干网络并行处理输入数据的方法。通过这种方式，我们可以利用注意力机制来增强骨干网络提取的特征，从而提高模型的性能和泛化能力。

举例：一个自注意力（self-attention）机制作为整个模型一部分的例子，这个例子基于 Transformer 模型的结构。在 Transformer 中，自注意力机制被整合到编码器和解码器中，用于处理序列数据。

下面是一个简化版本的 Transformer 编码器，其中包含自注意力层作为整个模型的一部分：

import torch
import torch.nn as nn
import torch.nn.functional as Fclass SelfAttention(nn.Module):def __init__(self, embed_size, heads):super(SelfAttention, self).__init__()self.embed_size = embed_sizeself.heads = headsself.head_dim = embed_size // headsassert (self.head_dim * heads == embed_size), "Embedding size needs to be divisible by heads"self.values = nn.Linear(self.head_dim, self.head_dim, bias=False)self.keys = nn.Linear(self.head_dim, self.head_dim, bias=False)self.queries = nn.Linear(self.head_dim, self.head_dim, bias=False)self.fc_out = nn.Linear(heads * self.head_dim, embed_size)def forward(self, values, keys, query, mask):N = query.shape[0]value_len, key_len, query_len = values.shape[1], keys.shape[1], query.shape[1]# Split the embedding into self.heads different piecesvalues = values.reshape(N, value_len, self.heads, self.head_dim)keys = keys.reshape(N, key_len, self.heads, self.head_dim)queries = query.reshape(N, query_len, self.heads, self.head_dim)values = self.values(values)keys = self.keys(keys)queries = self.queries(queries)# Scaled dot-product attentionenergy = torch.einsum("nqhd,nkhd->nhqk", [queries, keys])if mask is not None:energy = energy.masked_fill(mask == 0, float("-1e20"))attention = torch.softmax(energy / (self.embed_size ** (1 / 2)), dim=3)out = torch.einsum("nhql,nlhd->nqhd", [attention, values]).reshape(N, query_len, self.heads * self.head_dim)out = self.fc_out(out)return outclass TransformerEncoderLayer(nn.Module):def __init__(self, embed_size, heads, dropout, forward_expansion):super(TransformerEncoderLayer, self).__init__()self.attention = SelfAttention(embed_size, heads)self.norm1 = nn.LayerNorm(embed_size)self.norm2 = nn.LayerNorm(embed_size)self.feed_forward = nn.Sequential(nn.Linear(embed_size, forward_expansion * embed_size),nn.ReLU(),nn.Linear(forward_expansion * embed_size, embed_size),)self.dropout = nn.Dropout(dropout)def forward(self, value, key, query, mask):attention = self.attention(value, key, query, mask)# Add skip connection, run through normalization and finally dropoutx = self.dropout(self.norm1(attention + query))forward = self.feed_forward(x)out = self.dropout(self.norm2(forward + x))return outclass TransformerEncoder(nn.Module):def __init__(self,src_vocab_size,embed_size,num_layers,heads,device,forward_expansion,dropout,max_length,):super(TransformerEncoder, self).__init__()self.embed_size = embed_sizeself.device = deviceself.word_embedding = nn.Embedding(src_vocab_size, embed_size)self.position_embedding = nn.Embedding(max_length, embed_size)self.layers = nn.ModuleList([TransformerEncoderLayer(embed_size,heads,dropout=dropout,forward_expansion=forward_expansion,)for _ in range(num_layers)])self.dropout = nn.Dropout(dropout)def forward(self, x, mask):N, seq_length = x.shapepositions = torch.arange(0, seq_length).expand(N, seq_length).to(self.device)out = self.dropout(self.word_embedding(x) + self.position_embedding(positions))for layer in self.layers:out = layer(out, out, out, mask)return out# Example usage:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
src_vocab_size = 1000  # Example vocabulary size
max_length = 100  # Example maximum sequence length
embed_size = 256
heads = 8
num_layers = 6
forward_expansion = 4
dropout = 0.2encoder = TransformerEncoder(src_vocab_size,embed_size,num_layers,heads,device,forward_expansion,dropout,max_length,
)# Example input tensor
input_tensor = torch.randint(0, src_vocab_size, (32, 10))  # Batch size: 32, Sequence length: 10
mask = torch.ones(32, 10)  # Example maskoutput = encoder(input_tensor, mask)
print(output.shape)  # Should print: torch.Size([32, 10, 256])

在这个例子中，我们定义了一个简化版本的 Transformer 编码器，其中包含自注意力层作为整个模型的一部分。自注意力层用于处理输入序列，并学习序列中不同位置之间的关系。整个模型接受输入序列并输出相应的表示。

深度学习中的注意力模块的添加

相关文章：

深度学习中的注意力模块的添加

Docker 部署开源远程桌面工具 RustDesk

intellij idea 使用git ，快速合并冲突

AcWing26. 二进制中1的个数。三种解法Java

【ADB】常见命令汇总（持续更新）

【递归与递推】数的计算|数的划分|耐摔指数

企业案例：金蝶云星空集成钉钉，帆软BI

简单设计模式讲解

基于springboot的社区医疗服务系统

影院座位选择简易实现（uniapp）

调用飞书获取用户Id接口成功，但是没有返回相应数据

STM32 GPIO输入检测——按键

Rustdesk二次编译，新集成AI功能开源Gpt小程序为远程协助助力,全网首发

面试（03）————多线程和线程池

纯CSS实现未读消息显示99+

【C++】C++ primer plus 第十二章--类和动态内存分配

分类预测 | Matlab实现GWO-LSSVM灰狼算法优化最小二乘支持向量机数据分类预测

使用PHP进行极验验证码动态参数提取与逆向分析

43.1k star, 免费开源的 markdown 编辑器 MarkText

ArcGIS Pro怎么进行挖填方计算

华为云AI开发平台ModelArts

使用VSCode开发Django指南

Appium+python自动化（十六）- ADB命令

中南大学无人机智能体的全面评估！BEDI：用于评估无人机上具身智能体的综合性基准测试

多场景 OkHttpClient 管理器 - Android 网络通信解决方案

java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别

MySQL 8.0 OCP 英文题库解析（十三）

保姆级教程：在无网络无显卡的Windows电脑的vscode本地部署deepseek

省略号和可变参数模板

Rust 开发环境搭建