当前位置：首页 > news >正文

论文阅读（二十九）：Multi-scale Interactive Network for Salient Object Detection

news 2025/7/4 10:45:56

文章目录

Abstract
1.Introduction
2.Scale Variation
Proposed Method
- 3.1Network Overview
- 3.2Aggregate Interaction Module
- 3.3 Self-Interaction Module
- 3.4Consistency-Enhanced Loss
4.Experiments
- 4.1Implementation Details
- 4.2 Comparison with State-of-the-arts
- 4.3Ablation Study

论文：Multi-scale Interactive Network for Salient Object Detection（用于显著性目标检测的多尺度交互网络）
论文链接：Multi-scale Interactive Network for Salient Object Detection
代码链接：Github

Abstract

本文提出了聚合交互模块来整合来自相邻水平的特征，其中由于只使用小的上/下采样率，引入了较少的噪声。为了从集成特征中获得更高效的多尺度特征，在每个解码器单元中嵌入自交互模块。此外，尺度变化引起的类不平衡问题削弱了二元交叉熵损失的效果，导致预测结果的空间不一致。因此，本文利用一致性增强的损失来突出前/背景差异并保持类内一致性。

1.Introduction

在这里插入图片描述
上图中，绿色块、橙色块和灰色块分别表示编码器、传输层和解码器中不同的卷积块。左列表示常见的编码器与传输层之间的连接模式；右列表示传输层和解码器之间的连接模式。
本文提出了一种聚合交互策略（Aggregate Interaction Strategy，AIM）以更好地利用多层次特征，避免不同分辨率特征图之间的差异对特征融合造成干扰，并有效整合来自相邻分辨率的上下文信息。
模型结构采用架构(h)，本文的主要贡献如下：

1.提出多尺度交互模块（MINet，Multi-scale Interactive Network）用于显著性目标检测任务，其包含的聚合交互模块（Aggregate Interaction Module，AIM）通过相互学习的方式有效地利用相邻层的特征，自交互模块（Self-Interaction Module，SIM）使网络能够自适应地从数据中提取多尺度信息，更好地处理尺度变化。
2.提出一致性增强的损失函数用于模型训练，帮助模型均匀突出整个显著区域，更好地处理由于物体的不同尺度导致的前后区域像素不平衡问题，且无需任何后处理或额外的参数。

2.Scale Variation

尺度变化是显著性目标检测任务的主要难题之一。一方面，嵌入在不同分辨率特征中的物体信息量随着物体尺度的变化而变化，另一方面，每个卷积层只具有处理特定规模的能力。因此，本研究通过构建多路径特征提取结构，从单层对多尺度信息进行表征。

Multi-level Information（多层次信息）：由于相邻编码器提取的特征抽象程度相近，因此MINet模型只融合相邻层的特征，以获得丰富的尺度信息。
Multi-scale Information（多尺度信息）：本文提出了一个由两个分支交互学习特征的多尺度处理模块，可以学习到丰富的多尺度信息。此外，过大和过小的对象会导致前景和背景样本之间的不平衡，从而削弱像素级监督的效果。本研究中引入一致性增强损失（CEL）作为交叉熵损失的辅助，其对物体的大小不敏感，而更关注预测的整体效果，有助于获得更均匀的显著性结果。

Proposed Method

3.1Network Overview

在这里插入图片描述
网络结构如上图所示。模型以大小为 $(320, 320, 3)$ 的RGB图像作为输入，处理流程为：

1.以预训练的VGG-16或ResNet-50的特征图提取网络作为编码器来提取多层次特征和抽象。
2.使用 $AIMs(\{AIM^i\}^4_{i=0})$ 对编码器提取的特征进行集成，并以相邻层的特征作为输入，为当前分支提供相关的补充。
3.使用 $SIMs(\{SIM^i\}^4_{i=0})$ 和融合单元（FU，Fusion Unit）将输出的特征进行组合，并在真实掩模的监督下生成最终预测。

后续内容均以VGG-16作为网络主干。

3.2Aggregate Interaction Module

特征提取网络中，不同层次的卷积层对应着不同程度的特征抽象。多层次集成可以增强不同分辨率特征的表示能力。

浅层特征：可以进一步加强细节信息，抑制噪声。
中间层特征：同时考虑了语义信息和细节信息，可以根据网络本身的需要自适应调整不同抽象信息在特征中的比例，从而实现更灵活的特征利用。
深层特征：可以挖掘更丰富的语义信息。

聚合交互模块（AIM，Aggregate Interaction Module）通过交互式学习策略来聚合特征。设第 $i$ 个AIM模块为 $AIM_i$ ，其输入是来自编码器提取的特征 $f_{e}^{i-1}、f_{e}^{i}、f_{e}^{i+1}$ 。
在这里插入图片描述
上图依次展示了模型中的三种 $A I M$ 模块结构，其中， $(a)$ 代表 $AIM_0$ ， $(b)$ 代表 $AIM_k,k∈\{1,2,3\}$ ， $(a)$ 代表 $AIM_4$ 。
经过卷积+BN+ReLU处理后，来自编码器的输出分为本地分支（ $B^1$ ）与辅助分支（ $B^0、B^2$ ）。通过池化、邻域插值和卷积操作对 $B^0、B^2$ 分支进行调整，并通过逐元加法将它们合并到 $B^1$ 分支中，之后通过卷积操作实现特征融合并减少通道数，再通过残差连接得到最终的输出。整个流程如下：
在这里插入图片描述

3.3 Self-Interaction Module

自交互模块（SIM，Self-Interaction Module）和融合单元将输出的特征进行组合，并在真实掩模的监督下生成最终预测。SIM模块结构图：
在这里插入图片描述

首先通过卷积层降低输入特征的分辨率和通道数，在每个分支中，SIM模块都会对低分辨率特征进行上采样、对高分辨率特征进行下采样，使其与其他分支的特征具有相同的分辨率。不同分辨率、通道数特征的交互操作可获得大量的不同尺度的知识，并以较低的参数量化来主要保持高分辨率信息。此外还采用了残差连接。在经过上采样、归一化和非线性处理后，采用融合单元（FU）对SIM和残差支路的双路径进行处理，将SIM集成到解码器中，使得网络在训练阶段能够自适应地处理不同样本的尺度变化。计算公式如下：
在这里插入图片描述

其中， $f^i_{SIM}$ 表示 $SIM_i$ 模块的输出， $M (\cdot)$ 表示分支合并， $B^{i,j}_{SIM}$ 表示 $SIM_i$ 的第 $j$ 个分支 $B^j$ 。输入特征 $f^i_{add}$ 计算如下：

$U^{i+1}(·)$ 和 $F^{i+1}(·)$ 表示表示自顶向下路径中的第 $i + 1$ 个上采样操作和融合单元。

3.4Consistency-Enhanced Loss

本文提出一致性增强损失（CEL）辅助模型训练：
在这里插入图片描述
其中， $P∈R^{N×H×W×1}$ 表示一批次数据中的N张显著性图（ $N=batch\_size$ ）， $S i g m o i d (C o n v (\cdot))$ 表示解码器中具有非线性激活函数的最后一个卷积层。二进制交叉熵损失（BCEL）函数计算公式如下：

其中， $G∈\{0,1\}^{N×H×W×1}$ 表示真实掩模。

4.Experiments

4.1Implementation Details

模型采用DUTS-TR数据集作训练数据集，在训练阶段，随机水平翻转、随机旋转和随机颜色抖动作为数据增强技术来避免过度拟合问题。以 $batch\_size=4$ 训练了50个epoch，编码器（即VGG-16和ResNet-50）使用在ImageNet数据集上预训练的相应模型初始化，其余参数由PyTorch的默认设置初始化。使用SGD优化器，其权重衰减为5e-4，初始学习率为1e-3，动量为0.9。此外，采用了一个系数为0.9的ploy学习率调整策略，图像输入尺寸为 $320 \times 320 \times 3$ 。

4.2 Comparison with State-of-the-arts

在这里插入图片描述
上表列出了含有六个指标的详细实验结果。使用红、绿、蓝依次表示性能前三名。

上图列出了一些有代表性的例子。

4.3Ablation Study

Effectiveness of the AIMs and SIMs

使用类似FPN的网络架构作为基准模型，其使用横向连接将最浅层的通道数减少到32，其他层减少到64。可见，两个模块都在基线上实现了显著的性能改进。

在这里插入图片描述

从可视化结果可见，由于交互式特征学习可以捕获更丰富的多尺度上下文信息，因此AIMs和SIMs可以有效地抑制背景干扰并完全分割显著目标。