阅读笔记3——空洞卷积
空洞卷积
1. 背景
空洞卷积(Dilated Convolution)最初是为解决图像分割的问题而提出的。常见的图像分割算法通常使用池化层来增大感受野,同时也缩小了特征图尺寸,然后再利用上采样还原图像尺寸。特征图先缩小再放大的过程造成了精度上的损失,因此需要有一种操作可以在增加感受野的同时保持特征图的尺寸不变,从而替代池化与上采样操作,在这种需求下,空洞卷积就诞生了。
在近几年的物体检测发展中,空洞卷积也发挥了重要的作用。因为虽然物体检测不要求逐像素地检测,但是保持特征图的尺寸较大,对于小物体的检测及物体的定位来说也是至关重要的。
2. 卷积过程
空洞卷积,顾名思义就是卷积核中间带有一些洞,跳过一些元素进行卷积。在此以3x3卷积为例,其中,图1 a)是普通的卷积过程,在卷积核紧密排列在特征图上滑动计算,而图1 b)代表了空洞数为2的空洞卷积,可以看到,在特征图上每2行或者2列选取元素与卷积核卷积。类似地,图1 c)代表了空洞数为3的空洞卷积。

在代码实现时,空洞卷积有一个额外的超参数dilation rate,表示空洞数,普通卷积dilation rate默认为1,图1 中的b与c的dilation rate分别为2与3。
在图1中,同样的一个3X3卷积,却可以起到5X5、7X7等卷积的效果。可以看出,空洞卷积在不增加参数量的前提下,增大了感受野。假设空洞卷积的卷积核大小为kkk,空洞数为ddd,则其等效卷积核大小k′k^{'}k′计算如式(1) 所示。
k′=k+(k−1)×(d−1)(1)k^{'}=k+\left ( k-1 \right )\times \left ( d-1 \right ) \tag{1}k′=k+(k−1)×(d−1)(1)
在计算感受野时,只需要将原来的卷积核大小kkk更换为k′k^{'}k′即可。
3. 优点
空洞卷积的优点显而易见,在不引入额外参数的前提下可以任意扩大感受野,同时保持特征图的分辨率不变。这一点在分割与检测任务中十分有用,感受野的扩大可以检测大物体,而特征图分辨率不变使得物体定位更加精准。
4. 缺点
当然,空洞卷积也有自己的一些缺陷, 主要表现在以下3个方面:
- 网格效应
由于空洞卷积是一种稀疏的采样方式,当多个空洞卷积叠加时,有些像素根本没有被利用到,会损失信息的连续性与相关性,进而影响分割、检测等要求较高的任务。
- 远距离的信息没有相关性
空洞卷积采取了稀疏的采样方式,导致远距离卷积得到的结果之间缺乏相关性,进而影响分类的结果。
- 不同尺度物体的关系
大的dilation rate 对于大物体分割与检测有利,但是对于小物体则有弊无利,如何处理好多尺度问题的检测,是空洞卷积设计的重点。
5. 示例
PyTorch对于空洞卷积也提供了方便的实现接口,在卷积时传入dilation 参数即可。
from torch import nn
conv1 = nn.Conv2d(3, 256, 3, stride=1, padding=1,dilation=1)
print('conv1:',conv1)conv2 = nn.Conv2d(3, 256, 3, stride=1, padding=1,dilation=2)
print('conv2:',conv2)
conv1:Conv2d(3, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
conv2:Conv2d(3, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), dilation=(2, 2))
相关文章:
阅读笔记3——空洞卷积
空洞卷积 1. 背景 空洞卷积(Dilated Convolution)最初是为解决图像分割的问题而提出的。常见的图像分割算法通常使用池化层来增大感受野,同时也缩小了特征图尺寸,然后再利用上采样还原图像尺寸。特征图先缩小再放大的过程造成了精…...
CSS系统学习总结
目录 CSS边框 CSS背景 CSS3渐变 线性渐变(Linear Gradients)- 向下/向上/向左/向右/对角方向 语法 线性渐变(从上到下) 线性渐变(从左到右) 线性渐变(对角) 使用角度 使用多…...
阿里一面:你做过哪些代码优化?来一个人人可以用的极品案例
前言 在尼恩读者50交流群中,尼恩经常指导小伙伴改简历。 改简历所涉及的一个要点是: 在 XXX 项目中,完成了 XXX 模块的代码优化 另外,在面试的过程中,面试官也常常喜欢针对提问,来考察候选人对代码质量的追…...
Android NFC 标签读写Demo与历史漏洞概述
文章目录前言NFC基础1.1 RFID区别1.2 工作模式1.3 日常应用NFC标签2.1 标签应用2.2 应用实践2.3 标签预览2.4 前台调度NFC开发3.1 NDEF数据3.2 标签的调度3.3 读写Demo3.4 Demo演示历史漏洞4.1 中继攻击4.2 预览伪造4.3 篡改卡片4.4 其它漏洞总结前言 NFC 作为 Android 手机一…...
亿级高并发电商项目-- 实战篇 --万达商城项目 六(编写角色管理、用户权限(Spring Security认证授权)、管理员管理等模块)
专栏:高并发---前后端分布式 👏作者简介:大家好,我是小童,Java开发工程师,CSDN博客博主,Java领域新星创作者 📕系列专栏:前端、Java、Java中间件大全、微信小程序、微信…...
博视像元获近5000万元融资,主攻半导体前道及锂电高端部件供应
这两年各大车企与电池厂商都在快速新建产能,尤其上游原材料成本大增,反映到产业链上巨头都在寻求增效,高端制造技术投入也大幅增长。比如这家,高端工业相机提供商「博视像元」近期宣布完成近5000万的天使加轮融资,投资…...
SpringCloud-断路器Hystrix
一、降级使用1、添加依赖<!--hystrix--><dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-netflix-hystrix</artifactId></dependency>2、启动类添加注解EnableCircuitBreakerSpringBoot…...
JavaScript精简笔记
文章目录基础语法函数1.1、函数的使用预解析对象1.1、创建对象基础语法 函数 1.1、函数的使用 函数在使用时分为两步:声明函数和调用函数 ①声明函数 //声明函数 function 函数名(){//函数体代码 }function 是声明函数的关键字,必须小写由于函数一般是为了实现…...
MySQL常用函数汇总
1 MySQL 字符串函数函数描述实例ASCII(s)返回字符串 s 的第一个字符的 ASCII 码。返回 CustomerName 字段第一个字母的 ASCII 码:SELECT ASCII(CustomerName) AS NumCodeOfFirstCharFROM Customers;CHAR_LENGTH(s)返回字符串 s 的字符数返回字符串 RUNOOB 的字符数S…...
100M网口客户电脑插上网线就断线,自己工厂正常,是什么问题导致?
Hqst(华强盛科技)导读:物联工程师100M网口产品出现客户电脑插上网线就显示断线,无法通信,在自己工厂又正常使用,是什么问题?问:100M 网口, 使用改电路, 产品出…...
从零开始学习无人机 00 硬件配置
遥控器 型号 乐迪Radiolink AT9S Pro 固件更新 对遥控器固件作更新 乐迪Radiolink AT9S Pro 固件更新 光流传感器 型号 思动智能ThoneFlow-3901U 开发文档 Pmw3901光流传感器PX4开发文档 距离传感器 型号 空循环Nooploop TOFSense-F Pro 开发文档 TOFSense-F官方…...
免翻在Chrome上使用新必应(New Bing)聊天机器人
这里不讲如何加入New Bing内测 文章目录免翻使用New Bing用Chrome(非Edge)使用新必应聊天机器人免翻使用New Bing 第一个是免翻,需要一个浏览器插件Header Editor,扩展商店或者百度自行下载安装吧。打开该插件,添加一个规则 为方便填写&…...
LA@特征值和特征向量
文章目录特征值和特征向量例例求解方阵的特征值和特征向量🎈特征多项式特征方程方阵特征值和特征向量的性质证明推论衍生特征值更一般的转置和特征值其他结论(方阵多项式的特征值与方阵本身特征值的关系)特征向量线性相关性特征值和特征向量 许多定量分析模型中,常常…...
transpose代码学习
论文:TransPose: Keypoint Localization via Transformer Sen Yang Zhibin Quan Mu Nie Wankou Yang* School of Automation, Southeast University, Nanjing 210096, China {yangsenius, 101101872, niemu, wkyang}seu.edu.cn 下载地址:https://arxiv.o…...
【Redis】Redis 常用数据类型操作 ② ( 数据库操作 | 切换数据库 | 查询当前数据库键个数 | 清空当前数据库 | 清空所有数据库 )
文章目录一、Redis 数据库操作1、切换数据库2、查询当前数据库键个数3、清空当前数据库4、清空所有数据库一、Redis 数据库操作 在之前的博客 【Redis】Redis 数据库 安装、配置、访问 ( Redis 简介 | 下载 Redis 安装包 | 安装 Redis 数据库 | 命令行访问 Redis | 使用可视化工…...
最简单的物体识别例子
第一步下载百度EASYDL工具。 网址EasyDL 图像 然后下载本地训练工具包: 本地下载,运行。 首先创建数据集, 完成,创建目标任务。 选择物体检测创建任务 选择训练,将数据集引入 通用型小型设备SDK 选择这个可以本地直…...
指针——“C”
各位CSDN的uu们你们好呀,今天,小雅兰学习的内容是指针,这次只会讲一些很简单的知识点,更详细的指针知识会在以后的博客中逐步剖析清楚,那么现在,就让我们进入指针的世界吧 指针是什么 指针和指针类型 野指…...
学习 Linux 内核书籍推荐
原文链接,欢迎关注: 你为什么学习 Linux 内核? - CodeAllen的回答 - 知乎 https://www.zhihu.com/question/31369673/answer/2894981254 主要是工作需要,其实对于我自己的工作来说,在Linux开发的具体业务和算法才是重…...
深圳硬件黑客松活动,开放报名!
开源社KAIYUANSHE近期微信公众号订阅功能做调整啦!没有被星标的账号在信息流里可能不显示大图了!快星标⭐我们,就可以及时看到发布的文章啦!STEP01 点击右上角标志STEP02 点击【设为星标】近年来,创客文化越来越受到人…...
力扣sql简单篇练习(十七)
力扣sql简单篇练习(十七) 1 销售分析| 1.1 题目内容 1.1.1 基本题目信息 1.1.2 示例输入输出 1.2 示例sql语句 # 可以考虑使用all函数 SELECT seller_id FROM Sales GROUP BY seller_id HAVING sum(price)>all(SELECT sum(price)FROM SalesGROUP BY seller_id )1.3 运行…...
5个步骤彻底解决GTA5在线模式崩溃问题:YimMenu防崩溃菜单完全指南
5个步骤彻底解决GTA5在线模式崩溃问题:YimMenu防崩溃菜单完全指南 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trend…...
从编译错误到成功仿真:记录我调试MIT Mini Cheetah源码时遇到的3个典型问题
从编译错误到成功仿真:记录我调试MIT Mini Cheetah源码时遇到的3个典型问题 调试MIT Mini Cheetah开源代码的过程,就像是在解一道复杂的数学题——每一步都可能隐藏着意想不到的陷阱。作为一个曾经在这个项目上耗费了整整两个周末的开发者,我…...
淘宝算法升级背后:主图视觉标准重构与 AI 工具降本增效全复盘
最近与淘宝做搜索流量的高手深度复盘之后,大家普遍发现一个扎心的事实:以前那种“大红大绿、卖点堆满”的暴力主图,在现在的淘宝算法面前几乎失效了 现在的淘宝正处于一个“视觉大调头”的阶段。如果还在用两年前的套路做图,你会…...
圣女司幼幽-造相Z-Turbo在无障碍服务中的潜力:为视障用户提供角色形象语音化描述生成
圣女司幼幽-造相Z-Turbo在无障碍服务中的潜力:为视障用户提供角色形象语音化描述生成 1. 引言:当AI绘画遇见无障碍服务 想象一下,一位视障朋友正在听一部有声小说,故事里描绘了一位名叫“圣女司幼幽”的角色,她身着墨…...
忍者像素绘卷开源可部署实践:私有云部署+API网关安全加固方案
忍者像素绘卷开源可部署实践:私有云部署API网关安全加固方案 1. 项目概述与技术特点 忍者像素绘卷是一款基于Z-Image-Turbo深度优化的图像生成工作站,专为像素艺术创作设计。它融合了16-Bit复古游戏美学与现代AI图像生成技术,为创作者提供了…...
Qwen3.5-27B教育场景应用:学生作业图题自动解答+解题思路生成案例
Qwen3.5-27B教育场景应用:学生作业图题自动解答解题思路生成案例 1. 教育场景痛点分析 在传统教育场景中,学生遇到作业难题时往往面临以下困境: 解题资源有限:课后难以及时获得老师指导理解障碍:特别是图形类题目&a…...
Vite代理配置实战:如何通过响应头追踪真实接口地址
1. 为什么需要追踪Vite代理的真实接口地址 前端开发过程中,使用Vite的代理功能解决跨域问题已经成为标配。但实际调试时经常会遇到这样的困扰:浏览器Network面板里看到的请求地址全是http://localhost:5173/api/user这样的本地路径,根本不知道…...
I.MX6ULL 裸机开发:SPI 总线与多点触摸屏驱动原理剖析
摘要 本文基于 I.MX6ULL 裸机开发实践,系统梳理了 SPI 串行外设接口的通信协议、ECSPI 控制器配置方法以及 ADXL345 三轴加速度传感器的驱动实现。同时,针对开发板搭载的 GT9147 多点电容触摸控制器,详细分析了其 I2C 通信机制、中断处理流程…...
AI原生微服务可观测性如何突破“黑盒困局”?SITS2026首发Trace-LLM双轨追踪框架(已落地支撑日均2.4亿次AI调用)
第一章:SITS2026分享:AI原生微服务架构设计 2026奇点智能技术大会(https://ml-summit.org) 核心设计范式演进 AI原生微服务架构不再将模型作为后端API的被动调用对象,而是将其建模为具备生命周期、可观测性、弹性扩缩与上下文感知能力的一等…...
email2phonenumber与Phonerator对比分析:选择最适合你的OSINT工具
email2phonenumber与Phonerator对比分析:选择最适合你的OSINT工具 【免费下载链接】email2phonenumber A OSINT tool to obtain a targets phone number just by having his email address 项目地址: https://gitcode.com/gh_mirrors/em/email2phonenumber e…...
