Normalization
1、BN(Batch Normalization)
深度网络参数训练时内部存在协方差偏移(Internal Covariate Shift)现 象:深度网络内部数据分布在训练过程中发生变化的现象。
训练深度网络时,神经网络隐层参数更新会导致网络输出层输出数据的分布 发生变化,而且随着层数的增加,根据链式规则,这种偏移现象会逐渐被放大。 这对于网络参数学习来说是个问题:因为神经网络本质学习的就是数据分布 (representation learning),如果数据分布变化了,神经网络又不得不学习 新的分布。为保证网络参数训练的稳定性和收敛性,往往需要选择比较小的学习 速率(learning rate),同时参数初始化的好坏也明显影响训练出的模型精度, 特别是在训练具有饱和非线性(死区特性)的网络,比如即采用 S 或双 S 激活函 数网络,比如 LSTM,GRU。
因此需要引入 Batch Normalization,作为深度网络模型的一个层,每次先 对 input 数据进行归一化,再送入神经网络输入层。 神经网络的训练过程中,更新了某一层的权重参数,后续每一层网络的输出 都可能发生变化,最终引起 loss 值的变化。所以当没有 BN 层时,loss 的收敛 就需要我们精心设计权重的初始化方法和超参数的调节方法以及等待漫长的训 练时间;但当我们在各层之间加入了 BN 层后,某层的输出仅由两个参数γ和β 决定,使用梯度下降法优化参数时,优化方法只需要调节两个参数的值来控制各 层的输出,而不需要调节各层的全部参数。这样极大地提高了收敛速度,避免了 小心翼翼的参数初始化和超参数调节过程。
Batch normalization 也可以被看做一个层面. 在一层层的添加神经网络 的时候, 我们先有数据 X, 再添加全连接层, 全连接层的计算结果会经过激活 函数成为下一层的输入, 接着重复之前的操作。Batch Normalization (BN) 就 被添加在每一个全连接和激励函数之间。
BN 的作用:
(1)加快网络的训练和收敛的速度; (2)控制梯度爆炸防止梯度消失; (3)防止过拟合。
BN 的缺陷:
(1)高度依赖于 mini-batch 的大小,实际使用中会对 mini-Batch 大小进 行约束,不适合类似在线学习(mini-batch 为 1)。 (2)不适用于 RNN 网络中 normalize 操作:BN 实际使用时需要计算并且保 存某一层神经网络 mini-batch 的均值和方差等统计信息,对于对一个固定深度 的前向神经网络(DNN,CNN)使用 BN,很方便;但对于 RNN 来说,sequence 的长度是不一致的,换句话说 RNN 的深度不是固定的,不同的 time-step 需要保存 不同的 statics 特征,可能存在一个特殊 sequence 比其的 sequence 长很多,这 样 training 时,计算很麻烦。
BN 适用于判别模型,比如图像分类模型,因为 BN 注重对每个 Batch 进行 Normalization 操作,从而保证数据分布的一致性,而判别模型的结果正是取决 于数据整体分布。但是 BN 对 BatchSize 的大小比较敏感,由于每次计算均值和 方差是在一个 Batch 上,所以如果 BatchSize 太小,则计算的均值和方差不足以 代表整个数据分布。
2、IN(Instance normalization)
IN 是作用于单张图片,但是 BN 作用于一个 Batch。IN 是针对于不同的 batch, 不同的 chennel 进行归一化。还是把图像的尺寸表示为[N, C, H, W]的话,IN 则是针对于[H,W]进行归一化。
IN 适用于生成模型中,比如图片风格迁移。因为图片生成的结果主要依赖 于某个图像实例,所以对整个 Batch 进行 Normalization 操作并不适合图像风格 化的任务,在风格迁移中适用 IN 不仅可以加速模型收敛,并且可以保持每个图 像实例之间的独立性。
3、LN(Layer Normalization)
BN 并不适用于 RNN 等动态网络和 batchsize 较小的时候效果不好。Layer Normalization(LN)的提出有效的解决 BN 的这两个问题。
Layer Normalization 的基本思想是:用同层隐层神经元的响应值作为集合 S 的范围,来求均值和方差。而 RNN 的每个时间步的都有隐层,且包含了若干神 经元,所以 Layer Normalization 可直接应用于 RNN。
LN 的方法是对于每一个 sample 中的多个 feature(也就是 channel)进行归 一化操作。把图像的尺寸表示为[N, C, H, W]的话,LN 则是对于[C,H,W]进行归 一化。相对于 BN 中所表示的同一个 feature 在不同的 batch 之间拥有同样的均 值和方差。LN 中所表示的则是在同一个 sample 中,不同的 feature 上有着相同 的均值和方差。
4、GN(Group Nomalization)
GN 介于 LN 和 IN 之间,其首先将 channel 分为许多组(group),对每一组 做归一化,及先将 feature 的维度由[N, C, H, W]reshape 为[N, G,C//G , H, W],归一化的维度为[C//G , H, W] 事实上,GN 的极端情况就是 LN 和 IN,分别对应 G 等于 C 和 G 等于 1,作者 在论文中给出 G 设为 32 较好。
GN 同样可以针对于 mini batch size 较小的情况。因为它有不受 batch size 的约束。 ,LN/IN 和 GN 都没有对 batch 作平均,所以当 batch 变化时,网络的错误 率不会有明显变化。但论文的实验显示:LN 和 IN 在时间序列模型(RNN/LSTM) 和生成模型(GAN)上有很好的效果,而 GN 在视觉模型上表现更好。
相关文章:
Normalization
1、BN(Batch Normalization) 深度网络参数训练时内部存在协方差偏移(Internal Covariate Shift)现 象:深度网络内部数据分布在训练过程中发生变化的现象。训练深度网络时,神经网络隐层参数更新会导致网络输…...
27K测试老鸟分享自己6年面试心得,四种公司、四种问题…
这里总结了下自己今年的面试情况 先说一下自己的个人情况,普通二本计算机专业毕业,懂python,会写脚本,会selenium,会性能。趁着金三银四跳槽季,面试字节跳动测试岗技术面都已经过了,本来以为是…...
中小企业数字化自动化转型的方法
自动化是我们国内未来的趋势。智能制造的实现主要依托两个基础能力,一个是工业制造技术,另一个就是工业互联网。而自动化是工业制造技术的重要组成部分,是高度智能制造装备的核心部分,与承接着制造单元与工业互联网这两大核心。懂…...
利用GPT-3 Fine-tunes训练专属语言模型
利用GPT-3 Fine-tunes训练专属语言模型 文章目录什么是模型微调(fine-tuning)?为什么需要模型微调?微调 vs 重新训练微调 vs 提示设计训练专属模型数据准备清洗数据构建模型微调模型评估模型部署模型总结什么是模型微调࿰…...
kubeadm方式安装k8s高可用集群(版本1.26x)
K8S官网:https://kubernetes.io/docs/setup/ 高可用Kubernetes集群规划 配置备注系统版本CentOS 7.9Docker版本20.10.xPod网段172.16.0.0/12Service网段10.103.10.0/16 主机IP说明k8s-master01 ~ 03192.168.77.101 ~ 103master节点 * 3k8s-master-lb192.168.77.2…...
分享5款堪称神器的免费软件,建议先收藏再下载
转眼间新年已经过去一个月了,最近陆陆续续收到好多小伙伴的咨询,这边也是抓紧整理出几个好用的软件,希望可以帮到大家。 1.电脑安全管家——火绒 火绒是一款电脑安全软件,病毒库更新及时,界面清晰干净,没…...
【项目实战】从0开始入门JDK源码 - LinkedList源码
一、源码位置 一般来说IDEA配置好JDK以后 ,JDK的源码其实也配置好了,本文是基于JDK1.8的源码说明 rt - java - util - LinkedList 二、 继承关系图 LinkedList public class LinkedList<E>extends AbstractSequentialList<E>implements...
Polygon zkEVM的gas定价
1. 引言 所有的zkEVM都存在一个有趣的问题: 如何给gas定价? 在Ethereum Virtual Machine (EVM)中,gas通过为每个计算设置economic fee,来保持网络安全。恶意行为,如拒绝服务(DoS)攻击&#x…...
stl中的智能指针类详解
C98/03的尝试——std::auto_ptr C11标准废弃了std::auto_ptr(在C17标准中被移除),取而代之的是std::unique_ptr, std::auto_ptr容易让人误用的地…...
Linux 阻塞和非阻塞 IO 实验
目录 一、阻塞和非阻塞简介 1、IO 概念 2、阻塞与非阻塞 二、等待队列 1、等待队列头 2、等待队列项 3、将队列项添加/移除等待队列头 4、等待唤醒 5、等待事件 三、轮询 1、应用程序的非阻塞函数 2、Linux 驱动下的 poll 操作函数 四、阻塞IO之等待事件唤醒 添加…...
你要的react+ts最佳实践指南
本文根据日常开发实践,参考优秀文章、文档,来说说 TypeScript 是如何较优雅的融入 React 项目的。 温馨提示:日常开发中已全面拥抱函数式组件和 React Hooks,class 类组件的写法这里不提及。 前沿 以前有 JSX 语法,…...
软件测试人员会被替代吗?IT行业哪个方向的前景最好?字节12年测开是这样说的
互联网测试从业12年,前来作答。 逻辑上来说,软件工程最初始只需要两个岗位,一个是产品经理。,一个是研发(开发),剩余的 所有岗位都是由他们衍生而来的。 第三个岗位大概率就是测试,…...
十六、vue3.0之富文本编辑器的选择
在工作过程中我们会遇到很多的时候会使用到富文本编辑器,市场上流行的也是各种各样的,那么究竟如何选择呢,今天就给大家讲讲有哪一些,方便大家的选择。 一、TinyMCE TinyMCE 是富文本编辑器领域的头部玩家之一,主流富文本编辑器,功能非常全,你需要的大多数功能它都支持…...
kafka(一) 的架构,各概念
Kafka架构 Kafak 总体架构图中包含多个概念: (1)ZooKeeper:Zookeeper负责保存broker集群元数据,并对控制器进行选举等操作。 (2)Producer: 生产者负责创建消息,将消息发…...
【ts的常用类型】
ts的常用类型前言安装ts常见类型原始类型 、数组、 any变量上的类型注解函数对象类型联合类型类型别名接口接口和类型别名的对比前言 typescript中为了使编写的代码更规范,更有利于维护,增加了类型校验,安装 安装 typescript npm i typescr…...
Hyper-V与安卓模拟器不共存
一是某些新的模拟器已经开始使用新接口开发,支持了共存,安装这种新的安卓模拟器即可。 对于不支持共存的模拟器,只得增加一个windows开机后的系统选项,如果需要切换这两种不同选项使用系统,每次切换都需要重启windows系…...
【图像分类】卷积神经网络之ZFNet网络模型结构详解
写在前面: 首先感谢兄弟们的关注和订阅,让我有创作的动力,在创作过程我会尽最大能力,保证作品的质量,如果有问题,可以私信我,让我们携手共进,共创辉煌。 1. 前言 由于AlexNet的提出,大型卷积网络开始变得流行起来,但是人们对于网络究竟为什么能表现的这么好,以及怎…...
亿级高并发电商项目-- 实战篇 --万达商城项目 十三(编写购物车、优化修改商品、下架商品方法、购物车模块监听修改商品、删除商品消息)
👏作者简介:大家好,我是小童,Java开发工程师,CSDN博客博主,Java领域新星创作者 📕系列专栏:前端、Java、Java中间件大全、微信小程序、微信支付、若依框架、Spring全家桶 Ǵ…...
springboot 虚拟线程demo
jd19支持虚拟线程,虚拟线程是轻量级的线程,它们不与操作系统线程绑定,而是由 JVM 来管理。它们适用于“每个请求一个线程”的编程风格,同时没有操作系统线程的限制。我们能够创建数以百万计的虚拟线程而不会影响吞吐。 做个 spri…...
CTFer成长之路之逻辑漏洞
逻辑漏洞CTF 访问url: http://1b43ac78-61f7-4b3c-9ab7-d7e131e7da80.node3.buuoj.cn/ 登录页面用随意用户名密码登录 访问url: http://1b43ac78-61f7-4b3c-9ab7-d7e131e7da80.node3.buuoj.cn/user.php 登陆后有商品列表,共三个商品,点击购买flag 钱…...
入门力扣自学笔记238 C++ (题目编号:1144)
1144. 递减元素使数组呈锯齿状 题目: 给你一个整数数组 nums,每次 操作 会从中选择一个元素并 将该元素的值减少 1。 如果符合下列情况之一,则数组 A 就是 锯齿数组: 每个偶数索引对应的元素都大于相邻的元素,即 A…...
蓝桥杯-寒假作业
没有白走的路,每一步都算数🎈🎈🎈 题目描述: 有四个等式,每个等式的运算规则已经定好了,也就是我们常见的小学的四则运算,但是能够用来四则运算的数字非常有限,包括1~13…...
测试用例篇
1.测试用例的意义 测试用例(Test Case)是为了实施测试而向被测试的系统提供的一组集合,这组集合包含:测试环境、操作步骤、测试数据、预期结果等要素。 测试用例的意义是为了帮助测试人员了解测什么,怎么测 eg&#x…...
自动驾驶自主避障概况
文章目录前言1. 自主避障在自动驾驶系统架构中的位置2. 自主避障算法分类2.1 人工势场法(APF)2.1.1引力势场的构建2.1.2斥力势场的构建2.1.3人工势场法的改进2.2 TEB(Timed-Eastic-Band, 定时弹性带)2.3 栅格法2.4 向量场直方图(V…...
Python实用的库排名…
Python 是一个功能强大的编程语言,有着丰富的第三方库和模块,可以帮助你解决各种各样的问题。以下是一些比较厉害的 Python 库: NumPy:一个强大的数值计算库,提供了高效的数组和矩阵操作功能。 Pandas:提供…...
【YOLO系列】YOLOv4论文超详细解读1(翻译 +学习笔记)
前言 经过上一期的开篇介绍,我们知道YOLO之父Redmon在twitter正式宣布退出cv界,大家都以为YOLO系列就此终结的时候,天空一声巨响,YOLOv4闪亮登场!v4作者是AlexeyAB大神,虽然换人了,但论文中给出…...
【神经网络】Transformer基础问答
1.Transforme与LSTM的区别 transformer和LSTM最大的区别就是LSTM的训练是迭代的,无法并行训练,LSTM单元计算完T时刻信息后,才会处理T1时刻的信息,T 1时刻的计算依赖 T-时刻的隐层计算结果。而transformer的训练是并行了࿰…...
制定防火墙策略的步骤和建议
制定防火墙策略是保护企业网络环境安全的关键一步。下面是一些制定防火墙策略的步骤和建议,供参考: 识别网络资产:确定企业网络环境中所有的网络资产,包括服务器、应用程序、数据库、移动设备和终端用户设备等,并进行…...
新必应(New Bing)国内申请与使用教程
微软的新必应(New Bing)基于GPT4模型,比ChatGPT的GPT3.5模型领先半个世代。并且集成了Edge浏览器的数据资源,功能更加强大。经过不断的踩坑,终于申请到了New Bing的使用权限,且国内网络也能够正常使用&…...
博客系统——项目测试报告
目录 前言 博客系统——项目介绍 1、测试计划 1.1、功能测试 1.1.1、编写测试用例 1.1.2、实际执行步骤 1.2、使用Selenium进行Web自动化测试 1.2.1、引入依赖 1.2.2、提取共性,实现代码复用 1.2.3、创建测试套件类 1.2.4、博客登录页自动化测试 1.2.5、…...
网站建设需要精通什么知识/苏州seo服务
如何制作gif图?如何上传你项目的动态效果图到你的csdn? 这只是笔者用的方法,有其他方法的欢迎分享。 一张或几张展示了你的项目的功能及效果的动态图放在博客文章开头会为你的文章润色不少。 相信很多写博客的伙伴都会遇到这样一个问题&…...
手机网站翻页底时自动链接/如何网络推广自己的产品
Ftp协议暴力破解 FTP服务检测 FTP服务 FTP是一种文件传输协议, FTP服务默认端口为21。利用FTP服务器可以在本地主机和远程主机间进行文件传输。当FTP没有配置好安全控制,如对登录的源地址及密码尝试次数做限制,那么就会存在暴力破解可能。…...
开发一个个人网站/最有效的推广学校的方式
[sizemedium]hibernatejsp执行数据库操作时插入一条记录,数据库里面却是两条(该记录一条空记录)解决:检查页面提交表单是是否进行了重复提交,或是进行了两次跳转[/size]...
网站地市频道建设/怎么在网上做广告
题目链接 本来以为自己可以做出来,结果……打脸了 (貌似来wc立了好几个flag了,都没竖起来) 不过乱蒙能蒙出一个叫“分数规划”的东西的式子还是很开心的 观察$C\frac{a_{1}a_{2}.......a_{n}}{b_{1}b_{2}.....b_{n}}$ 然后可以把分…...
agile WordPress/逆冬黑帽seo培训
这是老师布置Insus.NET的第三道题目。以下是Insus.NET的答案,仅供参考:protected void Page_Load(object sender, EventArgs e){//指定目标文件夹string directory "C:\Windows\Microsoft.NET\Framework\v3.5";IterationFile(directory);}pri…...
做耳鼻喉医院网站多少钱/嘉兴seo外包公司费用
通常,我们用ArcGIS批量出图的时候,需要借助“数据驱动页面”这个功能,以某个图层作为分幅框,在布局视图下批量输出分幅框内的图形。 “数据驱动页面”可以基于单个地图文档方便快捷地创建一系列布局页面,要素图层或索…...