当前位置: 首页 > news >正文

简单介绍神经网络中不同优化器的数学原理及使用特性【含规律总结】

当涉及到优化器时,我们通常是在解决一个参数优化问题,也就是寻找能够使损失函数最小化的一组参数。当我们在无脑用adam时,有没有斟酌过用这个是否合适,或者说凭经验能够有目的性换用不同的优化器?是否用其他的优化器可以更好的解决问题?那我就介绍解释几种常用的优化器的基本原理:

  1. 随机梯度下降(SGD)

    SGD 是最基本的优化算法之一。它通过计算当前位置的梯度(即损失函数对参数的导数),然后朝着梯度的反方向更新参数。数学上可以表示为:

    w = w − α ⋅ ∇ J ( w ) w=w−α⋅∇J(w) w=wαJ(w)

    其中, w w w 是待优化的参数, α \alpha α 是学习率, ∇ J ( w ) \nabla J(w) J(w) 是损失函数关于参数的梯度。

  2. 动量优化器(Momentum)

    Momentum 在 SGD 的基础上引入了动量项,它可以理解为模拟物体在空间中运动的物理量。这个动量项会考虑之前的更新,从而使更新方向在一定程度上保持一致。数学上可以表示为:

    v = β ⋅ v + ( 1 − β ) ⋅ ∇ J ( w ) v=\beta⋅v+(1−\beta)⋅ \nabla J(w) v=βv+(1β)J(w)

    w = w − α ⋅ v w=w−α⋅v w=wαv

    其中, v v v 是动量, β \beta β 是动量因子,控制之前更新的影响程度。

  3. AdaGrad

    AdaGrad 是自适应学习率的一种算法。它会根据参数的历史梯度调整学习率,使得对于稀疏数据来说可以使用一个更大的学习率,而对于频繁出现的数据则会使用较小的学习率。数学上可以表示为:

    w = w − α G + ϵ ⋅ ∇ J ( w ) w = w - \frac{\alpha}{\sqrt{G + \epsilon}} \cdot \nabla J(w) w=wG+ϵ αJ(w)

    其中, G G G 是梯度的平方和的累积, ϵ \epsilon ϵ 是一个很小的数,防止除零错误。

  4. RMSprop

    RMSprop 是 AdaGrad 的一个变体,它引入了一个衰减系数 β \beta β,用来控制历史梯度的权重。这使得 RMSprop 更加平滑地调整学习率。数学上可以表示为:

    G = β ⋅ G + ( 1 − β ) ⋅ ( ∇ J ( w ) ) 2 G = \beta \cdot G + (1 - \beta) \cdot (\nabla J(w))^2 G=βG+(1β)(J(w))2

    w = w − α G + ϵ ⋅ ∇ J ( w ) w = w - \frac{\alpha}{\sqrt{G + \epsilon}} \cdot \nabla J(w) w=wG+ϵ αJ(w)

    其中, G G G 是平方梯度的指数加权移动平均。

  5. Adam

    Adam 结合了 Momentum 和 RMSprop 的特性,是一种同时考虑动量和自适应学习率的优化器。它可以动态地调整每个参数的学习率,并且可以保持更新方向的一致性。Adam 还引入了偏差修正,以解决初始训练时的偏差问题。数学上可以表示为:

    m = β 1 ⋅ m + ( 1 − β 1 ) ⋅ ∇ J ( w ) m = \beta_1 \cdot m + (1 - \beta_1) \cdot \nabla J(w) m=β1m+(1β1)J(w)

    v = β 2 ⋅ v + ( 1 − β 2 ) ⋅ ( ∇ J ( w ) ) 2 v = \beta_2 \cdot v + (1 - \beta_2) \cdot (\nabla J(w))^2 v=β2v+(1β2)(J(w))2

    m ^ = m 1 − β 1 t \hat{m} = \frac{m}{1 - \beta_1^t} m^=1β1tm

    v ^ = v 1 − β 2 t \hat{v} = \frac{v}{1 - \beta_2^t} v^=1β2tv

    w = w − α v ^ + ϵ ⋅ m ^ w = w - \frac{\alpha}{\sqrt{\hat{v} + \epsilon}} \cdot \hat{m} w=wv^+ϵ αm^

    其中, m m m v v v 分别是动量和平方梯度的移动平均, β 1 \beta_1 β1​ 和 β 2 \beta_2 β2​ 是衰减系数, t t t 是当前迭代次数, ϵ \epsilon ϵ 是避免除零错误的小数。


其实,每种优化器都有其适用的场景,具体的选择需要根据问题的特性和实际实验的结果来决定。
如果你真的对优化器的数学原理不感冒,只是一个最小白的神经网络构建者,那么我尝试总结几条,最浅显易懂的优化器特征,以供查阅:

  1. 随机梯度下降(SGD):这是最基本的优化算法之一,它在每个训练步骤中沿着梯度的反方向更新权重。它有时候可能需要更多的调参工作来获得好的性能。

  2. 动量优化器(Momentum):当需要考虑前一次梯度调整对后续修正的影响时,这个方法不错。Momentum 的参数 momentum 控制了之前梯度的影响程度,一般取值在 0.8 到 0.9 之间。

  3. Adagrad:Adagrad 会为不经常更新的参数提供更大的学习率,适合处理稀疏数据。

  4. RMSprop:与 Adam 类似,RMSprop 也是自适应学习率的一种算法。在一些情况下,它可能会比 Adam 更好。

  5. Adam:Adam 通过自适应调整学习率来提高训练效率。它通常对于大多数问题都是一个良好的默认选择。

  6. Adadelta:Adadelta 是一种自适应学习率的优化器,可以自动调整学习率。

  7. Nadam:Nadam 是结合了 Nesterov 动量的 Adam 变体,通常在训练深度神经网络时表现良好。

  8. FTRL:FTRL 是针对线性模型优化的一种算法,对于大规模线性模型可以很有效。


联系我 交流请署名👇

相关文章:

简单介绍神经网络中不同优化器的数学原理及使用特性【含规律总结】

当涉及到优化器时,我们通常是在解决一个参数优化问题,也就是寻找能够使损失函数最小化的一组参数。当我们在无脑用adam时,有没有斟酌过用这个是否合适,或者说凭经验能够有目的性换用不同的优化器?是否用其他的优化器可…...

JL653—一个基于ARINC653的应用程序仿真调试工具

JL653是安装在PC机Windows操作系统上面的一层接插件,它能够真实地模拟ARINC653标准规定的功能性行为,从而可以供研发人员在PC机Windows环境下高效、快速的进行基于ARINC653的应用程序的开发、调试等。 JL653提供了ARINC 653 Part 1中要求的以下服务&…...

MQTT Paho Android 支持SSL/TLS(亲测有效)

MQTT Paho Android 支持SSL/TLS(亲测有效) 登录时支持ssl的交互 这是调测登录界面设计 代码中对ssl/tls的支持 使用MqttAndroidClient配置mqtt客户端请求时,不加密及加密方式连接存在以下几点差异: url及端口差异 val uri: String if (tlsConnect…...

STM32——SPI通信

文章目录 SPI(Serial Peripheral Interface)概述:SPI的硬件连接:SPI的特点和优势:SPI的常见应用:SPI的工作方式和时序图分析:工作模式传输模式与时序分析工作流程 SPI设备的寄存器结构和寄存器设…...

Linux虚拟机局域网IP配置

前言 应用程序包部署在主机(Window)的虚拟机(Linux CentOS7)上,把主机当做一个服务器,在局域网中访问部署在主机上的应用程序,配置Linux网络。 文章如有侵权,无意为之,…...

MacOS删除.DS_Store文件

目录 .DS_Store是什么删除命令防止再生命令 .DS_Store是什么 在 Mac OS X 系统下,几乎绝大部分文件夹中都包含 .DS_Store 隐藏文件,这里保存着针对这个目录的特殊信息和设置配置,例如查看方式、图标大小以及这个目录的一些附属元数据。 而在…...

ARM Linux DIY(十一)板子名称、开机 logo、LCD 控制台、console 免登录、命令提示符、文件系统大小

文章目录 前言板子名称uboot Modelkernel 欢迎词、主机名 开机 logoLCD 控制台console 免登录命令提示符文件系统大小 前言 经过前面十篇文章的介绍,硬件部分调试基本完毕,接下来的文章开始介绍软件的个性化开发。 板子名称 uboot Model 既然是自己的…...

【Unity程序技巧】Unity中的单例模式的运用

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:Uni…...

java leetcodetop100 (3,4 )最长连续数列,移动零

top3 最长连续数列 给定一个未排序的整数数组 nums ,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。 * * 请你设计并实现时间复杂度为 O(n) 的算法解决此问题。 * * * * 示例 1: * * 输入:nums [100,…...

用Vite从零到一创建React+ts项目

方式一:使用create-react-app命令创建项目 1、使用以下命令初始化一个空的npm 项目 npm init -y 2、输入以下命令安装React npm i create-react-app ps:如果失败的话尝试(1:使用管理员身份执行命令(2:切换镜像重…...

HTTP状态码301(永久重定向)不同Web服务器的配置方法

文章目录 301状态码通常在那些情况下使用301永久重定向配置Nginx配置301永久重定向Windows配置IIS301永久重定向PHP下的301重定向Apache服务器实现301重定向 301重定向是否违反相关法规?推荐阅读 当用户或搜索引擎向服务器发出浏览请求时,服务器返回的HT…...

vue-element-admin项目部署 nginx动态代理 含Docker部署、 Jenkins构建

介绍三种方式: 1.直接部署到nginx中 2.用nginx docker镜像部署 3.使用Jenkins构建 1.直接用nginx部署 vue-element-admin项目下有两个.env文件,.env.production是生产环境的,.env.developpment是开发环境的 vue-element-admin默认用的是mock数…...

使用Python来写模拟Xshell实现远程命令执行与交互

一、模块 这里使用的是 paramiko带三方库 pip install paramiko二、效果图 三、代码实现(这里的IP,用户名,密码修改为自己对应服务器的) import paramiko import timeclass Linux(object):# 参数初始化def __init__(self, ip, us…...

mybatis 数据库字段为空or为空串 忽略条件过滤, 不为空且不为空串时才需nameParam过滤条件

name未配置视为不考虑name条件 select * from user where (( (ISNULL(name)) OR (name) ) OR name #{user.nameParam} ) 三个or语句 推荐这个 select * from user where ISNULL(name) OR name OR name #{user.nameParam} select * from user where ISNULL(name) OR …...

【玩玩Vue】通过vue-store实现枚举管理,用于下拉选项和中英文翻译等

原文作者:我辈李想 版权声明:文章原创,转载时请务必加上原文超链接、作者信息和本声明。 文章目录 一、store基础用法1.在src下新建store文件夹,在store下新建module文件夹2.在module下新建enums.js文件3.在store下新建getters.js…...

ISCSI:后端卷以LVM 的方式配置 ISCSI 目标启动器

写在前面 准备考试整理相关笔记博文内容涉及使用 LVM 做ISCSI 目标后端块存储 Demo理解不足小伙伴帮忙指正 对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的&#…...

八公山豆腐发展现状与销售对策研究

1.引言 八公山豆腐作为中国传统特色食品之一,一直以来备受人们的喜爱。然而,在现代社会中,由于消费者对于营养健康的追求以及市场竞争的加剧,八公山豆腐的市场份额逐渐缩小。因此,为了更好地推广和发展八公山豆腐&…...

排序算法-插入排序

属性 当插入第i(i>1)个元素时,前面的array[0],array[1],…,array[i-1]已经排好序,此时用array[i]的排序码与array[i1],array[i-2],…的排序码顺序进行比较,找到插入位置即将array[i]插入,原来位置上的元素顺序后移 直接插入排序…...

多位数按键操作(闪烁)数码管显示

/*----------------------------------------------- 内容&#xff1a;按键加减数字&#xff0c;多个数码管显示 ------------------------------------------------*/ #include<reg52.h> //包含头文件&#xff0c;一般情况不需要改动&#xff0c;头文件包含特殊功能寄存…...

MyEclipse项目导入与导出

一、项目导出 1、右键选择项目名称&#xff0c;弹出菜单中选择“export”&#xff0c;如下图所示 2、选择“恶心“export”&#xff0c;弹出菜单如下&#xff1b;在“General“选项中&#xff0c;选择“File System”选项 3、点击“next”&#xff0c;进入保存位置选择界面&am…...

ArrayList和LinkedList

最近在刷回溯算法时&#xff0c;遇见了List<Integer> A new ArrayList<>(); LinkedList<Integer> B new LinkedList<>();这类型的表达方式 很好奇的问题是&#xff1a; 1、List<Integer> A new ArrayList<>();为什么是正确的写法 2…...

Linux 配置 Nginx 服务完整详细版

目录 前言 配置Nginx监听端口和服务器块 # 防DDoS配置 # 日志配置 # 设置服务器块 监听端口 网站根目录 默认文件 静态文件目录 图像文件目录 # 自定义错误页面 # 反向代理配置 # 配置SSL/TLS 1、获取SSL/TLS证书 2、安装证书 3、配置SSL/TLS # 配置SSL协议版本…...

Python实现猎人猎物优化算法(HPO)优化LightGBM回归模型(LGBMRegressor算法)项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档视频讲解&#xff09;&#xff0c;如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 猎人猎物优化搜索算法(Hunter–prey optimizer, HPO)是由Naruei& Keynia于2022年提出的一种最新的…...

无涯教程-JavaScript - ODD函数

描述 ODD函数返回四舍五入到最接近的奇数整数的数字。 ODD函数是Excel中的15个舍入函数之一。 语法 ODD (number)争论 Argument描述Required/OptionalNumberThe value to round.Required Notes 无论数字的符号如何,值都将从零舍入到下一个奇数。如果number是一个奇数整数…...

Easyui里的datagrid嵌入select下拉框

问题&#xff1a; 想使用datagird里嵌入select下拉框&#xff0c;并在提交form表单时获取datagrid选中的每行数据里的每个下拉框选中的值。 解决方案&#xff1a; 其中economicIssuesSelect使用下拉框&#xff0c;重点关注 initEconomicIssues(row)方法。这里的方法需要传递ro…...

计算机专业毕业设计项目推荐03-Wiki系统设计与实现(JavaSpring+Vue+Mysql)

Wiki系统设计与实现&#xff08;JavaSpringVueMysql&#xff09; **介绍****系统总体开发情况-功能模块****各部分模块实现** 介绍 本系列(后期可能博主会统一为专栏)博文献给即将毕业的计算机专业同学们,因为博主自身本科和硕士也是科班出生,所以也比较了解计算机专业的毕业设…...

微服务的艺术:构建可扩展和弹性的分布式应用

文章目录 什么是微服务架构&#xff1f;微服务的设计原则1. 基于业务边界划分服务2. 松耦合和强内聚3. 自动化测试和部署4. 监控和日志5. 弹性设计 微服务的实施细节1. 服务发现示例代码&#xff1a;使用Consul进行服务发现 2. 负载均衡示例代码&#xff1a;Nginx配置负载均衡 …...

在PHP8中对数组进行排序-PHP8知识详解

在php8中&#xff0c;提供了丰富的排序函数&#xff0c;可以对数组进行排序操作。常见的排序函数如下几个&#xff1a;sort() 函数、rsort() 函数、asort() 函数、arsort() 函数、ksort() 函数、krsort() 函数、natsort()函数和natcascsort()函数。 1、sort() 函数&#xff1a;…...

Redis混合模式持久化原理

前言 前面文章中我们也介绍过Redis的持久化方式有两种&#xff1a;rdb持久化和aof持久化&#xff0c;具体详情可查看之前文章redis持久化。rdb持久化还是aof持久化它们都有各自的缺点。 rdb和aof缺点 rdb持久化&#xff1a;由于是定期对内存数据快照进行持久化&#xff0c;因此…...

《BPF Performance Tools —— 洞悉Linux系统和应用性能》学习笔记 —— 第一章 介绍(2)

接前一篇文章&#xff1a;《BPF Performance Tools —— 洞悉Linux系统和应用性能》学习笔记 —— 第一章 介绍&#xff08;1&#xff09; 1.2 Tracing、Snooping、Sampling、Profiling和Observability是什么&#xff1f; 这些都是用于对分析技术和工具进行分类的术语。 Trac…...

wordpress制作游戏/新闻投稿

引言 数据库的设计范式是数据库设计所需要满足的规范&#xff0c;满足这些规范的数据库是简洁的、结构明晰的&#xff0c;同时&#xff0c;不会发生插入&#xff08;insert&#xff09;、删除&#xff08;delete&#xff09;和更新&#xff08;update&#xff09;操作异常。反之…...

商城建设网站开发/软文推送

parse用于从一个字符串中解析出json对象,如 var str {"name":"huangxiaojian","age":"23"} 结果&#xff1a; JSON.parse(str) Objectage: "23"name: "huangxiaojian"__proto__: Object注意&#xff1a;单引号写…...

网站建设优化重庆/百度产品推广

内建函数 标识id 返回对象的唯一标识&#xff0c;CPython返回内存地址 哈希hash 返回一个对象哈希 类型type 返回对象的类型 类型转换 float() int() bin() hex() oct() bool() list() tuple() dict() set() complex() bytes() bytearray() 输入 input([prompt]) 接收用户输入&…...

dw做网站背景音乐/江门网站建设

最近在用element-ui遇到一些bug,在使用el-select时,数据量大了就页面渲染缓慢从而卡顿严重,为了解决这个问题,对element-ui进行了改造,el-select改为分页滚动加载: 如上图所示的效果,大数据时下拉可以分页滚动加载,而且可以支持原来的搜索。 1.新建一个selectSearch.v…...

wordpress充值功能/怎么制作网页链接

2020中甲联赛第二阶段第一轮&#xff0c;冲超组成都赛区成都兴城人居队的唐淼、保级1组梅州赛区贵州恒丰队的马格利卡、保级2组常州赛区呼和浩特队的奥古斯托&#xff0c;三人当选最佳球员。成都兴城人居 19号 唐淼位置&#xff1a;前卫 年龄&#xff1a;30本轮与老对手泰州远…...

怎么做商业服务网站/百度官方推广平台

这两天接受了一个新任务&#xff0c;就是学在iphone和android平台上编译openSSL&#xff0c;因为我对Apple知之甚少&#xff0c;所以在做的过程中遇到了一些困难和问题&#xff0c;经过学习和尝试&#xff0c;终于弄出来了&#xff0c;网上的好多教程有问题&#xff0c;所以自己…...