当前位置：首页 > news >正文

✨机器学习笔记（六）—— ReLU、多分类问题、Softmax、Adam、反向传播

news 文章来源：https://blog.csdn.net/qq_53569667/article/details/142663510 2025/4/26 23:22:21

Course2-Week2:
https://github.com/kaieye/2022-Machine-Learning-Specialization/tree/main/Advanced%20Learning%20Algorithms/week2

机器学习笔记（六）

1️⃣ReLU（Rectified Linear Unit）
2️⃣多分类问题
3️⃣Softmax
4️⃣Adam
5️⃣ 反向传播（Back propagation）

1️⃣ReLU（Rectified Linear Unit）

✨ReLU function: $a = g (z) = ma x (0, z)$

将 ReLU 激活函数与线性和 Sigmoid 激活函数对比，三个都是常用的激活函数：

在这里插入图片描述

🎈在此示例中的派生的 “awareness” 特征是具有连续的值范围，Sigmoid 最适合 0/1 的二分类情况。而 ReLU 函数提供连续的线性关系，并且有一个 "off" 范围，可以关闭 $z < 0$ 的范围，让其输出 0，"off" 功能使 ReLU 成为非线性的激活函数。

在这里插入图片描述

🎈在输出层中，如果是二分类问题选择 Sigmoid 函数作为激活函数是个不错的选择；而对于线性输出（既有负值也有正值）可以选择线性函数作为激活函数；如果对于回归问题但是输出只有正值（如房屋价格），则选择 ReLU 函数作为激活函数就相当合适了。
🤓在输出层中激活函数的选取可以去考虑预测的 $\hat y$ 是个什么样的值来进行选取。

在这里插入图片描述

🎈在隐藏层中，其实除了二分类问题使用 Sigmoid 激活函数，基本上都使用 ReLU 激活函数。ReLU 相较于 Sigmoid 计算速度更快，因为只需要计算 $ma x (0, z)$ ，而 Sigmoid 需要取幂、取负，相除等等，计算效率自然就低了；对于梯度下降，Sigmoid 在多个地方逐渐变平坦，就导致了 $J (w, b)$ 的函数也有多个平坦的地方，难以到全局最小值，并且偏导数很小会使梯度下降的速度缓慢，而 ReLU 梯度下降会更快更好。

在这里插入图片描述

✨选取激活函数方式的概括

在这里插入图片描述

🧐为什么神经网络需要激活函数？

🎈如果在神经网络中不使用激活函数：
在这里插入图片描述
🤓就会出现了将前一个线性回归得出的输出，作为下一个线性回归的输入去计算，最终其实就是线性函数的线性组合，则还是一个线性函数，这样的话就没有必要去写这么个多层的神经网络了，本质就是一个一层的输入输出映射，根本就不需要神经网络。

2️⃣多分类问题

多分类问题：目标值 $y$ 的值多于 2 个的情况。
在这里插入图片描述
使用 $\mid \vec x)$ 表示在输入 $\vec x$ 上分类为第 $i$ 种情况的概率。

3️⃣Softmax

✨Softmax 是 Sigmoid 的一般形式，用于处理多分类问题，由于我们已经学过了逻辑回归函数 Sigmoid，将两者对比来学习 Softmax 函数。

在这里插入图片描述

🤓由此可以看出 Sigmoid 是对于分类问题只有两个值 $\mid \vec x)$ 和 $\mid \vec x)$ 时的特殊 Softmax 函数，也可以说 Softmax 回归模型是逻辑回归的泛化。

🎈再对比一下两者的损失函数：

在这里插入图片描述

🎗️神经网络的 Softmax 输出

🧐在具有 Softmax 输出的 softmax 回归和神经网络中，都会生成 N 个输出，并选择 1 个输出作为预测类别。在这两种情况下，向量 $z$ 都是由应用于 softmax 函数的线性函数生成的。softmax 函数转换为概率分布，应用 softmax 后，每个输出将介于 0 和 1 之间，并且输出将加到 1，以便可以将其解释为概率。

在这里插入图片描述

4️⃣Adam

Adam: Adaptive Moment estimation

🤓 Adam 算法是梯度下降的优化算法，相较于原始的梯度下降算法，Adam 算法可以自适应学习率，让梯度下降的过程更快并且更加精准。当学习率过小时，梯度下降的过程缓慢，Adam 会增大学习率去加快速度；当学习率过大时，梯度下降并不精准，Adam 会减小学习率去更好的执行梯度下降。

在这里插入图片描述

✨代码实现：

在这里插入图片描述

5️⃣ 反向传播（Back propagation）

🎈顺序计算各个中间参数的过程为前向传播，而反向通过前面求出的参数的值或偏导值再求出偏导则是后向传播。

在这里插入图片描述

🤓反向传播可以很好的提高计算效率，对于 $N$ 个这样的节点和 $P$ 个参数的情况，通过计算图的反向传播可以只花费 $N + P$ 步求出。如果普通的计算通过求出 $N$ 个节点值再求每个 $P$ 则要花费 $N \times P$ 步。可见后向传播的计算效率显著提高。

在这里插入图片描述

✨机器学习笔记（六）—— ReLU、多分类问题、Softmax、Adam、反向传播

机器学习笔记（六）

1️⃣ReLU（Rectified Linear Unit）

2️⃣多分类问题

3️⃣Softmax

4️⃣Adam

5️⃣ 反向传播（Back propagation）

相关文章：

✨机器学习笔记（六）—— ReLU、多分类问题、Softmax、Adam、反向传播

Xshell7下载及服务器连接

SQL Server—的数据类型

WaterCloud：一套基于.NET 8.0 + LayUI的快速开发框架，完全开源免费！

数据结构-LRU缓存（C语言实现）

javacv FFmpegFrameGrabber 阻塞重连解决方法汇总

自然语言处理问答系统技术

交换机和路由器的区别

JavaScript Array（数组）

示例说明：elasticsearch实战应用

暴力匹配算法和 KMP 算法的优缺点分别是什么？

web笔记

【网络安全】-访问控制-burp(1~6)

iOS 项目中的多主题颜色设计与实现

Android Camera2 与 Camera API技术探究和RAW数据采集

[python][pipenv]pipenv的使用

SpringSession微服务

强化学习：通过试错学习最优策略---示例：使用Q-Learning解决迷宫问题

OpenGL ES 纹理(7)

【C#】CacheManager：高效的 .NET 缓存管理库

【数学分析笔记】第4章第2节导数的意义和性质（2）

深度学习：迁移学习

Footprint Growthly Quest 工具：赋能 Telegram 社区实现 Web3 飞速增长

进入xwindows后挂起键盘鼠标没有响应@FreeBSD

CentOS7.9 snmptrapd更改162端口

模糊测试SFuzz亮相第32届中国国际信息通信展览会

CMake学习

书生·浦语大模型全链路开源开放体系

PHP安装swoole扩展无效，如何将文件上传至Docker容器

Web3.0 应用项目