当前位置：首页 > news >正文

机器学习笔记之优化算法(四)线搜索方法(步长角度；非精确搜索)

news 2026/2/8 10:05:50

机器学习笔记之优化算法——线搜索方法[步长角度，非精确搜索]

引言
- 回顾：精确搜索步长及其弊端
- 非精确搜索近似求解最优步长的条件
- - 反例论述

引言

上一节介绍了从精确搜索的步长角度观察了线搜索方法，本节将从非精确搜索的步长角度重新观察线搜索方法。

回顾：精确搜索步长及其弊端

关于线搜索方法的迭代过程表示如下：
$x_{k+1} = x_k + \alpha_k \cdot \mathcal P_k$
其中：

变量 $x_k,x_{k+1} \in \{x_{k}\}_{k=0}^{\infty}$ 表示先搜索处理优化问题时，迭代过程中产生的数值解；
$\alpha_{k}$ 是一个标量，表示步长信息；
$\mathcal P_k$ 可视作一个单位向量，描述当前迭代步骤下数值解更新的方向信息。
如果 $\mathcal P_k$ 是一个描述方向的常规向量，依然可以将其表示为”系数 $\times$ 单位向量“的形式，最后将系数与 $\alpha_k$ 合并即可。

而基于精确搜索线搜索方法寻找最优步长的基本逻辑是：

固定住单位向量 $\mathcal P_k$ ，此时关于当前时刻数值解对应的目标函数 $f(x_{k+1})$ 可看作是仅与步长变量 $\alpha$ 相关的一个函数 $\phi(\alpha)$ ：
$\begin{aligned} f(x_{k+1}) = f(x_k + \alpha \cdot \mathcal P_k) \triangleq \phi(\alpha) \end{aligned}$
通过选择合适步长 $\alpha_k$ ，使得目标函数 $f(x_{k+1})$ 达到最小，从而达到当前迭代步骤优化程度最大的目的：
$\alpha_k = \mathop{\arg\min}\limits_{\alpha > 0} f(x_{k+1})$

具体步骤表示如下：
对每个迭代步骤 $k=1,2,\cdots,\infty$ 执行如下操作：
由于此时 $f(x_{k+1}) = \phi(\alpha)$ 仅包含 $\alpha$ 一个变量，因而仅需要对 $\phi(\alpha)$ 求导，然后从极值中选出最小值即可。

关于 $\phi(\alpha)$ 对 $\alpha$ 进行求导操作：
$\frac{\partial \phi(\alpha)}{\partial \alpha} = \left[\nabla f(x_k + \alpha \cdot \mathcal P_k)\right]^T \cdot \mathcal P_k$
令 $\begin{aligned}\frac{\partial \phi(\alpha)}{\partial \alpha} \triangleq 0\end{aligned}$ ，从而求解位于极值点的 $\alpha$ 信息，再选择使 $f(x_{k+1})$ 最小对应的 $\alpha$ 即可，示例图像表示如下：
这仅仅是关于 $\phi(\alpha)$ 的一种描述。由于我们对目标函数 $f(\cdot)$ 未知，我们不能得到 $\phi(\alpha)$ 精确的函数图像。唯一知道 $\phi(0) = f(x_k)$ (无法取到)且 $\begin{aligned}\frac{\partial \phi(\alpha)}{\partial \alpha} |_{\alpha=0} < 0\end{aligned}$ ,详细过程见上一节。

貌似上述流程看起来并不复杂，但在真实环境下，精确搜索参与的迭代过程可能是麻烦的：

首先，对于目标函数 $f(\cdot)$ 的复杂程度我们一无所知。真实环境中， $f(\cdot)$ 可能是极复杂的。这意味着： $\begin{aligned}\frac{\partial \phi(\alpha)}{\partial \alpha}\end{aligned}$ 可能极难表达甚至是无法表达；
其中求导以及获取极值的操作仅仅是一次迭代过程中的操作。若每一次迭代过程都要执行上述操作，对应的计算代价有可能极高；
实际上，精确求解当前迭代步骤的最优步长不是我们关注的重点，我们希望每次迭代过程中，使用较小的计算代价得到一个比较不错的步长结果，从而降低整体计算代价。

很明显，精确搜索的求解过程是一个求解析解的过程。下面我们观察如何通过求解数值解的方式对最优步长的获取过程进行优化。

非精确搜索近似求解最优步长的条件

首先思考：步长变量 $\alpha$ 需要满足什么条件，才能够使 $\{f(x_k)\}_{k=0}^{\infty}$ 收敛，并最终得到目标函数的最优解 $f^*$ ：
$\{f(x_k)\}_{k=0}^{\infty} \Rightarrow f^*$
根据我们关于线搜索方法的假设，首先必然需要使 $\{f(x_k)\}_{k=0}^{\infty}$ 服从严格的单调性：
$\phi(\alpha) = f(x_{k+1}) < f(x_k) = \phi(0) \quad k=0,1,2,\cdots$
新的思考：如果步长变量 $\alpha$ 仅仅满足上述条件，是否能够保证 $\{f(x_k)\}_{k=0}^{\infty}$ 最终收敛至最优解 $?$

答案是否定的，并且关于两个事件：

事件 $1$ ： $\phi(\alpha) = f(x_{k+1}) < f(x_k) = \phi(0) \quad k=0,1,2,\cdots$ ；
事件 $2$ ： $\{f(x_k)\}_{k=0}^{\infty} \Rightarrow f^*$

事件 $1$ 是事件 $2$ 的必要不充分条件。也就是说：事件 $1$ 推不出事件 $2$ ，相反，事件 $2$ 能够推出事件 $1$ 。

反例论述

这里描述一个反例：

假设真正的目标函数 $f(\cdot)$ 表示如下：

可以看出，该目标函数存在最小值 $- 1$ 。而我们的目标是通过求数值解的方式取到 $- 1$ 。

而这个数值解仅仅受到事件 $1$ 的约束。也就是说：在迭代过程中仅满足 $f(x_{k+1}) < f(x_k)$ 即可。至此，假设：数值解 $\{x_k\}_{k=1}^{\infty}$ 对应的目标函数结果 $\{f(x_k)\}_{k=1}^{\infty}$ 满足如下函数：
$f(x_{k}) = \frac{5}{k}$
解释：
函数 $\begin{aligned} f(x_k) = \frac{5}{k}\end{aligned}$ 是我们假设的，隐藏在背后的逻辑。而真正被我们看到的是下面由表格组成的关于 $\{f(x_k)\}_{k=1}^{\infty}$ 的序列信息：
其中 $x_0$ 是初始化的，不在函数内。这里假设 $x_0 = 10$ ，但在本示例中假设的值要 $5 = f(x_1)$ 。之所以要将函数设置成这种格式，是因为基于该函数产生的序列满足事件1: $f(x_{k+1}) < f(x_k)$ 。

$k$	$0(\text{init})$	$1$	$2$	$3$	$\cdots$
$f(x_k)$	$10$	$5$	$\begin{aligned}\frac{5}{2}\end{aligned}$	$\begin{aligned}\frac{5}{3}\end{aligned}$	$\cdots$

至此，我们找到了一组满足事件 $1$ 的由数值解的目标函数结果构成的序列 $\{f(x_k)\}_{k=0}^{\infty} = \left\{10,5,\begin{aligned}\frac{5}{2},\frac{5}{3},\cdots\end{aligned} \right\}$ ，我们观察：这组序列是否能够找到目标函数最优解。

初始状态下， $x_0,f(x_0) = 10]$ 在图中表示如下。
- 由于此时的梯度仅仅是一个 $1$ 维向量，在函数图像中对应函数在该点上的斜率。而在横坐标上，梯度的方向仅有两个:正向(右侧;顺着坐标轴的方向);反向(逆着坐标轴的方向)。因此，图中所说的下降方向必然是最速下降方向(因为只有两个方向)。
- 由于 $x_0,f(x_0))$ 在图中对应位置的斜率是正值，因此下一时刻更新的方向必然是负梯度方向(反向)，见红色箭头。
观察第二个点： $x_1,f(x_1) = 5]$ ，对应图像表示如下：
- 在该目标函数中，函数值为 $5$ 存在两个对应的横坐标。实际上取哪个点都不影响梯度的观察。这里为方便观察，取左侧的横坐标，后续类似情况同理。
- 左侧点斜率是负值，因而它的负梯度方向是正向，见红色箭头。
同理，可以将 $\begin{aligned} \left[x_2,f(x_2) = \frac{5}{2}\right],\left[x_3,f(x_3) = \frac{5}{3}\right]\end{aligned}$ 及其对应梯度方向表示在图像上：
以此类推。我们可以按照 $\{f(x_k)\}_{k=0}^{\infty}$ 的顺序，将梯度变化路径用红色箭头描述出来：
从上图可以看出，随着迭代次数 $k$ 的增加，我们都会产生新的点并震荡下去。但是否能够震荡到最小值呢 $?$ 这取决于： $\to \infty$ 时， $f(x_k)$ 的取值结果。
$\mathop{\lim}\limits_{k \to \infty} f(x_k) = \frac{5}{\infty} \approx 0$
最终，它只会在 $x$ 轴的上方，无限地朝向 $0$ 的方向震荡，而不会越过 $x$ 轴，向最优值 $- 1$ 进行震荡。

综上，上述反例满足事件 $1$ 的条件，但它可能不会一定收敛到最优解。也就是说：仅使用 $f(x_{k+1}) < f(x_k)$ 对步长 $\alpha$ 进行判别是不可行的。
上述反例描述的是: $\{f(x_k)\}_{k=0}^{\infty}$ 能够收敛，但没有收敛到最优解。

相关参考：
【优化算法】线搜索方法-步长-非确定性搜索

机器学习笔记之优化算法(四)线搜索方法(步长角度；非精确搜索)

机器学习笔记之优化算法——线搜索方法[步长角度，非精确搜索]

引言

回顾：精确搜索步长及其弊端

非精确搜索近似求解最优步长的条件

反例论述

相关文章：

机器学习笔记之优化算法(四)线搜索方法(步长角度；非精确搜索)

Redis 哨兵 (sentinel)

统计2021年10月每个退货率不大于0.5的商品各项指标

【小波尺度谱】从分段离散小波变换计算小波尺度谱研究（Matlab代码实现）

UE5、CesiumForUnreal加载无高度地形

关于Spring中的@Configuration中的proxyBeanMethods属性

dp1，ACM暑期培训

大厂程序员的水平比非大厂高很多嘛？

Java开发工具MyEclipse发布v2023.1.2，今年第二个修复版！

基于正交滤波器组的语音DPCM编解码算法matlab仿真

VS2022和QT混合编程打包发布程序

Filebeat学习笔记

【实战】九、深入React 状态管理与Redux机制(一) —— React17+React Hook+TS4 最佳实践，仿 Jira 企业级项目（十六）

第九十五回如何使用dio的转换器

Python深度学习“四大名著”之一【赠书活动｜第二期《Python机器学习：基于PyTorch和Scikit-Learn》】

RAID相关知识

DataStructure--Basic

Intellij IDEA 双击启动报错ClassNotFoundException: com.licel.b.z@

使用 Logstash 及 enrich processor 实现数据丰富自动化

Django模板语法和请求

Ascend NPU上适配Step-Audio模型

k8s业务程序联调工具-KtConnect

学校时钟系统，标准考场时钟系统，AI亮相2025高考，赛思时钟系统为教育公平筑起“精准防线”

C++：多态机制详解

GitFlow 工作模式（详解）

并发编程 - go版

Windows安装Miniconda

【 java 虚拟机知识第一篇】

华为OD最新机试真题-数组组成的最小数字-OD统一考试（B卷）

【实施指南】Android客户端HTTPS双向认证实施指南