当前位置：首页 > news >正文

人工智能与机器学习原理精解【5】

news 2025/10/22 2:03:29

文章目录

最优化
- 基础
- 理论
- - 特征值（Eigenvalue）
  - 特征向量（Eigenvector）
  - 特征值和特征向量的重要性
  - 计算方法
  - 特征值
  - - 一、特征值分解的定义
    - 二、特征值分解的算法
    - 三、特征值分解的例子
  - 正定矩阵
  - Hessian矩阵的特征值
  - - Hessian矩阵的含义
    - Hessian矩阵特征值的计算
    - - 特征值分解的概念
      - Hessian矩阵的特征值分解
      - 特征值分解的含义
      - 应用领域
  - Hessian矩阵局部曲率
  - - Hessian矩阵的定义
    - Hessian矩阵的性质
    - Hessian矩阵在驻点处负定的含义
    - - 判定方法
    - Hessian矩阵在驻点处正定的含义
    - - 证明思路
      - 注意事项
  - 多元函数的驻点、极大值点、极小值点和鞍点
  - - 概述
    - - 驻点（Stationary Point）
      - 极大值点和极小值点
      - 鞍点（Saddle Point）
      - 示例
    - 具体理论
    - - 驻点（Stationary Point）
      - 极大值点和极小值点
      - 鞍点（Saddle Point）
      - 总结
  - 极小值点概述
  - - 简介
    - 函数的导数
    - 导数和极值的关系
  - 极小值理论与实例
  - - 极小值理论
    - 实例
  - 计算极小值点
  - - 示例函数1
    - - 步骤 1: 求一阶导数
      - 步骤 2: 找出可能的极值点
      - 步骤 3: 判断极值点的类型
      - 步骤 4: 计算极小值
    - 示例函数2
    - - 步骤 1: 求一阶导数
      - 步骤 2: 找出可能的极值点
      - 步骤 3: 判断极值点的类型
      - 步骤 4: 计算极小值
    - 只使用一阶导数计算极值
参考文献

最优化

基础

函数极小值的切线斜率为0，表现为一条直线或超平面
在导数和梯度中包括斜率信息，可以求解f(x)的最小值
接上一节继续， $n = 1 时, f^{'} (a) = 0 的点都是潜在极小值点$
一般的n维向量a作为输入， $\nabla f(a)=0_{n\times 1}$ 的任意一点也是潜在的极小值点。
注意: $\nabla f(a)=0_{n\times 1}$ 可等价写成n元方程组
$\frac {\partial}{\partial w_1}f(a)=0 \\\frac {\partial}{\partial w_2}f(a)=0 \\... \\\frac {\partial}{\partial w_n}f(a)=0$
$对于一般的函数f来说，极小值点不是唯一满足这个条件的点。\\函数梯度消失的点就是\nabla f(a)=0_{n\times 1}的点，除了极小值点外，还有鞍点和极大值点，这三类点统称为驻点。$
$虽然驻点里有我们不需要的极大值点和鞍点，但\nabla f(a)=0_{n\times 1}对确定极小值点很有用， \\二阶偏导数可以更好确定鞍点的性质，但不常用。$
很多解决机器学习的问题最后变成了求代价函数极小值的问题，这就是为什么费这么大努力去研究这些极值问题的原因。

理论

下面内容来自文心一言的自动生成
特征值和特征向量是线性代数中的重要概念，它们与矩阵的运算密切相关，特别是在解决物理、工程、计算机科学等领域中的许多问题时发挥着关键作用。

特征值（Eigenvalue）

特征值是一个标量（即一个数），它是线性变换（如矩阵乘法）的某些特定方向（称为特征方向）上的缩放因子。具体来说，如果矩阵 $A$ 是一个 $\times n$ 的方阵，并且存在非零向量 $v$ 和标量 $\lambda$ ，使得 $\lambda v$ ，那么 $\lambda$ 就被称为矩阵 $A$ 的一个特征值，而 $v$ 被称为对应的特征向量。

特征向量（Eigenvector）

特征向量是与特定特征值相关联的非零向量。在上面的定义中，向量 $v$ 就是对应于特征值 $\lambda$ 的特征向量。特征向量在矩阵变换下仅被缩放（即方向不变，仅长度变化），这使得它们在分析矩阵的性质时非常有用。

特征值和特征向量的重要性

物理意义：在物理问题中，特征值和特征向量常常对应着系统的固有频率和振动模式。例如，在结构力学中，建筑物的振动模式可以由其特征向量描述，而特征值则与这些振动模式的频率相对应。
稳定性分析：在控制系统中，特征值可以用来分析系统的稳定性。如果所有特征值的实部都是负的，那么系统就是稳定的；如果存在正实部的特征值，则系统可能不稳定。
数据降维：在数据分析和机器学习中，特征值和特征向量可以用来进行主成分分析（PCA），这是一种数据降维技术。通过选择最大的特征值对应的特征向量，可以保留数据中的大部分信息，同时减少数据的维度。
矩阵对角化：通过选择矩阵的特征向量作为新的基向量，可以将矩阵转化为对角矩阵。对角矩阵的运算相对简单，因此在很多情况下，特征值和特征向量的计算可以帮助简化矩阵的运算。

计算方法

特征值和特征向量的计算通常涉及求解特征多项式（即 $\lambda I| = 0$ ，其中 $I$ 是单位矩阵）的根来找到特征值，然后对于每个特征值，求解对应的线性方程组 $\lambda v$ （或等价地 $\lambda I)v = 0$ ）来找到特征向量。在现代计算机程序中，这些计算通常通过数值方法来实现。

特征值分解是一种矩阵分解方法，特别适用于方阵。它能够将一个矩阵分解成特征向量和特征值的线性组合，这在数学、物理、工程及计算机科学等多个领域都有重要应用。以下是对特征值分解的详细说明，包括算法和例子。

特征值

一、特征值分解的定义

特征值分解是将一个方阵A分解为一系列特征向量和对应的特征值的线性组合。具体来说，如果存在一个非零向量v和一个标量λ，使得Av = λv，则称λ为矩阵A的特征值，v为对应的特征向量。特征值分解就是将矩阵A分解为特征向量和特征值的线性组合。
对于n阶方阵A，如果存在n个线性无关的特征向量，则A可以分解为：

$A = QΛQ^{-1}$

其中，Q是由A的特征向量构成的矩阵（每列是一个特征向量），Λ是一个对角矩阵，其对角线上的元素是A的特征值。对于实对称矩阵，Q是正交矩阵，即Q的逆等于Q的转置（ $Q^T$ ），因此特征值分解可以简化为：

$A = QΛQ^T$

二、特征值分解的算法

特征值分解的算法主要有两种：直接法和迭代法。直接法包括QR算法、Jacobi算法等，适用于矩阵规模较小的情况；迭代法则适用于大规模稀疏矩阵的特征值分解。

以QR算法为例，其基本思想是将矩阵A通过一系列正交变换转化为上三角矩阵R，然后利用上三角矩阵的性质求出特征值。具体步骤如下：
$\\2. 计算R的QR分解，得到R = Q1R1，其中Q1是正交矩阵，R1是上三角矩阵。 \\3. 将Q和Q1相乘得到新的正交矩阵Q'，即Q' = QQ1。 \\4. 重复步骤2和3，直到R足够接近上三角矩阵的对角线形式， \\此时对角线上的元素即为矩阵A的特征值的近似值。$

需要注意的是，QR算法在实际应用中通常需要进行多次迭代才能达到所需的精度。

特征值分解（Eigenvalue Decomposition）是线性代数中的一种重要方法，它适用于方阵，特别是实对称矩阵（如Hessian矩阵）。
以下将详细说明特征值分解的概念、算法以及一个具体的例子。
特征值分解的算法通常包括以下几个步骤：
$1. 计算特征多项式：首先，需要计算矩阵A的特征多项式f(λ) = |λI - A|，其中I是单位矩阵。 \\2. 求解特征值：然后，解特征多项式f(λ) = 0的根，得到矩阵A的特征值λ_1, λ_2, ..., λ_n。 \\3. 求解特征向量：对于每个特征值λ_i，解方程(λ_iI - A)v = 0，得到对应的特征向量vi。 \\4. 构造特征向量矩阵和特征值矩阵：将特征向量按列排列构成矩阵Q，将对角线元素为特征值的对角矩阵记为Λ。 \\5. 验证分解：最后，验证A = QΛQ^T是否成立。$

三、特征值分解的例子

以二维实对称矩阵A为例，假设

$\begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}$

计算特征多项式：
特征多项式f(λ)为|λI - A|，其中I是单位矩阵。
$\left| \begin{bmatrix} λ - 2 & -1 \\ -1 & λ - 2 \end{bmatrix} \right| = (λ - 2)^2 - 1 = λ^2 - 4λ + 3$
求解特征值：
令f(λ) = 0，解得λ1 = 1, λ2 = 3。
求解特征向量：
对于λ1 = 1，解方程组(A - λ1I)x = 0，即
$\begin{bmatrix} 1 - 2 & -1 \\ -1 & 1 - 2 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$
$得到x1 = -x2，取x2 = 1，得特征向量v1 = [-1, 1]^T$ 。

$对于 λ 2 = 3 ，解方程组 (A - λ 2 I) x = 0 ，即$
$\begin{bmatrix} 3 - 2 & -1 \\ -1 & 3 - 2 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$
$得到x1 = x2，取x2 = 1，得特征向量v2 = [1, 1]^T$ 。

构造特征值分解：
正交矩阵Q由特征向量组成，即
$\begin{bmatrix} -1 & 1 \\ 1 & 1 \end{bmatrix}$
（注意：这里Q并非单位正交矩阵，实际应用中需要对其进行单位化。但为了简化说明，这里省略了单位化步骤。）
对角矩阵Λ为
$\begin{bmatrix} 1 & 0 \\ 0 & 3 \end{bmatrix}$
因此，矩阵A的特征值分解为
$A = QΛQ^T$
但需要注意的是，由于Q未进行单位化，上述分解并不严格成立。在实际应用中，应使用单位正交矩阵进行特征值分解。

给定矩阵

$\begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}$

步骤1：计算特征多项式

$\left| \begin{bmatrix} λ - 2 & -1 \\ -1 & λ - 2 \end{bmatrix} \right| = (λ - 2)^2 - 1 = λ^2 - 4λ + 3$

步骤2：求解特征值

$解方程f(λ) = 0，即λ^2 - 4λ + 3 = 0，得到特征值λ1 = 1, λ2 = 3$ 。

步骤3：求解特征向量

$对于 λ 1 = 1 ，解方程 (I - A) v 1 = 0 ，即$

$\begin{bmatrix} -1 & -1 \\ -1 & -1 \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$

$得到x = -y，取y = 1，得v1 = [-1, 1]^T$ 。

$对于 λ 2 = 3 ，解方程 (3 I - A) v 2 = 0$ ，即

$\begin{bmatrix} 1 & -1 \\ -1 & 1 \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$

$得到x = y，取x = 1，得v2 = [1, 1]^T$ 。

步骤4：构造特征向量矩阵和特征值矩阵

$\begin{bmatrix} -1 & 1 \\ 1 & 1 \end{bmatrix}, \quad Λ = \begin{bmatrix} 1 & 0 \\ 0 & 3 \end{bmatrix}$

步骤5：验证分解

$QΛQ^T = \begin{bmatrix} -1 & 1 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & 3 \end{bmatrix} \begin{bmatrix} -1 & 1 \\ 1 & 1 \end{bmatrix}^T = \begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix} = A$

验证成功，说明特征值分解正确。

注意：在实际应用中，特别是对于大型矩阵，特征值分解的计算可能比较复杂，通常需要使用数值方法或专门的数学软件

正定矩阵

是一个在数学和物理中广泛应用的矩阵概念，特别是在优化理论、线性代数、统计学和工程学中。一个 $\times n$ 的实对称矩阵 $A$ 被称为正定矩阵，如果对于所有的非零向量 $\mathbf{x} \in \mathbb{R}^n$ ，都有 $\mathbf{x}^T A \mathbf{x} > 0$ 。这里， $\mathbf{x}^T$ 表示向量 $\mathbf{x}$ 的转置。

正定矩阵的性质包括：

所有特征值都是正的：正定矩阵的所有特征值（即矩阵的谱）都是正实数。
主子式都是正的：矩阵 $A$ 的所有主子式（即矩阵的所有阶主子行列式的值）都是正的。特别地，矩阵的对角元素（一阶主子式）都是正的。
可逆性：正定矩阵是可逆的，且其逆矩阵也是正定的。
与单位矩阵的合同性：存在一个实可逆矩阵 $P$ ，使得 $A = P^T P$ 。这意味着正定矩阵与单位矩阵在合同变换下是等价的。
正定二次型：正定矩阵对应于一个正定的二次型，即对于任意非零向量 $\mathbf{x}$ ，二次型 $f(\mathbf{x}) = \mathbf{x}^T A \mathbf{x}$ 都是正的。
Cholesky分解：正定矩阵可以进行Cholesky分解，即存在一个下三角矩阵 $L$ ，使得 $A = L L^T$ 。
与正定函数的关系：在多元函数优化中，如果一个函数在某点的Hessian矩阵是正定的，那么该函数在该点有局部最小值。

正定矩阵的概念可以推广到复数域，但在复数域中，我们通常讨论的是正定Hermite矩阵（或称为正定共轭对称矩阵），其定义与实对称矩阵类似，但要求矩阵是Hermite的（即满足 $A = A^*$ ，其中 $A^*$ 是 $A$ 的共轭转置）。

在实际应用中，正定矩阵因其良好的数学性质和计算特性而被广泛使用，例如在解决线性方程组、优化问题、信号处理、机器学习等领域中。
Hessian矩阵的特征值在多元函数分析中具有重要意义，它们主要用来描述函数在某一点附近的凹凸性。以下是对Hessian矩阵特征值的详细解释：

Hessian矩阵的特征值

Hessian矩阵的含义

Hessian矩阵是一个由多元函数f(x1, x2, …, xn)的二阶偏导数构成的n×n方阵。它描述了函数在给定点的局部曲率信息。

凹凸性描述：Hessian矩阵的特征值描述了函数在该点附近沿着特征向量方向的凹凸性。特征值越大，表示该方向上的凸性越强，即函数在该方向上的变化率越陡峭；反之，特征值越小，表示该方向上的凹性越强，即函数在该方向上的变化率越平缓。
极值判定：在驻点（即函数的梯度为零的点）处，Hessian矩阵的特征值可以用来判定该驻点是局部极大值点、局部极小值点还是鞍点。具体来说，如果Hessian矩阵是正定的（即所有特征值都大于零），则驻点是局部极小值点；如果Hessian矩阵是负定的（即所有特征值都小于零），则驻点是局部极大值点；如果Hessian矩阵是不定的（即特征值有正有负），则驻点是鞍点。
优化方法收敛速度：Hessian矩阵的特征值还与优化方法的收敛速度有关。例如，在梯度下降法中，如果Hessian矩阵（在驻点处）是正定的且特征值相近，则梯度下降的收敛速度会更快；反之，如果特征值相差很大，则收敛速度可能会变慢。

Hessian矩阵特征值的计算

Hessian矩阵是多元函数的二阶偏导数矩阵，因此其特征值的计算通常涉及到矩阵的特征值分解。对于实对称矩阵（如Hessian矩阵），其特征值分解总是存在的，并且可以将矩阵表示为特征向量和特征值的线性组合。
**Hessian矩阵特征值分解是一种数学方法，用于将Hessian矩阵（一个多元函数的二阶偏导数矩阵）分解为特征向量和特征值的线性组合。**以下是关于Hessian矩阵特征值分解的详细解释：

特征值分解的概念

特征值分解是一种矩阵分解方法，它适用于方阵。对于给定的方阵A，如果存在一个非零向量v和一个标量λ，使得Av = λv，则称λ为矩阵A的特征值，v为对应的特征向量。特征值分解就是将矩阵A分解为特征向量和特征值的线性组合。

Hessian矩阵的特征值分解

由于Hessian矩阵是实对称矩阵（如果函数f的二阶偏导数连续且存在），根据实对称矩阵的性质，它可以进行特征值分解。具体来说，存在一个正交矩阵Q和一个对角矩阵Λ，使得：

[ H = QΛQ^T ]

其中，H是Hessian矩阵，Q的列是H的单位特征向量，Λ的对角线元素是H的特征值。这个分解过程称为Hessian矩阵的特征值分解。

特征值分解的含义

特征值：Hessian矩阵的特征值描述了函数在该点附近沿着特征向量方向的凹凸性。特征值越大，表示该方向上的凸性越强；特征值越小，表示该方向上的凹性越强。在优化问题中，特征值的大小和分布还与优化算法的收敛速度有关。
特征向量：Hessian矩阵的特征向量表示了函数在该点附近变化最剧烈的方向。对于正定矩阵（所有特征值都大于零），特征向量指向了局部极小值的方向；对于负定矩阵（所有特征值都小于零），特征向量指向了局部极大值的方向；对于不定矩阵（特征值有正有负），特征向量则指向了鞍点的方向。

应用领域

Hessian矩阵的特征值分解在多个领域都有重要应用，包括：

图像处理：在图像处理中，Hessian矩阵的特征值可以用来描述图像的局部纹理和结构信息。例如，在边缘检测中，可以利用Hessian矩阵的特征值来区分边缘和非边缘区域。
机器学习：在机器学习中，Hessian矩阵的特征值分解可以用来分析损失函数的局部性质，帮助设计更高效的优化算法。
优化算法：在优化问题中，Hessian矩阵的特征值分解可以用来设计二阶优化算法（如牛顿法），这些算法通常比一阶优化算法（如梯度下降法）具有更快的收敛速度。

综上所述，Hessian矩阵特征值分解是一种重要的数学工具，它在多元函数分析、图像处理、机器学习和优化算法等领域都有广泛的应用。

Hessian矩阵局部曲率

Hessian矩阵的定义

Hessian矩阵，又称为海塞矩阵或海森矩阵，是多元函数的二阶偏导数构成的方阵，描述了函数的局部曲率。对于一个n元函数f(x1, x2, …, xn)，如果其二阶偏导数都存在，则f的Hessian矩阵是一个n×n的矩阵，其元素为函数f的二阶偏导数。

Hessian矩阵的性质

Hessian矩阵的一个重要性质是对称性，即矩阵中的元素满足Hij = Hji（i ≠ j），其中Hij表示矩阵中第i行第j列的元素。此外，Hessian矩阵的正定性和负定性对于判定函数的极值类型具有重要意义。
在多元函数优化问题中，Hessian矩阵是一个重要的工具，它描述了函数在某点的局部曲率。Hessian矩阵是二阶偏导数矩阵，对于具有 $n$ 个变量的函数 $f(x_1, x_2, \ldots, x_n)$ ，其Hessian矩阵 $H$ 的元素为：

$H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j}$

其中， $\ldots, n$ 。

驻点（或临界点）是函数的一阶偏导数都为零的点，即满足：

$\frac{\partial f}{\partial x_i} = 0, \quad \text{对于所有 } i = 1, 2, \ldots, n$

在驻点处，Hessian矩阵的性质对于判断该驻点是局部极大值、局部极小值还是鞍点至关重要。
Hessian矩阵在驻点处负定的含义，主要涉及到多元函数极值问题的判定。

Hessian矩阵在驻点处负定的含义

驻点是多元函数偏导数为零的点。在驻点处，如果Hessian矩阵是负定的，那么根据极值定理，该驻点对应的是函数的局部极大值点。这里，“负定”意味着Hessian矩阵的所有特征值都小于零。

具体来说，当函数在驻点处的Hessian矩阵负定时，函数在该点附近沿着任意方向的变化率（即二阶导数）都是负的，这表明函数在该点附近是向下凹陷的，因此该点是一个局部极大值点。

判定方法

在实际应用中，判定Hessian矩阵是否负定通常有以下几种方法：

特征值法：计算Hessian矩阵的所有特征值，如果所有特征值都小于零，则矩阵是负定的。
主子式法：根据矩阵的行列式（或主子式）的符号来判定。如果矩阵的所有奇数阶主子式都为负，偶数阶主子式都为正，则矩阵是负定的。但这种方法通常只适用于较小的矩阵或特殊情况下。
直接观察法：对于简单的函数和驻点，有时可以通过直接观察Hessian矩阵的元素来初步判断其是否负定。但这种方法缺乏一般性，容易出错。

综上所述，Hessian矩阵在驻点处负定的含义是该驻点对应的是函数的局部极大值点。这一结论在多元函数的极值判定中具有重要的应用价值。

Hessian矩阵在驻点处正定的含义

Hessian矩阵在驻点处正定的含义可以从以下几个方面来阐述：

Hessian矩阵的定义

Hessian矩阵是一个数学概念，用于表示多元函数关于其各自变量的二阶偏导数的矩阵。它是一个实对称矩阵，对于函数f(x1, x2, …, xn)，其Hessian矩阵H的第i行第j列元素表示∂²f/∂xi∂xj，即函数在第i个自变量和第j个自变量处的二阶偏导数。
驻点的定义

驻点是多元函数偏导数为零的点。在驻点处，函数的一阶导数（即梯度）为零，这意味着函数在该点没有一阶方向导数，因此无法直接通过一阶导数来判断该点是极大值、极小值还是鞍点。
Hessian矩阵在驻点处正定的含义

当Hessian矩阵在驻点处正定时，意味着该矩阵的所有特征值均为正数。在多元函数的优化问题中，这通常表明函数在该驻点处是一个局部最小值点。具体来说，正定的Hessian矩阵意味着在所有方向上，函数的二阶导数都是正的，即无论从哪个方向离开驻点，函数的值都会增加。
换句话说，正定的Hessian矩阵提供了函数在该点附近曲率的信息，表明函数在该点处形成了一个“碗状”的局部凹面，因此该点是局部最小值点。
应用与重要性

Hessian矩阵在优化算法和机器学习等领域有着广泛的应用。例如，在牛顿法和拟牛顿法等优化算法中，Hessian矩阵被用来确定搜索方向，以加速收敛到最小值点。
对于具有正定Hessian矩阵的函数，这些优化算法能够保证在局部最小值点处停止，并且如果函数是凸的，则这个局部最小值点也是全局最小值点。

综上所述，Hessian矩阵在驻点处正定意味着函数在该点处是一个局部最小值点，并且这一性质在优化问题和机器学习中具有重要的应用价值。

证明思路

虽然直接证明Hessian矩阵在驻点处正定导致局部极小值需要较深的数学背景（如泰勒展开、凸函数性质等），但我们可以从直观上理解这一点：

正定的Hessian矩阵意味着函数在该点附近的所有方向上都是“向下凹”的，即如果你从该点出发，无论向哪个方向移动，函数值都会增加（在非常小的移动范围内）。
这与局部极小值的定义相吻合：在局部极小值点附近，函数值都比该点大（除了在该点本身）。

注意事项

Hessian矩阵在驻点处正定只是局部极小值的一个充分条件，不是必要条件。有些局部极小值点可能对应于Hessian矩阵半正定或不定的情况。
Hessian矩阵在驻点处负定则意味着该驻点是局部极大值点。
Hessian矩阵在驻点处不定（即既有正特征值又有负特征值）则意味着该驻点是鞍点。

多元函数的驻点、极大值点、极小值点和鞍点

概述

驻点（Stationary Point）

对于多元函数 $\ldots, z)$ ，驻点是所有偏导数都为零的点，即满足以下条件的点 $(x_0, y_0, \ldots, z_0)$ ：

$\frac{\partial f}{\partial x}(x_0, y_0, \ldots, z_0) = 0, \quad \frac{\partial f}{\partial y}(x_0, y_0, \ldots, z_0) = 0, \quad \ldots, \quad \frac{\partial f}{\partial z}(x_0, y_0, \ldots, z_0) = 0$

驻点可能是极大值点、极小值点或鞍点，需要进一步分析来确定。

极大值点和极小值点

极大值点和极小值点是函数在局部取得最大值或最小值的点。在多元函数中，这通常通过检查二阶偏导数（即Hessian矩阵）的行列式（或更一般地，通过二阶导数测试）来确定。

如果Hessian矩阵在驻点处是正定的，则该驻点是局部极小值点。
如果Hessian矩阵在驻点处是负定的，则该驻点是局部极大值点。
如果Hessian矩阵在驻点处既不定（既不是正定也不是负定），则该驻点可能是鞍点或需要进一步分析。

注意：在某些情况下，即使Hessian矩阵的行列式为零，也可能通过其他方法（如方向导数或泰勒级数展开）来确定驻点的性质。

鞍点（Saddle Point）

鞍点是一个既不是局部极大值也不是局部极小值的驻点。在鞍点处，函数在某些方向上可能是凹的（具有局部最小值），而在其他方向上可能是凸的（具有局部最大值）。这通常发生在Hessian矩阵既不定且至少有一个正特征值和一个负特征值的情况下。

示例

考虑二元函数 $f(x, y) = x^2 - y^2$ 。

驻点：通过求解 $\frac{\partial f}{\partial x} = 0$ 和 $\frac{\partial f}{\partial y} = 0$ ，我们得到驻点 $(0, 0)$ 。
Hessian矩阵： $\begin{pmatrix} 2 & 0 \\ 0 & -2 \end{pmatrix}$ 。
性质：Hessian矩阵既不定（有一个正特征值和一个负特征值），因此 $(0, 0)$ 是一个鞍点。

在这个例子中，函数 $f (x, y)$ 在 $y = x$ 方向上是凸的（具有局部最大值），在 $y = - x$ 方向上是凹的（具有局部最小值），从而验证了 $(0, 0)$ 是一个鞍点。

具体理论

多元函数的驻点、极大值点、极小值点和鞍点是微积分中描述函数局部性质的重要概念。下面我将详细描述这些概念：

驻点（Stationary Point）

定义：对于多元函数 $f(x_1, x_2, \ldots, x_n)$ ，驻点是所有一阶偏导数都为零的点，即满足以下条件的点 $(x_1^0, x_2^0, \ldots, x_n^0)$ ：

$\frac{\partial f}{\partial x_1}(x_1^0, x_2^0, \ldots, x_n^0) = 0, \quad \frac{\partial f}{\partial x_2}(x_1^0, x_2^0, \ldots, x_n^0) = 0, \quad \ldots, \quad \frac{\partial f}{\partial x_n}(x_1^0, x_2^0, \ldots, x_n^0) = 0$

性质：驻点是函数图像上切线斜率为零的点，对于二元函数，可以想象为函数图像上水平切线的交点。驻点不一定是极值点，它可能是极大值点、极小值点或鞍点。

极大值点和极小值点

定义：

极大值点：如果对于点 $(x_1^0, x_2^0, \ldots, x_n^0)$ 的某个邻域内的所有点 $(x_1, x_2, \ldots, x_n)$ （除了该点本身），都有 $f(x_1, x_2, \ldots, x_n) \leq f(x_1^0, x_2^0, \ldots, x_n^0)$ ，则称该点为极大值点。
极小值点：如果对于点 $(x_1^0, x_2^0, \ldots, x_n^0)$ 的某个邻域内的所有点 $(x_1, x_2, \ldots, x_n)$ （除了该点本身），都有 $f(x_1, x_2, \ldots, x_n) \geq f(x_1^0, x_2^0, \ldots, x_n^0)$ ，则称该点为极小值点。

性质：

极大值点和极小值点都是驻点，但驻点不一定是极值点。
极值点的判断通常需要借助二阶偏导数（Hessian矩阵）的性质。如果Hessian矩阵在驻点处是正定的，则该驻点是极小值点；如果Hessian矩阵在驻点处是负定的，则该驻点是极大值点。

鞍点（Saddle Point）

定义：鞍点是一个既不是局部极大值也不是局部极小值的驻点。在鞍点处，函数在某些方向上可能是凹的（具有局部最小值），而在其他方向上可能是凸的（具有局部最大值）。

性质：

鞍点的Hessian矩阵通常是不定的，即它既有正特征值也有负特征值。
鞍点在数学和物理问题中经常出现，特别是在优化问题和微分方程中。

总结

概念	定义	性质
驻点	所有一阶偏导数都为零的点	驻点不一定是极值点，可能是极大值点、极小值点或鞍点
极大值点	邻域内函数值均不大于该点的点	极大值点是驻点，Hessian矩阵在驻点处负定
极小值点	邻域内函数值均不小于该点的点	极小值点是驻点，Hessian矩阵在驻点处正定
鞍点	既不是局部极大值也不是局部极小值的驻点	Hessian矩阵在驻点处不定，既有正特征值也有负特征值

这些概念在多元函数的极值分析、优化问题、微分方程等领域中都有广泛的应用。

极小值点概述

简介

在数学中，极小值点（也称为局部最小值点）是函数图像上的一个点，在该点处函数取得其附近的一个最小值。换句话说，如果在某点 $x_0$ 处，函数 $f (x)$ 的值小于或等于在其附近所有点的函数值，即对于所有在 $x_0$ 的邻域内的 $x$ （除了 $x_0$ 本身），都有 $\geq f(x_0)$ ，则称 $x_0$ 为函数 $f (x)$ 的极小值点，而 $f(x_0)$ 是函数在该点的极小值。

注意几个关键点：

局部性：极小值点是相对于其邻域而言的。也就是说，它只保证在该点附近函数取得最小值，但并不意味着在整个定义域内都是最小的。
可导性：如果函数在某点可导，那么该点可能是极小值点的一个必要条件是其一阶导数在该点等于零（即 $f'(x_0) = 0$ ）。然而，这还不是充分条件，因为还可能是拐点或极大值点。为了确定是否为极小值点，通常需要检查该点附近的导数符号变化（即二阶导数测试，如果 $f''(x_0) > 0$ ，则 $x_0$ 是极小值点）。
不可导点：有些函数在极小值点处可能不可导（例如，绝对值函数 $∣ x ∣$ 在 $x = 0$ 处）。在这种情况下，通常需要通过比较邻域内的函数值来确定是否为极小值点。
全局最小值：与极小值点相对的是全局最小值点，它指的是在整个定义域内函数取得的最小值。全局最小值点一定是某个区间（可能是整个定义域）内的极小值点，但反之不然。
寻找方法：在实际问题中，寻找函数的极小值点通常涉及求导（如果函数可导）、使用二阶导数测试（或更高阶的测试，如泰勒级数展开）、数值方法（如梯度下降法、牛顿法等）或优化算法。

函数的导数

函数的导数（Derivative）是微积分中的一个核心概念，它描述了函数在某一点附近的变化率。具体来说，对于一个可导函数 $f (x)$ ，它在某一点 $x_0$ 的导数 $f'(x_0)$ （或简写为 $y^{'}$ ，如果 $y = f (x)$ ）表示函数在该点处切线的斜率。导数可以通过极限来定义，即

$f'(x_0) = \lim_{{\Delta x \to 0}} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}$

这个定义表示了函数在 $x_0$ 点附近的变化率随 $\Delta x$ （ $x$ 的变化量）趋于0时的极限值。

导数和极值的关系

导数和极值之间存在密切的关系。极值（包括极大值和极小值）是函数在某区间内取得的最大或最小值。为了找到这些极值点，我们可以利用导数来帮助我们。

一阶导数与极值点的关系：
如果一个函数在某点 $x_0$ 处取得极值，那么该点处的一阶导数 $f'(x_0)$ 必须等于0（或者该点不可导，但这种情况较少见且需要额外分析）。这是因为极值点处函数的变化率（即斜率）为0，表示函数在该点附近从增加变为减少（或从减少变为增加）。
二阶导数与极值类型的判断：
为了确定一个一阶导数为0的点 $x_0$ 是极大值点还是极小值点，我们需要检查该点处的二阶导数 $f''(x_0)$ 。
- 如果 $f''(x_0) > 0$ ，则函数在 $x_0$ 处是凹的，因此 $x_0$ 是一个极小值点。
- 如果 $f''(x_0) < 0$ ，则函数在 $x_0$ 处是凸的，因此 $x_0$ 是一个极大值点。
- 如果 $f''(x_0) = 0$ ，则二阶导数测试失效，可能需要使用更高阶的导数测试或数值方法来进一步分析。
应用：
在实际应用中，我们经常需要找到函数的极值点来优化某些过程（如最小化成本、最大化利润等）。通过求导数和利用上述关系，我们可以有效地找到这些极值点。

综上所述，导数是理解和分析函数极值的重要工具。通过求导数和检查导数的符号（以及更高阶导数的符号，如果需要的话），我们可以找到并确定函数的极值点。

极小值理论与实例

极小值理论

一阶导数：
如果函数 $f (x)$ 在某区间内可导，那么它的极小值点（如果存在）必然满足 $f^{'} (x) = 0$ 。这是因为在极值点处，函数的切线斜率（即一阶导数）为零。
二阶导数测试：
对于满足 $f^{'} (x) = 0$ 的点 $x_0$ ，我们需要进一步判断它是极大值点、极小值点还是拐点。这通常通过二阶导数 $f^{''} (x)$ 在 $x_0$ 处的符号来确定：
- 如果 $f''(x_0) > 0$ ，则 $x_0$ 是极小值点。
- 如果 $f''(x_0) < 0$ ，则 $x_0$ 是极大值点。
- 如果 $f''(x_0) = 0$ ，则测试可能不够明确，需要进一步分析（如使用更高阶的导数测试或数值方法）。
边界检查（对于闭区间上的函数）：
如果函数定义在闭区间上，那么极小值也可能出现在区间的端点上。因此，在找到所有 $ f’(x) = 0 $ 的解之后，还需要检查区间端点的函数值。
不可导点：
有些函数在某些点处不可导，但这些点也可能是极值点。对于这些点，通常需要通过比较该点附近的函数值来确定是否为极小值点。

实例

考虑函数 $f(x) = x^3 - 3x^2 + 1$ ，我们要求这个函数的极小值点。

求一阶导数：
$f'(x) = 3x^2 - 6x$
找出可能的极值点：
令 $f^{'} (x) = 0$ ，解得 $x = 0$ 或 $x = 2$ 。
二阶导数测试：
求二阶导数 $f^{''} (x) = 6 x - 6$ 。
- 当 $x = 0$ 时， $f^{''} (0) = - 6 < 0$ ，所以 $x = 0$ 是极大值点。
- 当 $x = 2$ 时， $f^{''} (2) = 6 > 0$ ，所以 $x = 2$ 是极小值点。
计算极小值：
将 $x = 2$ 代入原函数 $f (x)$ ，得到 $2^3 - 3 \cdot 2^2 + 1 = -3$ 。

因此，函数 $f(x) = x^3 - 3x^2 + 1$ 的极小值点是 $x = 2$ ，对应的极小值为 $- 3$ 。

这个实例展示了如何通过求导、解方程、二阶导数测试等步骤来找到函数的极小值点。

计算极小值点

要求函数的极小值点，我们需要按照之前提到的步骤来操作。这里我将给出一个具体的函数例子，并展示如何找到它的极小值点。

示例函数1

考虑函数 $f(x) = x^3 - 3x^2 + 1$ 。

步骤 1: 求一阶导数

首先，我们需要求出函数的一阶导数 $f^{'} (x)$ 。

$\frac{d}{dx}(x^3 - 3x^2 + 1) = 3x^2 - 6x$

步骤 2: 找出可能的极值点

接下来，我们令一阶导数等于零，解出 $x$ 的值。

$3x^2 - 6x = 0$
$3 x (x - 2) = 0$
$\quad \text{或} \quad x = 2$

这两个 $x$ 值是函数可能的极值点。

步骤 3: 判断极值点的类型

为了确定这两个点中哪些是极小值点（或极大值点），我们需要检查二阶导数的符号。

首先求出二阶导数 $f^{''} (x)$ 。

$\frac{d}{dx}(3x^2 - 6x) = 6x - 6$

然后，在 $x = 0$ 和 $x = 2$ 处分别计算二阶导数的值。

当 $x = 0$ 时， $\cdot 0 - 6 = -6 < 0$ 。由于二阶导数小于零，根据二阶导数测试， $x = 0$ 是一个极大值点。
当 $x = 2$ 时， $\cdot 2 - 6 = 6 > 0$ 。由于二阶导数大于零，根据二阶导数测试， $x = 2$ 是一个极小值点。

步骤 4: 计算极小值

最后，我们将 $x = 2$ 代入原函数 $f (x)$ 来计算极小值。

$2^3 - 3 \cdot 2^2 + 1 = 8 - 12 + 1 = -3$

因此，函数 $f(x) = x^3 - 3x^2 + 1$ 的极小值点是 $x = 2$ ，对应的极小值为 $- 3$ 。

要求函数的极小值点，我们需要按照之前提到的步骤来操作。这里我将给出一个具体的函数例子，并展示如何找到它的极小值点。

示例函数2

考虑函数 $f(x) = x^3 - 3x^2 + 1$ 。

步骤 1: 求一阶导数

首先，我们需要求出函数的一阶导数 $f^{'} (x)$ 。

$\frac{d}{dx}(x^3 - 3x^2 + 1) = 3x^2 - 6x$

步骤 2: 找出可能的极值点

接下来，我们令一阶导数等于零，解出 $x$ 的值。

$3x^2 - 6x = 0$
$3 x (x - 2) = 0$
$\quad \text{或} \quad x = 2$

这两个 $x$ 值是函数可能的极值点。

步骤 3: 判断极值点的类型

为了确定这两个点中哪些是极小值点（或极大值点），我们需要检查二阶导数的符号。

首先求出二阶导数 $f^{''} (x)$ 。

$\frac{d}{dx}(3x^2 - 6x) = 6x - 6$

然后，在 $x = 0$ 和 $x = 2$ 处分别计算二阶导数的值。

当 $x = 0$ 时， $\cdot 0 - 6 = -6 < 0$ 。由于二阶导数小于零，根据二阶导数测试， $x = 0$ 是一个极大值点。
当 $x = 2$ 时， $\cdot 2 - 6 = 6 > 0$ 。由于二阶导数大于零，根据二阶导数测试， $x = 2$ 是一个极小值点。

步骤 4: 计算极小值

最后，我们将 $x = 2$ 代入原函数 $f (x)$ 来计算极小值。

$2^3 - 3 \cdot 2^2 + 1 = 8 - 12 + 1 = -3$

因此，函数 $f(x) = x^3 - 3x^2 + 1$ 的极小值点是 $x = 2$ ，对应的极小值为 $- 3$ 。

只使用一阶导数计算极值

只使用一阶导数来计算极值，我们主要依赖于一阶导数等于零的点（即驻点）来找到可能的极值点。然而，需要注意的是，一阶导数等于零的点并不一定是极值点（它也可能是拐点或不可分类的点），而且极值点也不一定都满足一阶导数等于零（例如，在不可导点处也可能存在极值）。但在这里，我们假设函数是可导的，并且只考虑一阶导数等于零的情况。

以下是使用一阶导数计算极值的步骤：

求一阶导数：
首先，对给定的函数 $ f(x) $ 求一阶导数 $ f’(x) $。
找出驻点：
令 $ f’(x) = 0 $，解这个方程以找出所有使一阶导数等于零的 $ x $ 值。这些 $ x $ 值就是可能的极值点（驻点）。
检查驻点附近的函数行为：
对于每个驻点 $ x_0 $，检查函数在 $ x_0 $ 附近的单调性。这通常通过选择一个小的正数 $ \Delta x $ 和一个小的负数 $ -\Delta x $（其中 $ \Delta x $ 足够小以确保我们仍在函数的局部行为内），然后计算 $ f(x_0 + \Delta x) $ 和 $ f(x_0 - \Delta x) $ 来完成。
- 如果 $ f(x_0 + \Delta x) > f(x_0) $ 且 $ f(x_0) < f(x_0 - \Delta x) $，则 $ x_0 $ 是一个极小值点。
- 如果 $ f(x_0 + \Delta x) < f(x_0) $ 且 $ f(x_0) > f(x_0 - \Delta x) $，则 $ x_0 $ 是一个极大值点。
- 如果 $ x_0 $ 附近的函数值没有一致地增加或减少，则可能需要进一步分析（尽管在大多数情况下，一阶导数等于零的点足以指示极值点的存在）。
（可选）使用二阶导数进行验证：
虽然题目要求只使用一阶导数，但了解二阶导数如何帮助验证极值点是很有用的。如果 $ f’‘(x_0) > 0 $，则 $ x_0 $ 是极小值点；如果 $ f’'(x_0) < 0 $，则 $ x_0 $ 是极大值点。然而，这一步并不是必需的，因为我们已经通过检查函数在驻点附近的行为来确定了极值点的类型。
结论：
根据以上步骤，我们可以确定每个驻点是极大值点、极小值点还是需要进一步分析的点。

请注意，对于某些复杂的函数，仅通过一阶导数可能难以准确判断极值点的类型，特别是当函数在驻点附近的行为非常接近线性时。在这种情况下，使用数值方法或更高级的分析技术可能是必要的。

参考文献

《机器学习精讲基础、算法与应用》
文心一言

文章目录

最优化

基础

理论

特征值（Eigenvalue）

特征向量（Eigenvector）

特征值和特征向量的重要性

计算方法

特征值

一、特征值分解的定义

二、特征值分解的算法

三、特征值分解的例子

正定矩阵

Hessian矩阵的特征值

Hessian矩阵的含义

Hessian矩阵特征值的计算

特征值分解的概念

Hessian矩阵的特征值分解

特征值分解的含义

应用领域

Hessian矩阵局部曲率

Hessian矩阵的定义

Hessian矩阵的性质

Hessian矩阵在驻点处负定的含义

判定方法

Hessian矩阵在驻点处正定的含义

证明思路

注意事项

多元函数的驻点、极大值点、极小值点和鞍点

概述

驻点（Stationary Point）

极大值点和极小值点

鞍点（Saddle Point）

示例

具体理论

驻点（Stationary Point）

极大值点和极小值点

鞍点（Saddle Point）

总结

极小值点概述

简介

函数的导数

导数和极值的关系

极小值理论与实例

极小值理论

实例

计算极小值点

示例函数1

步骤 1: 求一阶导数

步骤 2: 找出可能的极值点

步骤 3: 判断极值点的类型

步骤 4: 计算极小值

示例函数2

步骤 1: 求一阶导数

步骤 2: 找出可能的极值点

步骤 3: 判断极值点的类型

步骤 4: 计算极小值

只使用一阶导数计算极值

参考文献

相关文章：