Linear Algebra-正定矩阵和最小值-28

一、知识概要

这一节我们要深入探讨正定矩阵这个重要概念。你会发现,正定矩阵把我们之前学过的主元、行列式、特征值等等知识点全都串联起来了。通过正定矩阵的核心判据 ,我们还能建立起矩阵和函数之间的联系,学会用正定矩阵判断函数的最小值,甚至还能从几何角度直观理解这个过程。准备好了吗?让我们开始吧。

二、正定矩阵

我们先从最简单的情况入手,研究一下 的对称矩阵:

,判断它是不是正定矩阵,一共有四种常用方法:

  1. 特征值判定,也就是矩阵的所有特征值都为正数
  2. 行列式判定,也就是顺序主子式均为正值
  3. 主元判定,意味着所有主元都为正数
  4. 判据式对于任意非零向量 ,都有

这里特别提醒一下,在线性代数范围内,正定矩阵必须是对称阵,这是定义要求的,别记错了。

我们来看一个例子:矩阵 ,当问号处填入大于18的整数时,这个矩阵就是正定矩阵。如果恰好填18呢?此时矩阵行列式为0,这样的矩阵我们称之为半正定矩阵。它只有一个主元2,而且是奇异矩阵,特征值为0和20,所有特征值都大于等于0,这就是半正定的特点。

接下来,我们就围绕最重要的这个判据式 展开讨论。

先看刚才那个半正定的例子 ,根据判据式计算一下:

你发现规律了吗? 前面的系数分别对应矩阵 中的 ,这就是二次型。所以说,判断矩阵 是不是正定矩阵,本质上就是判断由 构造出来的二次型(比如这里的 )是不是对所有非零的 都恒大于0。对于我们这个例子,它显然不是恒正的,因为在某些取值下结果就是0。

这说明当 是半正定时,它对应的二次型在某些非零向量下会得到0值。那如果 连半正定都不是,它对应的 又会是什么样子呢?

我们再取 来观察,此时得到的二次型是:

我们把它看成一个二元函数 ,画出来就是一个马鞍面。这个曲面有个特殊的点叫鞍点——从某些方向看它是极大值,从另一些方向看又是极小值。最佳的观测方向就是沿着特征向量的方向。显然,这个时候的 不是正定矩阵。

U4R7bsqv1o4lTQxHUomccX1Knfk

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
% 定义x和y的取值范围
x = -5:0.1:5;
y = -5:0.1:5;

% 生成网格数据
[X,Y] = meshgrid(x,y);

% 计算函数值
Z = 2*X.^2 + 12*X.*Y + 7*Y.^2;

% 绘制三维曲面
surf(X,Y,Z);
shading interp; % 使颜色过渡更平滑
title('f(x, y)=2x^{2}+12xy + 7y^{2}');
xlabel('x');
ylabel('y');
zlabel('f(x, y)');

看完了半正定和非正定的情况,我们再举一个正定矩阵的例子,好好看看它有什么特点,以及二次型和正定矩阵之间到底是什么关系。

取矩阵 ,用我们刚才说的四种判据很容易判断,这确实是一个正定矩阵。重点来看判据式 ,计算后它的二次型是:

写成函数形式就是:

画出来的图像切面就开口向上的抛物线形状。

GgYeb4CU7oj9OvxIhINcMUcUnbb

很明显, 的极小值点就在原点位置。根据微积分的知识,原点处一阶偏导数都是0,而二阶偏导数大于0,所以这就是最小值点。你看,这里就建立起了微积分和线性代数的联系:在微积分中,我们通过求导判断导数是否大于0来确定有没有最小值;在线性代数中,我们则通过判断二阶导数矩阵是否为正定来判断有没有最小值。这就是正定矩阵一个非常重要的应用——把多元函数求最小值的问题转化为矩阵正定性判断问题。

另外,我们还可以对 进行配方:

配方之后一切都清晰了——两个平方项前面的系数都是正数,所以整个函数不可能小于0,而且只有在原点处才等于0。如果矩阵 不是正定的,那平方项前面就可能出现负系数,函数自然也就没有最小值了。

如果我们用 这个平面去截这个二次曲面,截出来的图形就是一个椭圆。这也很好理解,因为函数值恒正,所以截面必然是一个闭合的椭圆。

这里还有一个有趣的联系:配方法在线性代数中其实对应的就是高斯消元。对于我们这个例子 ,矩阵中的每个元素都对应着 中对应项的系数。经过消元,我们得到消元后的矩阵是 ,它们之间满足LU分解:

你看,配方后平方项外面的系数,正好就是矩阵的主元!这样我们就把所有知识点都联系起来了:正定意味着主元都为正,进而配方后二次型平方项的系数都为正,图像开口朝上,原点就是最小值点

这个理论完全可以推广到 维空间。其实微积分里讲二阶偏导数求极值的时候,那个判断条件 之间的关系,放到矩阵里就是判断二阶导数矩阵 是否正定。这个结论同样可以推广到 的矩阵。

我们再举一个三维的例子,看看三维椭球和矩阵之间有什么特殊的联系。考虑矩阵:

很容易判断这是一个正定矩阵,我们写出它的二次型:

和之前二维的情况类似,如果我们令二次型等于1,也就是用 这个平面去截,得到的就是一个椭球体

这个椭球体有一个非常漂亮的性质:三个轴的方向正好就是矩阵 的特征向量方向,三个轴的长度正好和特征值的大小有关。我们通过正交对角化分解 就能得到这些结果,这个性质被称为主轴定理

这里我们再简单证明一下为什么特征值都大于零就能保证

对于对称矩阵 ,它的正交特征向量可以张成整个空间,所以任意向量 都可以表示成特征向量的线性组合 ,代入得:

只有当所有特征值都大于零且 时,才能保证 。因此特征值都为正这个条件和正定性是等价的。

三、学习感悟

本节从学习正定矩阵的判定方法入手,主要研究了判定式 的二次型及其在具体函数上所表现出的性质。这一节将微积分中的二阶导判定方法以及几何角度的图像走势与正定矩阵联系起来,让我们学会运用正定矩阵解决更多实际问题。

四、学习总结

  1. 正定矩阵所有的特征值和主元都是正数;
  2. 如果的列向量线性无关,则是正定矩阵;