Linear Algebra-马尔可夫矩阵和傅里叶级数-24

一、知识概要

今天我们来学习马尔可夫矩阵与傅里叶级数，这两个概念其实是对特征值以及前面学过的大量知识的一次总结应用。我们的学习重点在于理解相关概念的应用，掌握整体框架就好，本文内容不会过于深入细节。

二、马尔科夫矩阵的性质及其应用

2.1 马尔科夫矩阵的性质

先给大家看一个马尔科夫矩阵的例子：

$A=\begin{bmatrix} 0.1 & 0.01 & 0.3 \\ 0.2 & 0.99 & 0.3 \\ 0.7 & 0 & 0.4\end{bmatrix}$

一个矩阵要成为马尔可夫矩阵，需要满足两条基本性质：

(1) 每个元素均为非负数。

(2) 每列的元素之和等于 1。

马尔可夫矩阵有一个很重要的性质：如果 A 是马尔可夫矩阵，那么 A 的任意次幂也仍然是马尔可夫矩阵。

接下来我们来聊聊矩阵次幂运算中的”稳态”概念。在上一节我们学习微分方程的稳态问题时，是通过特征值和 0 的关系来判断稳态的。而在矩阵幂次运算中，稳态的判断方式有所不同，这就需要用到特征值与特征向量的知识。研究马尔可夫矩阵的特征值，我们会发现它有两个关键性质：

(1) $\lambda = 1$ 一定是马尔可夫矩阵的一个特征值。

(2) 所有其余特征值都满足 $|\lambda_{i}|\lt1$。

我们来证明一下性质(1)，这个证明其实很简单。就拿上面给定的矩阵为例，我们把 $\lambda = 1$ 代入 $A - \lambda I$，可得：

$A - 1I=\begin{bmatrix}-0.9 & 0.01 & 0.3 \\ 0.2 & -0.01 & 0.3 \\ 0.7 & 0 & -0.6\end{bmatrix}$

你会发现这个矩阵每一列的元素之和都是 0，所以它一定是不可逆矩阵——三行相加就得到了零行，说明行/列向量线性相关。因此，1 确实是它的特征值，必然存在对应的特征向量。其实也可以说，正是”每列元素和为 1”这个性质，从根本上决定了马尔可夫矩阵一定有特征值 1。性质(2)我们这里就不证明了，但结论是普遍成立的。

现在回到判断次幂运算收敛性的问题。回忆一下之前差分方程中的表达式 $u{k}=A^{k}u{0}$，这就是典型的矩阵次幂运算。我们可以把它展开成特征向量的线性组合：

$u_{k}=A^{k}u_{0}=c_{1}\lambda_{1}^{k}x_{1}+c_{2}\lambda_{2}^{k}x_{2}+\cdots +c_{n}\lambda_{n}^{k}x_{n}$

根据马尔可夫矩阵的特点，$\lambda{1}=1$，而其余 $|\lambda{i}|\lt1$，所以当 $k$ 越来越大时，所有其他项都会趋近于零，最终 $u{k}$ 会收敛于 $u{0}$ 中的 $c{1}x{1}$ 部分。这就是马尔可夫矩阵的稳态性质：在马尔可夫矩阵中，若特征值 1 对应的特征向量元素全为正，并且初始值 $u_{0}$ 也是正的，那么最终的稳态也一定是正值。

这里顺便补充一个关于转置矩阵特征值的重要知识点：

根据之前介绍过的行列式性质，转置矩阵与原矩阵的行列式值相等。把这个性质应用到 $A - \lambda I$ 这个式子上，我们可以得到：

$\left|A - \lambda I\right|=\left|(A - \lambda I)^{T}\right|=\left|A^{T}-\lambda I\right|$

这就说明，当 $|A - \lambda I| = 0$ 时，$|A^{T}-\lambda I|$ 也必然为 0。所以原矩阵和它的转置矩阵具有相同的特征值。不过需要注意，虽然 $A$ 的特征值等于 $A^{T}$ 的特征值，但它们对应的特征向量并不相同，因为它们分属不同的空间。

2.2 马尔科夫矩阵的应用

下面我们来具体研究方程 $u{k + 1}=Au{k}$，其中 $A$ 是马尔可夫矩阵。

我们以研究加州和麻省的人口迁移问题为例。假设 $A$ 是一个 2×2 的矩阵，用来表示一年后的人口迁移情况。矩阵中的元素表示人口留下和迁出的概率，在这个过程中总人口数保持不变，并且我们假设马尔科夫矩阵不变（也就是每年的迁移概率都一样）。给出具体方程如下：

$\begin{bmatrix}U_{加} \\ U_{麻}\end{bmatrix}_{t = k + 1}=\begin{bmatrix}0.9 & 0.2 \\ 0.1 & 0.8\end{bmatrix}\begin{bmatrix}U_{加} \\ U_{麻}\end{bmatrix}_{t = k}$

（中间这个矩阵表示：有 0.9 比例的人口留在加州，0.1 从加州迁移到麻省；0.8 的人留在麻省，0.2 的人迁移到加州。这确实是一个马尔可夫矩阵）

现在我们来分析它的稳态。

假定初始状态是：

$\begin{bmatrix}U_{加} \\ U_{麻}\end{bmatrix}_{t = 0}=\begin{bmatrix}0 \\ 1000\end{bmatrix}$

经过一次迁移之后，两州的人口状况变成：

$\begin{bmatrix}U_{加} \\ U_{麻}\end{bmatrix}_{t = 1}=\begin{bmatrix}200 \\ 800\end{bmatrix}$

计算可得，这个马尔可夫矩阵的特征值为 1 和 0.7，对应的特征向量分别是 $\begin{bmatrix}2 \ 1\end{bmatrix}$ 和 $\begin{bmatrix}-1 \ 1\end{bmatrix}$。

现在我们来看经过无穷次迁移之后，人口状况会达到什么样的稳态。根据之前的公式：

$u_{k}=c_{1}1^{k}\begin{bmatrix}2 \\ 1\end{bmatrix}+c_{2}(0.7)^{k}\begin{bmatrix}-1 \\ 1\end{bmatrix}$

随着 $k$ 增大，$(0.7)^k$ 会趋近于 0，所以只有 $\begin{bmatrix}2 \ 1\end{bmatrix}$ 这一项会保留下来，反映最后稳态时的人口分布状况。代入初始情况计算系数 $c$ 的值：

$u_{0}=\frac{1000}{3}\begin{bmatrix}2 \\ 1\end{bmatrix}+\frac{2000}{3}\begin{bmatrix}-1 \\ 1\end{bmatrix}=\begin{bmatrix}0 \\ 1000\end{bmatrix}$

最后得到的稳态结果就是 $\frac{1000}{3}\begin{bmatrix}2 \ 1\end{bmatrix}$，总人口总数不变，最终分布由 $u{0}$ 中的 $c{1}x_{1}$ 决定。

三、傅里叶级数

3.1 前提基础

在进入傅里叶级数之前，我们先回忆一下有限维空间中的结论。假设我们有一组（$n$ 个）标准正交向量 $q{1}, q{2}, \cdots, q_{n}$，它们构成了 $n$ 维空间的一组完整基。那么这个空间中，任意向量 $v$ 都可以表示为这组基的线性组合：

$v = x_{1}q_{1}+x_{2}q_{2}+\cdots +x_{n}q_{n}$

用矩阵形式表示就是：

$Qx = v$

于是我们可以得到：

$x = Q^{-1}v$

由于 $Q$ 是正交阵，我们之前介绍过正交阵有一个非常好的性质：$Q^{T}=Q^{-1}$，所以上式可以改写为：

$x = Q^{-1}v = Q^{T}v$

对应到 $x$ 的各个分量，我们有：

$q_{i}^{T}v = x_{i}$

其实这个结论也可以直接从 $v = x{1}q{1}+x{2}q{2}+\cdots +x{n}q{n}$ 推导出来。因为式子中的 $q{i}$ 都是标准正交基，满足 $q{i}^{T}q{j}=\begin{cases}0 & (i\neq j) \ 1 & (i = j)\end{cases}$，所以我们在等式两侧同时左乘 $q{i}^{T}$，右边所有 $i\neq j$ 的项都会变成零，只剩下 $x{i}$，同样能得到 $q{i}^{T}v = x_{i}$。

这个结论的意义是什么呢？就是说只要我们有一组标准正交基，要求解向量 $v$ 在各个基上的分量，只需要把 $v$ 和对应的基向量做点乘就可以了，非常方便。

3.2 傅里叶级数

现在我们来看傅里叶级数，它的一般形式是：

$f(x)=a_{0}+a_{1}\cos x + b_{1}\sin x + a_{2}\cos 2x + b_{2}\sin 2x+\cdots$

这个问题和我们刚才讲的”向量在标准正交基下的表示”非常相似，只不过这里拓展到了无穷维的情况，关键性质是函数正交。上述形式就是傅里叶级数，它作用在函数空间上：用函数 $f(x)$ 代替向量 $v$，用正交函数序列代替标准正交基 $q{1}, q{2}, q_{3},\cdots$。在傅里叶级数中，基就是 $1,\cos x,\sin x,\cos 2x,\sin 2x,\cdots$，傅里叶级数能够成立，核心原因就是这些基是两两正交的。

接下来我们分两部分讲解：

(1) 函数空间下的”正交”解释

我们知道，对于两个向量，它们的点积是：

$v^{T}w = v_{1}w_{1}+\cdots +v_{n}w_{n}$

向量可以看作是离散的，而函数在定义域上是连续的。对于两个连续函数而言，对比向量内积的形式，最自然的推广就是对 $f(x)\cdot g(x)$ 在整个区间上积分。由于傅里叶级数处理的函数 $f(x)$ 是周期为 $2\pi$ 的周期函数，所以我们这里积分上下限取从 $0$ 到 $2\pi$。

定义好了函数空间的内积之后，我们就可以验证傅里叶级数中的基确实是正交的——任意两个不同基函数的内积都是零，这和向量空间中的标准正交基性质完全一致。

(2) 系数的求解问题

明白了正交性之后，我们来看怎么求解傅里叶级数的系数。还是和有限维向量的情况类比，方法其实完全一样。

以求解系数 $a_{1}$ 为例，和之前讲过的向量分量求解类似，利用正交性，我们将函数 $f(x)$ 和 $\cos x$ 做内积，可得：

$\int_{0}^{2\pi}f(x)\cos xdx=\int_{0}^{2\pi}(a_{0}+a_{1}\cos x + b_{1}\sin x + a_{2}\cos 2x + b_{2}\sin 2x)\cos xdx$

将 $f(x)$ 投影到 $\cos x$ 这个基上，经过计算，右边所有交叉项积分都为零，只剩下 $\int{0}^{2\pi}a{1}\cos^{2}xdx = a{1}\pi$，这和向量的情况完全一样。所以最终我们得到 $a{1}$ 的值为：

$a_{1}=\frac{\int_{0}^{2\pi}f(x)\cos xdx}{\pi}$

其他系数都可以用类似的方法依次求出。由此可见，傅里叶级数本质上就是一个结论的拓展：任何函数（满足一定条件）都可以展开到一组正交函数基上，这和有限维空间中任何向量都可以展开到标准正交基上是同一个道理。

三、学习感悟

这部分内容的学习重点在于理解。对于马尔科夫矩阵，关键是理解人口迁移模型的应用；而傅里叶级数实际上是将之前向量向标准正交基投影的形式，拓展到了函数向正交函数投影的展开形式。只要理解了正交函数的概念，相关问题就比较容易理解了。