如何理解矩阵的特征值问题？|半单|向量|埃尔米特|多项式|特征值|算子

在人工智能与大数据飞速发展的今天，线性代数已成为理工科领域的“重器”。继上一篇关于矩阵秩的探讨之后，本文将视线转向了矩阵理论中应用极为广泛的另一核心领域——特征值问题。

撰文|朱慧坚（广州南方学院数学与统计学院副教授）、丁玖（广州南方学院数学与统计学院教授）

在此前文章中，我们已经讨论了矩阵乘法、矩阵求逆、求广义逆及其在最小二乘问题中的应用。在这篇文章里，我们继续谈论矩阵，不过将重心从算子意义下的逆运算转移到特征值问题。矩阵的特征值问题不仅用途极其广泛，而且其思想的光芒也在其他数学学科内到处闪现，无论是同样有具体内容的常微分方程论，还是比矩阵概念更加抽象的泛函分析，都能看到它的身影。特征值问题对矩阵形状只有一个限制条件：它必须是个方阵，即行数等于列数的矩阵。从之前的文章我们知道，一个行列的实矩阵 = ( ) 是将维欧几里得空间映射到维欧几里得空间的线性算子，它把中的每一个向量 = ( 1 , … , ) 变换到中的一个向量 = ( 1 , … , ) ，其中

如果将和都写成列向量的形式，上面从到的对应关系即为 = 。

从现在起我们只考虑方阵，即假设为一个行列矩阵，或言之，是一个阶方阵（也称阶矩阵）。如此， = 和都属于同一个空间，这样我们就可以对它们进行比较。而在任何学科的特征值问题中，这种比较是通过相等关系来刻画的。通常规定，两个向量相等是指它们的分量个数（也叫做它们的维数）相等，且对应的分量都相等。

复数域上的特征值

现在定义矩阵特征值问题：对于给定的阶方阵，如果存在数和非零向量 ∈ ，使得等式

= λ

成立，则称为的一个特征值，为的对应于特征值的一个特征向量。请读者注意，特征值可以是 0 ，也可以不是 0 ，然而特征向量绝不能是零向量。道理很简单，因为当 = 0 时，等式两端恒等于零向量，所有的数都满足特征值方程，就没有“特征”可言了。因此，为了避免这种平凡的情况，满足特征值问题等式的那个向量不应该是零向量。

但是这里的定义好像隐藏了一个问题。上面的叙述继承了我们之前文章中的一个约定做法，只假定矩阵的所有元素都是实数，因而它定义了线性算子 : → ，也就是说对所有的向量 , ∈ 及所有的实数和，都有

( + ) = + 。

现在问题来了，既然矩阵和向量都是定义在实数域上，似乎很自然地希望特征值也应该属于同一个实数域。读者可能要问，在这个看似合理的要求下，矩阵是否总存在至少一个特征值。我们先来看一个直观易懂的例子。

设想我们把 − 平面上的每个向量都围绕坐标原点按逆时针方向旋转 90 度。这是将 2 映到 2 上的一个线性算子。因为每个非零向量都旋转了一个直角，故它们当中不可能有向量旋转成同一方向或相反方向的向量，所以这个实域上的旋转算子不存在实特征值，在几何上看是显而易见的。若用代数的方法解释这个现象，不用高中平面解析几何的坐标旋转公式，而用我们一直提倡的算子思想，很容易写出该旋转所对应的 2 阶方阵：这个 9 0 度的旋转将向量 (1 , 0 ) 旋转到向量 (0 , 1 ) ，而把向量 (0 , 1 ) 旋转到向量 (− 1 , 0) 。因而这个旋转算子由矩阵

表示。我们来检查是否存在实数和非零实向量 ( , ) 使得

上述方程等价于联立线性方程组 − = λ 和 = 。由此得 = − 2 。若 ≠ 0 ，则 2 + 1 = 0 ，它在实数范围内没有解。若 = 0 ，因 ( , ) ≠ (0 , 0) ，则 ≠0 。同样的代换逻辑用在上（ = − 2 ），也导出 2 + 1 = 0 。所以上述旋转矩阵在实数域内不存在特征值，自然也没有对应的特征向量了。

即便是从前没有学过矩阵理论的读者，也可能已经想象出了走出困境的方法：在复数范围里求解特征值问题，理由是 1806 年被业余数学家阿尔冈（ Jean-Robert Argand ， 1768 - 1822 ）首次无漏洞证明的代数基本定理“非常数单变量多项式至少有一个复数根”。（在这之前多位著名数学家如欧拉和拉格朗日都给出了漏洞不一的“证明”，其中“数学王子”高斯（ Carl Friedrich Gauss ， 1777 - 1855 ）于 22 岁时放进其博士论文的证明漏洞最小，但其中的“拓扑漏洞”要等到 121 年后才被一位 27 岁的俄罗斯数学家奥斯特罗夫斯基（ Alexander Markowich Ostrowski ， 1893 - 1986 ）完全填补，从中可见复数的神秘、深奥和魅力。）

所以，从现在开始，我们在复数域上研究矩阵特征值问题。令为一个阶复方阵，即的每个元素都是复数。自然每一个实矩阵也是复矩阵。将维欧几里得空间中的实向量的每个实数分量换成复数，得到的向量空间称为维酉空间，记成，其中两个复向量 = ( 1 , … , ) 和 = ( 1 , … , ) 的内积定义为

这里的两个向量和都被看成为列向量，上标记号“ ∗ ”表示对矩阵实施的 “ 共轭转置 ”运算，即将矩阵转置（行变成列）后的所有元素求其共轭复数。酉空间由上述内积诱导出的 2 -范数也称为酉范数。和欧几里得空间中的正交概念相仿，在酉空间里，如果向量和的内积为零，即 ∗ = 0 ，则说它们是彼此正交的，用符号 ⊥ 表示。

给定的阶复矩阵定义了线性算子 : → 。如果存在一个复数和非零复向量使得 = z ，则称为的一个特征值，而为的与特征值相关的一个特征向量。

回到刚才考虑过的 90 度旋转矩阵，它被视为把 2 维酉空间 2 映到自身的复域上的一个线性算子。与之前只考虑实数域情形不一样的是，此时，特征值方程 2 + 1 = 0 在复数域中有两个根和 − ，因此这个被看成复方阵的 2 阶实方阵有且仅有两个特征值。此外，这两个虚数特征值还彼此共轭。通过求解对应于的线性方程组 − = i 及 = 和对应于 − 的线性方程组 − = − 及 =− ，我们获得与特征值相关的一个复特征向量 (1 , − ) 及与特征值 − 相关的一个复特征向量 (1 , ) 。仔细观察后，又一个现象出现了：对应于相异特征值的特征向量 (1, −) 和 (1 , ) 彼此正交。我们将在下一篇文章中解释为什么。

再一次检视上段两组关于 2 维特征向量两分量和的方程，容易发现，它们都是齐次线性方程组，即如果将它们分别改写成“标准形式”，就是

+ = 0 , − = 0; − = 0 , + = 0 。

这类方程组有个好性质，即如果 ( 1 , 1 ) 和 ( 2 , 2 ) 都是方程组的解，则它们的所有“线性组合”也是同一个方程组的解，即对任意复数 1 和 2 ，向量

都满足该方程组。由此推出，虽然只有两个特征值，但每个特征值都率领了由无限多个士兵组成的特征向量队伍。这说明，对应于同一个特征值的所有特征向量全体，再插进零向量，这个集合将构成一个向量空间。因为如此构造的向量空间是 2 的子集，它被叫做 2 的子空间。

特征多项式与凯莱-哈密尔顿定理

熟悉了上面这个简单例子，我们就可以讨论一般矩阵特征值问题的基本性质。设 = ( ) 为一阶复矩阵。根据特征值问题的定义。复数是方阵的一个特征值意味着关于未知复向量的方程 = 有非零解。将这个方程改写成与之等价的齐次方程形式

( − ) = 0 ，

其中是阶的单位矩阵，运用以前学过的矩阵是否可求逆的语言（参见我们的《返朴》文章《》），我们便可得知，是的特征值当且仅当矩阵 − 是无逆可求的（因为由特征值的定义，是的特征值等价于性质“算子 − 不是单射”，因而它的逆矩阵不存在）。而矩阵无逆的一个简单判别准则就是它的行列式等于零。方阵的行列式一般简洁地写成 | | 或 det ，其中的 det 是英文单词 determinant （行列式）的前三个字母。这样一来，我们获得是的特征值的一个充分必要条件：

定理1.复数是方阵的特征值当且仅当 | − | = 0 。

那么，若是阶的，会有多少个满足定理 1 中的等式呢？要回答这个问题，我们用取代 ,将上面定理中的等式变成含有未知数的方程

| − | = 0 。（ 1 ）

根据定理 1，方程（ 1 ）的所有解给出的所有特征值。那么到底有几个解呢？前面我们对平面上的一个 2 阶旋转实矩阵证实了它有两个特征值，我们再考察一般的 3 阶复矩阵（注意其 ( 3 , 3 ) 元素不是虚数单位）

它所对应的特征值方程是

假定大家知道怎样计算三阶行列式，那么上述方程的左端展开后变成

其中 Tr ( ) = + + 是的主对角线元素之和，称为的迹。因为这个三次多项式顶多有三个相异的复数根，故顶多有三个不同的特征值。如果记入重根的重数，恰好有三个特征值。每个特征值作为多项式 | − | 之根的重数（或| − | 在复数域上的因式分解中相应线性因子的幂指数）称为该特征值的代数重数。

上面对三阶矩阵的结论可以直接推广到阶矩阵。此时，由行列式的经典定义或等价的按行或按列拉普拉斯展开计算公式，易见行列式 | − | 展开后是变量的阶复系数多项式，故根据代数基本定理，多项式方程 | − | = 0 至多有个相异复数根，它们就是的所有相异特征值 1 , … , 。如果考虑到根的重数，就恰好有个根，因此阶矩阵恰好有个（可以相同的）特征值。设

为 | − | 的唯一线性因式分解，则对 = 1 , … , ，线性因子 − 的幂指数称为特征值的代数重数。直接展开| − | ，考虑到 −1 项只能来自主对角线元素的乘积，我们可以发现该项的系数为 − Tr () ，其中 Tr () 是的主对角线元素之和，叫做的迹；常数项为 ( −1 ) | | 。另一方面，根据多项式根与系数关系的韦达定理，对比同次项系数可知，按代数重数计（允许重复），所有特征值之和等于Tr()，所有特征值之积等于||。确定特征值的多项式 | − | 被命名为方阵的特征多项式，而对应的方程 | − | = 0 则称为的特征方程。

方阵的一大好处是它可以代入一个多项式，即若 ( ) = 0 + 1 + ⋯ + 是一多项式，则定义 ( ) = 0 + 1 + ⋯ + 。矩阵论中最著名的定理之一是如下的

凯莱-哈密尔顿定理：设方阵的特征多项式 | − | 为 () ，则 ( ) = 0 。

这个定理是深入研究矩阵特征值问题的基础，或许可以称它为“矩阵特征值问题基本定理”。凯莱（ Arthur Carley ， 1821 - 1895 ）开创了矩阵时代，而爱尔兰数学家哈密尔顿（ William Rowan Hamilton ， 1805 - 1865 ）则是四元数之父。

美国数学普及家贝尔（ Eric Temple Bell ， 1883 - 1960 ）在巨著 Men of Mathematics （《大数学家》）中描绘了哈密尔顿的晚景：

“ 哈密尔顿于 1865 年 9 月 2 日因痛风去世，享年 61 岁。去世后，人们发现他留下了大量杂乱无章的手稿，以及大约 60 本厚重的数学手稿。目前，他的著作正在编纂成册。从他手稿的状况可以看出，他生命最后三分之一的时间里，家庭生活十分艰辛：无数盛着干瘪肉排残渣的餐盘被埋在堆积如山的纸张中，还有足够一家人使用的餐具从杂乱的纸张中被翻了出来。 ”

2008 年，杨振宁先生提到他少年时所读到的这个凄惨故事，表示他绝不能像哈密尔顿那样在太太离世后过“相当漫长的孤独生活”。这样的坚定信念给他带来了堪称幸福的二十年晚年生活。

几何重数与代数重数的关系

现在我们转向探索，当方阵的一个特征值已知后，怎样求出它所对应的全部特征向量。根据特征向量的定义，所有满足齐次线性方程组

( − ) = 0

的非零向量 ∈ 组成了矩阵与特征值相关的特征向量全体。根据线性方程组的解理论，这个集合和零向量单点集 { 0 } 的并集是的一个子空间，称为对应于特征值的特征子空间。试问，这个向量空间到底有多大呢？或者更精确地说，它的维数等于几？

让我们回忆与矩阵相伴的几个重要概念。设为一行列复矩阵，它的个列向量所张成的的子空间称为的值空间或列空间，记为 ( ) ；它的个行向量所张成的的子空间称为的行空间。我们在《返朴》最近推出的文章《》中已经证明：矩阵的值空间 ( ) 的维数等于的行空间的维数，这个共同的非负整数称为的秩。在一般的线性代数教科书中，的秩被等价地定义为的非零子行列式（也叫的子式）的最大阶数。作为线性算子，矩阵的定义域中被映射到中零向量的那些向量的全体是的一个子空间，称为的零空间，记作 () 。在前述的文章中我们已经证明：的零空间的维数加上的值空间的维数等于的列数。

零空间的概念马上让我们知晓，与方阵的特征值相关的特征子空间恰恰就是奇异矩阵 I − A 的零空间。我们把 ( I − A ) 的维数称为特征值的几何重数。这样，的任何特征值既有代数重数，也有几何重数，前者来自特征多项式的因式分解，显示出特征值的代数特色，后者来自特征子空间的尺寸，量化了特征向量群体的几何维度。那么，它们之间是否具有永恒的大小关系？

是的，同一个特征值的几何重数总是向上“仰视”代数重数的，即它小于或等于代数重数。下面是一个满足“小于”关系的简单例子。令

注意它是非对称的实矩阵，其特征多项式为

故仅有一个相异特征值 0 ，其代数重数为 2 。为了得到 0 的几何重数，我们求解方程对应于特征值 0 的特征向量方程组 (0 − ) = 0 ，所得到的特征子空间(0 − ) 是 2 的一维子空间 {( , 0 ) : ∈ } 。故特征值 0 的几何重数等于 1 ，它确实小于代数重数 2 。

当然也有矩阵，其特征值的几何重数就等于代数重数，最简单的例子莫过于将上面 2 阶矩阵中的右上角元素换成 0 而成为零矩阵，它的特征多项式依然是 2 ，但对应于唯一特征值 0 的特征子空间则是全空间 2 ，因此几何重数和代数重数均为 2 。后面我们将给出保证两个重数相等的一个一般性的充分条件。运用本文以及我们之前文章引进的概念和方法，下面对任意方阵给出“几何重数不大于代数重数”的一个易懂证明。设阶方阵的特征值的几何重数为，代数重数为。令 1 , … , 为特征子空间 ( − ) 的一个基底（即 1 , … , 线性无关，且它们共同张成 ( − ) ；前者意指只要 1 , … , 的某个线性组合 1 1 +⋯ + = 0 ，必定有 1 = ⋯ = = 0 ，后者说 ( − ) 内的每一个向量都可以写成 1 , … , 的线性组合形式）。则可在中取 − 个线性无关的向量 +1 , … , ，使得将它们放在一起的个向量 1 , … , , +1 , … , 构成的一个基底。以它们为列向量形成一个阶方阵 = [ 1 , … , , … , ] ，则它是可逆矩阵，其逆矩阵 −1 满足等式 −1 = 。由于行列式保持矩阵的乘积运算不变，我们也获得对应的行列式等式 | −1 || | = | −1 | = | | = 1 。

定义新矩阵 = −1 U 。则由

可知和有相同的特征多项式。现在，

又因为 −1 = −1 [ 1 , … , , … , ] = = [ 1 , … , , … , ] ，我们进一步有

只要把上式中的最后那个按列划分的矩阵按前行和后 − 行进行分块，使之成为一个 2 × 1 阶块矩阵，其上面那块的左边是个阶对角矩阵，其中是阶单位矩阵，那么我们就看出 −1 实际上具有 2 阶块上三角形状，即

其中子矩阵和分别是的子矩阵 [ −1 +1 , … , −1 ] 的上下部分。这样一来，

既然 | − | = | − | ，而 ( − ) 是 | − | 的素因子分解中所有线性因子 − 的乘积，必然 ( − λ ) 要整除 ( − ) ，故得结论 ≤ 。

由于上述结论在矩阵理论中的重要性，我们把它写成定理的形式：

定理2.设是一个方阵的特征值，则它的代数重数大于或等于它的几何重数。

当矩阵的特征值具有相等的代数重数和几何重数时，我们称这个特征值是半单的，特别地，如果代数重数等于 1 （此时几何重数也必定等于 1 ，因为特征子空间至少是一维的向量空间），则说此特征值是单的。我们在文章的后面部分将给出半单特征值在“简化”矩阵结构的行动中所起的关键作用。

矩阵可对角化的充要条件

我们继续讨论特征值的基本性质。首先我们证明，对应于给定方阵不同特征值的特征向量线性无关。为了给出证明的思想，我们只考虑三个特征向量的情形。设 1 , 2 , 3 为阶方阵的相异特征值，其各自对应的特征向量分别为 1 , 2 , 3 。我们要证：假如有三个复数 1 , 2 , 3 满足 1 1 + 2 2 + 3 3 = 0 ，则这三个数全部为零。欲证 1 = 0 ，将矩阵 ( 2 − )( 3 − ) 左乘上式两边，便得

即 1 ( 2 − 1 )( 3 − 1 ) 1 = 0 。因为 1 为非零向量且 ( 2 − 1 )( 3 − 1 ) ≠ 0 ，故 1 = 0 。同理可证 2 = 0 和 3 = 0 。用同样的手段就能证明一般性的结论：

定理3.设 1 , . . . , 为一个方阵两两不相等的特征值，其对应的特征向量分别是 1 , . . . , ，则 1 , . . . , 线性无关。

有了定理 3 作后盾，就容易推出如下的事实：假设阶方阵的所有相异特征值为 1 , . . . , 。对 = 1 , … , ，如果 1 , … , 为特征子空间 ( − ) 的一个基底，那么向量 11 , … , 1 1 , 21 , … , 2 2 , . . . , 1 , … , 线性无关。

现在进一步假定这些特征值 1 , . . . , 都是半单的，即对 = 1 , … , 都有 = ，其中和分别为的几何重数和代数重数。那么显然有 1 + 2 + ⋯ + = 。因为维向量空间中的任何个线性无关的向量都提供了这个空间的一个基底，故在所有特征值均为半单的条件下，特征向量集

是维酉空间的一个基底。这个基底有什么实用的价值吗？

价值之一是它可以用来“化简矩阵”！矩阵既然是数组，其非零元素就可能稠密分布，拥挤不堪，令人眼花缭乱，比如大数学家希尔伯特（ David Hilbert ， 1862 - 1943 ）于 1894 年引进的“希尔伯特矩阵”，它的第行第列元素是 + − 1 的倒数，所以这是个处处没有零元素的“最稠密矩阵”。数学能将复杂对象像变魔术一样化简到一目了然，而好的数学演讲者能将复杂理论解释得如水晶般透明。如果有个办法能让手中的一般矩阵摇身变为元素几乎全为零的对角矩阵，而保持原先矩阵的主要性质不变，那可是一件再好不过的事了。

对所要化简的阶方阵，只需一个条件，即它所有的特征值 1 , . . . , 都是半单的，我们就能完成使命。分别对应于 1 , . . . , 的各特征子空间的基底组成了由（ 2 ）式排列而成的基底。以这些特征向量按（ 2 ）的次序为列构造阶方阵，则它是非奇异矩阵。由

我们发现 −1 是对角矩阵，它的对角元素从左上到右下依次是 1 个 1 ， 2 个 2 ，等等，直到个。这样，我们证明出了矩阵的一个“对角矩阵标准型定理”：

定理4.令 1 , . . . , 为阶方阵的所有相异特征值，并设它们都是半单的。则存在阶非奇异矩阵使得 −1 = 为一阶块对角矩阵，其对角块依次是

两个同阶方阵和，如果满足关系 −1 = ，其中是某个非奇异矩阵，那么我们就说与是“ 相似 ”的，有时如同中学平面几何教科书上表示两个三角形相似的符号那样写成 ∼ 。定理 4 表明，所有其特征值均为半单的矩阵相似于一个对角矩阵，它的对角元素由这些特征值按各自的重数一一排列。一个特殊的情形是，阶矩阵有个相异的特征值，这时一定相似于某个对角矩阵。

如果一个矩阵与一个对角矩阵相似，我们则说它是“ 可对角化 ”的。上面的定理 4 提供了可对角化矩阵的一个充分条件。反过来，只要给定的矩阵相似于一个对角矩阵，则它的所有特征值都是半单的。事实上，设是一对角矩阵，其对角元素为 1 , . . . , （彼此可以相同），且 = [ 1 , . . . , ] 是一非奇异矩阵，满足 −1 = 。则前式等价于 = 。对矩阵等式

按列写出，就是 = ， = 1 , … , 。换言之， 1 , . . . , 是矩阵分别对应于特征值 1 , . . . , 的特征向量。既然这个线性无关的特征向量组成的一个基底，的所有相异特征值都是半单的。到此，我们论证出了如下的“等价性定理”：

定理5.一个方阵可对角化当且仅当它的所有相异特征值都是半单的。

相似矩阵的性质与埃尔米特矩阵初探

与三角形一样，矩阵之间的相似关系是个“ 等价关系 ”，即（ i ）每个方阵与它自己相似，这时建立相似关系的矩阵就可取为单位矩阵；（ ii ）若与相似，则与相似，这是因为 −1 = 隐含 = −1 = ( −1 ) -1 −1 ；（ iii ）若与相似且与相似，则与相似，道理是 −1 = 和 −1 = 推出

−1 −1 = −1 = ，

因此 ( ) -1 () = 。

相似的矩阵同样具有许多共同的性质，就好比双胞胎不仅外貌酷似，连性情也往往相投。前面已经说过，如果 ∼ ，那么 | − | = | − | ，即它们有完全一样的特征多项式，所以它们不仅有一模一样的特征值，而且每个共同的特征值的代数重数也一样。但是它们的几何重数会有不相等的危险性吗？

答案是否定的。我们只需验证对每一个特征值，这两个相似矩阵各自对应的特征子空间之间存在一个自然得体的单射加满射关系（称为双射）。由于 ∼ ，存在非奇异矩阵使得 = −1 。简单计算给出 = 当且仅当

( −1 ) = ( −1 ) 。若将 −1 写成，则 ∈ ( − ) 当且仅当 ∈ ( − ) ，由此，是与相关的特征向量等价于 −1 是与相关的特征向量。因为 −1 是可逆算子，它建立了 ( − ) 和 ( − ) 之间的一一对应。特别地，特征值关于的几何重数等于关于的几何重数。

然而，正如前面的简单例子所显示的，并非方阵的每个特征值都是半单的。事实上，只要有一个特征值是非半单的，矩阵就不可能对角化。在这个最一般的非半单特征值情形下，人们退而求其次，引进了所谓的“广义特征向量”的概念，犹如当矩阵无逆可求时可以寻觅“广义逆矩阵”（参看我们之前在《返朴》发表的文章《》）。披在广义特征向量身上的外衣是世界品牌“若尔当标准型”，它比半单特征值旗帜下的对角矩阵标准型只多了一条与主对角线平行、含有非零元素的次对角线，却具有丰富多彩的数学内容。未来有机会时我们将集中讨论若尔当标准型。

不过，有好几类矩阵不会让我们担心，因为它们都可对角化，其中的一类长相最漂亮，叫埃尔米特矩阵类，其中的每个矩阵满足等式 ∗ = ，即的共轭转置矩阵就是它自己。埃尔米特（Charles Hermite，1822-1901）是法国数学家，他第一个证明了自然对数的底2.71828 ⋯是超越数。在元素全是实数时，埃尔米特矩阵就是更易识别的实对称矩阵，即=。任给埃尔米特矩阵，对应于不同特征值的特征向量不仅如上所证线性无关，而且更进一步地“两两正交”。酉空间中向量的内积此时派上了大用场。然而，我们只能在后一篇文章中仔细地品味这类矩阵更多的几何特性。

在下一次详细讨论埃尔米特矩阵前，我们考察一个 2 阶实对称矩阵的特征值问题，所取的矩阵有个在“数值代数”中最得宠的学名叫 Householder 矩阵（也叫反射矩阵； Alston Scott Householder （ 1904 -1993 ）是美国数学家，他最广为人知的数学发现就是这种形式简单、极其有用的埃尔米特矩阵 = − 2 ∗ ，其中的酉范数等于 1 ；他的著作《数值分析中的矩阵理论》是一部写法独特的经典之作），如下所示：