你是否还记得中学数学里那个熟悉的抛物线y=ax2+bx+c?它的开口方向由a决定,与x轴的交点由判别式Δ决定。这就引出了一个核心问题:如何判断一个多项式的值是恒正、恒负还是有正有负?

本文正是从这个简单的中学问题出发,将视野拓展到更广阔的领域。它展示了如何用矩阵语言来描述多变量的二次函数,并利用特征值、行列式和合同变换等线性代数工具,来解决更复杂维度的“开口方向”和“正负性”问题。

撰文|朱慧坚(广州南方学院数学与统计学院副教授)、丁玖(广州南方学院数学与统计学院教授)

从一元二次函数说起

读过中学的人对实系数二次多项式 = 2 + 2 + 是最熟悉不过的了。 这个函数的图像是站立的抛物线,开口朝上或朝下依二次项系数 大于或小于零 而定。另外,这根抛物线是否完全不碰 -轴,又和另一数有关系:如果 − 2 大于零,则抛物线不碰横坐标轴,这时上述方程没有实数根;如果 − 2 小于 零,则抛物线非穿过 -轴两次不可,两个交点的 坐标分别等于一元二次方程 2 + 2 + = 0 的相异实数根。剩下的情形是 − 2 等于零,此时光滑曲线与 -轴像恋人般“相拥而吻”。看来 2 + 2 + 中三个常数字母构成的表达式 − 2 ,决定了多项式的不同行为;它的相反数被叫做“判别式 ”。注意,在通常初等代数教科书里, (2) 2 − 4 称为判别式 ,但它与这里的判别式仅差正 数因子 4 ,故它们本质上无异。

这些简单的初等知识可以引导人们走向更加宽广的数学世界,帮助理解一系列属于不同学科的新概念,而它们的源头依然是我们最近一直在谈论的线性代数。首先,将上面单变量函数中的一次幂 乘上一个因子 ,然后在常数 后 面乘上 的平方,得到两个变元的齐次二次多项式 2 + 2 + 2 。说它是 “齐次”是因为所有项的次数(各因子变元的幂次数之和)都一样;对于n次齐次多项式,如果你把其中的每一个变元都同时放大k倍,那么整个多项式就会放大kn倍。

为什么要引进如上两个变量的齐次多项式?原因是它可以很自然地用矩阵乘法的语言重新表达。读者马上就能验证如下的恒等式

打开网易新闻 查看精彩图片

如果将上式中的二阶方阵用 表示,二维列向量记为 ,则 2 + 2 + 2 变 成 ,其中上标 代表矩阵和向量的转置运算。

模仿中学代数所问“单变量二次多项式何时恒正,何时恒负,或者有正有 负?”我们问大学代数中的类似问题:“在什么情况下,双变量二次多项式 2 + 2 + 2 的值对所有不全为零的 和 都为正、都为负或有正有负?”

二元二次型的符号判别

下面分别用中学生的方法和大学生的方法求解上述问题。先用初等代数。将二次函数进行恒等变形:

打开网易新闻 查看精彩图片

由上可见,要想左式恒大于零或恒小于零, 必须大于零或小于零。在这个必要 条件下,假设 − 2 > 0 。如果 不为零,那么无论 取什么实数,上面最后一个等号后面方括号内那个表达式大于或等于正数 ( − 2 ) 2 / 2 。此时 2 +2 + 2 在 > 0 时总大于零,在 < 0 时总小于零。若 = 0 ,则对所有的非零数 ,都有 2 + 2 + 2 = 2 全大于零或全小于零,依 > 0 或 < 0 而定。所以,若 > 0 和 − 2 > 0 ,则 2 + 2 + 2 的值除了当 = = 0 外都大于零;若 < 0 和 − 2 > 0 ,则该多项式的值对所有不全为零的 和 都小于零。由于 和 在多项式中的对称性,同理可知, 2 + 2 + 2 > 0 或 < 0 对所有不全为零的 和 都为真的另一个充分条件是 > 0 和 − 2 > 0 或 < 0 和 − 2 > 0 。反过来易见, > 0 , > 0 和 − 2 > 0 或 < 0 , < 0 和 − 2 > 0 也是函数值恒大于零或小于零的必要条件。此外不难看出, 2 + 2 + 2 的值可正可负的充要条件是 − 2 < 0 。

下面用矩阵手段证明同一结论,走一条与本文主题相关的道路,即采用笔者在之前文章中介绍过的“特征值”概念。计算 的特征多项式

打开网易新闻 查看精彩图片

它的两个实数根是

打开网易新闻 查看精彩图片

分别求解齐次线性方程 ( − ) = 0 和 ( − ) = 0 ,算出对应于各自特征值 和 的特征向量(假定 ≠ 0 )

打开网易新闻 查看精彩图片

显见这两个特征向量相互正交,即 = 0 ,这也是上篇文章《》里命题“实对称矩阵对应于相异特征值的特征向量必定正交”的直接应用。设 = 0 ,则 有特征值 和 。无论 和 是否相等,都有正交特征向量

打开网易新闻 查看精彩图片

避开 = 0 这一特殊情形,令

打开网易新闻 查看精彩图片

其中 ‖ ‖ 和 ‖ ‖ 分别为 和 的欧几里得 2 -范数(所有分量平方和的平方根 ) ,则 是正交矩阵,因而它是可逆矩阵且逆矩阵等于它的转置矩阵。由于 / ‖ ‖ 和/ ‖ ‖ 是 分别对应于 和 的特征向量,有 = ,其中对角矩阵

打开网易新闻 查看精彩图片

由此得到正交相似关系 = = −1 。令

打开网易新闻 查看精彩图片

它建立了从 2 到自身的一个双射(即单射和满射 ) 。进行变量替换:

打开网易新闻 查看精彩图片

现考虑第一种情形 > 0 (或 < 0 )和 − 2 > 0 ,即 的第一行第一列元素大于零(或小于零 ) ,且它的行列式大于零。这时,由于 > 2 ≥ 0 ,系数 > 0 (或 < 0 ) 。由特征值 和 的表达式 ( 1 ) ,它们均为正 (或均为负 ) 。故对不全为零的 和 ℎ ,有 2 + ℎ 2 > 0 (或 < 0 ) 。所以对全部不全为零的数 和 ,都有

2 + 2 + 2 > 0 (或 < 0 )。

反过来,如果上式对所有非零向量 [ , ] 都满足,即

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

类似地,代入 [ , ] = [ 0 , 1] 给出 > 0 ( 或 < 0 ) 。由 的特征值 和 的表达式(1)可知,它们均为实数。设 ( = 或 )是 的一个特征值, 为其对应的实 特征向量。将 左乘 = ,得 = ,故 = / 。既然 为正, 便与 同号。所以 的两个特征值(包括重数) 同号。因为它们的积等于 的行列式,故有 − 2 = | | > 0 。

上面的推理过程也让我们明白,第二种假设 − 2 < 0 等价于 和 一正一负,因而 2 + 2 + 2 = 2 + ℎ 2 对某些 [ , ] 为正,对别的 [ , ] 为负。

一般二次型与合同变换

熟悉了二阶实对称矩阵给出的双变量二次型的值域特征,就可对任意阶实 对称矩阵进行一般性的理论探讨。设 = [ ] 为一 阶实对称矩阵,即它所有元素都是实数,且关于主对角线对称分布,即对所有行列指标 和 都有 = 。 下文中的 均为实对称矩阵,不再每次都交代。我们将表达式 称为由 确定的关于 的 矩 阵二次型 ,简称 二次型 ,其中列向量 的分量记作x₁, x₂, … , 。所有这样的 维列向量的全体,按照通常的向量加法和数乘向量运算,构成了欧几 里得空间 ,其中任意两个向量 和 的内积由表达式 ₁ ₁ + ⋯ + 定义。向量 的欧几里得 2 -范数 ‖ ‖ 定义为 与 的内积之平方根。如果两个向量的内积等于零,则说它们是相互 正交 的。

之所以将 称为二次型,是因为乘出后它的代数表达式

打开网易新闻 查看精彩图片

是变量 ₁ , … , 的齐次二次多项式。二次型的用途多种多样,至今仍吸引着研 究者们为之钻研。

“变量替换”是数学中常见的一种把戏,目的不外乎是化繁为简,便于计算。初等微积分里的定积分变量替换法就是众所皆知的一例。对于二次型,这也是获取“标准型”的一条途径。此法的基本思想已经体现在本文前面的二元 例子中。如果让 ∈ 被替换成 ∈ ,当然需要这种替换不仅“简单易行”, 而且“来去自由”。满足这两个要求的非“线性可逆变换”莫属,“线性”使得 运算简单,“可逆”保证往返都行。故令 = ,其中 为一可逆矩阵,然后

= ( ) = ( ) 。

记 = ,则 继承了 的对称性。与矩阵 相关的二次型 变成了与矩阵 相关的二次型 。这时我们说 与 合同 。所有同阶矩阵之间的合同关系是 个 等价关系 ,即:方阵 与自己合同(因为 = ,其中 是单位矩阵 ) ;若 与 合同 , 则 与 合同(因为 = 推出 = ( − 1 ) − 1 ) ; 条件 与 合同及 与 合同隐含 与 合同(因为 = 及 = 隐含 = = ( ) ( ) ) 。

由于在上述可逆线性变换关系下, 同 双双可以穷尽它们所在的基本空间 中的所有向量,所以多元二次函数 与多元二次函数 具有同样的值域,找到其中的一个,也就获得了另外的一个。如果变换 取得特别好,以至于 矩阵 成了一个对角矩阵,那么人们“化简二次型中嵌入的矩阵”之希望就完全实现了。问题是,这个希望有可能落空吗?

答案是“不必担心”,因为实对称矩阵具有与生俱来的优秀性质:它们正交 相似于实对角矩阵。再次回忆矩阵相似的意思:两个同阶方阵 和 称为彼此相似 ,如果存在非奇异矩阵 使得 = −1 。与合同一样,所有同阶矩阵之间 的相似关系也是一个等价关系。

与实对称矩阵常常形影不离的一类实矩阵是“正交矩阵”,它们的每一列都 是单位向量,即欧几里得 2 -范数为 1 ,并且所有列两两正交。或言之,方阵 为 正交矩阵意指 = 。正交矩阵是可逆矩阵,逆矩阵就是其转置矩阵。这样就有此类矩阵的特色双等式: = = 。第二个等式说明正交矩阵的所有行向量也像所有列向量那样构成了 的一个标准正交基。

在相似性等式 = −1 内,如果非奇异矩阵 更上了一层楼升格为正交矩阵 ,那么这个相似关系同时又是合同关系 = !妙就妙在,正如线性代 数教科书中都会摆出来展示的那样,正交矩阵可以出马使得相应的合同关系中的 成为形式最为简单的对角矩阵,其主对角元恰好是 的全部特征值。

现在我们采取拿来主义的方针,将上一篇文章《》中的一个主要结果借来,作为下面继续讨论的出发点。这个结果对更一般的复数域上的埃尔米特矩阵(也叫厄米矩阵,即其共轭转置等于自己的那些矩阵)成立,自然对本文的主角实对称矩阵也情有独钟,因此我们只对实矩阵列出如下的预备知识:

引理.存在正交矩阵 使得

其中 为实对角矩阵,它的 个主对角元均为 的特征值,且相同特征值出现的次数等于该特征值的代数重数(这时等于几何重数,可以简称 重数 了 ) 。

等式 = 的等价形式 = 告诉我们,正交矩阵 的每一列都是 的特征向量,它所属的特征值就位于 的主对角线相对应的那个位置上。如果将 的所有相异特征值排列成 ₁ , ₂ , … , ,则可相应重排 的各列,使得在上述引理中, 可以将与 正交相似的实对角矩阵 的主对角元按照特征值的重数如下排列:

₁ , … , ₁ , ₂ , … , ₂ , … , , … , 。

这样, = 的分块矩阵写法就是

打开网易新闻 查看精彩图片

或可按块写成

= , = 1 , … , 。

我们早已知道,彼此相似的矩阵具有完全一样的特征值,即不仅它们的数值一样,而且其代数重数和几何重数也一样。从正交相似于 的对角矩阵 ,一 眼就可看出 有几个正特征值、几个负特征值、几个零特征值,全部把重数考虑在内。只要知道了正特征值的个数,负特征值的个数就可随即得知,因为这两个非负整数之和等于 的秩。而特征值零的个数则等于 的阶数减去秩。我们继而说明,从 出发,一步就可构造出某个非奇异矩阵 ,使得 = Σ ,其中 Σ 为一特殊对角矩阵,特殊性表现为其主对角元顶多包含三个数 + 1 , − 1 , 0 ,而它们在主对角线上出现的次数恰好是 的正特征值、负特征值、零特征值的个数(重数包括在内 ) 。 的构造如下:

任一实数都可写成它的符号( +1 或 − 1 )乘以它的绝对值的形式。据此,将引理中正交相似等式 = 内的对角矩阵 做进一步的因子分解:

= Σ = Σ ,

其中三因子均为对角矩阵,它们的主对角元如下指定:对 = 1 , … , ,若 的第 个主对角元为非零数,则 的第 个主对角元取为该数绝对值的平方根,而 Σ 的第 个主对角元为 +1 或 −1 ,全依 主对角线上的那个数是正数或负数而定;若 的第 个主对角元为零,则将 的第 个主对角元取为 1 ,而将 Σ 的第 个主对角元取为零。这样就保证了矩阵 可逆。如此的分解给出

= = Σ = ( )Σ() 。

定义 = ,则 = Σ ,同时我们完成了下一个命题的证明。

命题1. 任一 阶矩阵 与某个对角矩阵 Σ 合同,其中 Σ 的主对角元组成 {+1 , − 1,0} 的子集,且主对角元中 +1 和 −1 各自出现的次数分别等于 的正特征值重数之和和负特征值重数之和,而 0 出现的次数等于特征值 0 的重数。

命题 1 中出现的 +1 的次数和 −1 的次数(即 的正特征值和负特征值的各自 总重数 ) ,被分别称为 的 正 惯性指数 和 负惯性指数 ,而 0 出现的次数则等于 的 阶数减去这两个惯性指数之和,它也恰好是 的零空间 () 的维数(有时叫做 的 零度 ) 。上述结果表明,实对称矩阵合同于某个主对角元只可能是 +1 , − 1 和 0 的一个对角矩阵。

西尔维斯特惯性定律

下面问题来了:如果同一个 经过另一个非奇异矩阵 而合同于一个新的对 角矩阵 Σ ,其主对角元只可能包含 +1 , − 1 和 0 ,那么所得的正惯性指数和负惯性 指数会有变化吗?如果有变化,则上一段中所说的“ 的正负惯性指数”就不尽合理,因为这两个指数不能由 唯一确定。

令人放心的是,“ 的正惯性指数和负惯性指数”是定义合理的,因为早在1852 年,“矩阵”一词的创造者、英国数学家西尔维斯特 ( James Joseph Sylvester , 1814 - 1897 )证明了现以他名字命名的“西尔维斯特惯性定律”( Sylvester’s law of i n e r t i a ):

定理1. 的正惯性指数和负惯性指数是 的 不 变量 。换言之,所有与 合同的主对角元只可能包含 +1 , − 1 和 0 的对角矩阵中的 +1 , − 1 和 0 之各自个数保持不变。

定理 1 的证明需要向量子空间直和维数加法关系的一个等式,我们先复习 一下这个等式。如果向量子空间 和 只有零向量彼此共享,则它们的“和向 量空间” + = { + | ∈ , ∈ } 的维数等于 的维数加上 的维数。此时 + 称为 直和 ,记为 ⊕ 。

现在开始证明惯性定律。假设存在两个非奇异矩阵 和 ,使得 = Σ 和 = ,其中两个对角矩阵 Σ 和 的主对角元依次分别为 ℎ 个 +1 , 个 −1 以及 − ℎ − 个 0 和 个 +1 , 个 −1 以及 − − 个 0 。注意到因为在合同变换下,矩阵的秩不会改变,故 ℎ + = + 。我们先证明 ℎ ≤ 。

定义 的两个子空间如下:

既然 : → 是双射,它保持 的任何子空间的维数不变,而子空间 { ∈ | ℎ+1 = ⋯ = = 0} 的维数等于 ℎ ,所以 的维数为 ℎ 。因为 : → 也是 双射,同理可证 的维数是 − 。

任一非零向量 ∈ 可以写成 = ,其中 的后 − ℎ 个分量为 0 。这样,

= ( ) = = Σ > 0 。

类似地,任一向量 ∈ 可以写成 = ,其中 的前 个分量为 0 。这样,

= ( ) = = ≤ 0 。

上面两个不等式的直接推论是 ∩ = {0} 。

根据前述的子空间直和的维数关系, 的维数 ℎ 加上 的维数 − 等于 ⊕ 的维数。因为 ⊕ 的维数总是小于或等于母空间 的维数 ,故有不等式 ℎ + ( − ) ≤ ,即 ℎ ≤ 。同法可证 ≤ ℎ 。所以 ℎ = ,并直接推出 = 。这就完成了对这一经典定理的论证。

的正惯性指数和负惯性指数之差被称为 及其对应的二次型的 符号差 。俄罗斯数学家阿诺德( Vladimir Arnold , 1937 - 2010 )讲过这样一个故事,他曾面 试一位法国应用数学家,问道:“ 的符号差是什么?”这位就数值计算二次 型已发表了数十篇研究论文的专家答不出,嘟哝道:“我编写的电脑程序可以很 快算出随便多大矩阵的符号差,但我的头脑不能像电脑算得那么快。”其实这个 二次型是由矩阵

打开网易新闻 查看精彩图片

确定的。阿诺德想通过这个真实故事来嘲弄一番他眼里的“法国布尔巴基主义 数学家”。我们邀请本文读者替这个倒霉的法国人解答俄国人阿诺德的试题,顺 便向这位已故 15 年的世界著名数学家展示一下中国人的数学思维能力。

如用特征值的术语,上述西尔维斯特惯性定律的等价说法是: 两个同 阶的实对称矩阵具有相同数量的正特征值 、 负特 征 值和零特征值 , 当且 仅当它们是 合同的 。

正定性的判别法:特征值与主子式

回想起在本文开始,我们不厌其烦地讨论了一个初等代数问题 :“ 2 + 2 + 2 在何种条件下,对所有不全为零的 和 值保持为正、为负或正负相 间?”现在,我们已经储备了足够的知识,可进一步对多元齐次二次多项式探讨同一类型的“值域”问题。

一个 阶矩阵 如果满足条件:对所有的非零向量 ∈ ,不等式 > 0(或 < 0 )都成立,则称它为 正定 (或 负定 ) 的;如果对所有的向量 ∈ 都有 ≥ 0 ( 或 ≤ 0 ) ,则称 为 半正定 (或 半 负定 )的;若存在 中的两个向量 和 ,使得 > 0 和 < 0 ,则说 为 不定 的。如下结果清楚表明, 的 特征值的符号可以刻画它的正定(或负定)性和半正定(或半负定)性。

命题2.正定(或负定)矩阵的所有特征值均为正数(或负数 ) ;半正定(或半 负定)矩阵的所有特征值均为非负数(或非正数 ) 。反之亦然。

证明. 首先 的所有特征值都是实数,设 为其中之一, 为对应的实特征向 量。则 = 隐含 = 。若 正定(或负定 ) ,则 = / > 0(或 < 0 ) ,若 半正定(或半负定 ) ,则 = / ≥ 0 (或 ≤ 0 ) 。

反之,设 的所有特征值 1 , … , 为正,则由正交相似关系 = 可知,对角矩阵 的所有主对角元 1 , … , 都是正数。任给非零向量 ∈ ,令 = ,则有

即 是正定矩阵。若 的所有特征值为负、非负或非正,同理可证相应结论。 上述命题的一个直接结果是: 是不定的当且仅当 有正负特征值。此外,正定或负定矩阵因为无零特征值,必定是非奇异的。

在本文前部,我们证明了二阶实对称矩阵是正定(或负定)的充要条件是它的首行首列元素为正(或为负)及它的行列式为正。首行首列元素既是方阵的一阶子方阵,也是它所对应的行列式,而方阵的行列式则是它的第一行第二行以及第一列第二列元素构成的二阶子方阵所对应的行列式。这两个行列式的行和列在方阵中的指标分别从 1 连续增加到 1 或 2 ,因此分别被叫做它的一阶或二阶前导主子式。这样,我们已知的结果用新的术语来叙述就是:二阶实对称矩阵是正定(或负定)的,当且仅当它的一阶前导主子式大于(或小于)零及二阶前导主子式大于零。

这个结论可以推广到 阶矩阵 。对于 = 1 , … , ,由 的第 1 行至第 行与第 1 列至第 列相交处的元素构成的 阶子方阵所对应的行列式称为 的 阶 前 导主子式 。下面的定理 2 用行列式刻画了 的正定性,和上面的定理 1 一样都是 由西尔维斯特发现的;它被称为关于正定矩阵的“西尔维斯特判别法”。

定理2 . 一个实对称矩阵是正定的,当且仅当它的所有前导主子式均为正数。

证明 . 先证必要性。设 为正定矩阵,并令 为 的第 1 行至第 行与第 1 列至第 列相交处的元素构成的 阶子方阵,它显然也是对称矩阵。任给一 维非零向量 ∈ ,在 的所有分量后面添加 − 个 0 ,所得的 维非零向量记为 ,则有

即 是正定矩阵。命题 2 保证 的所有特征值均是正数。另一方面,由于方阵的行列式等于它的全部特征值之积,故有 | | > 0 ,也就是说, 的 阶前导主 子式大于零。

现证充分性。我们用数学归纳法证明:如果 的所有 个前导主子式都大于 零,则 是正定的。对 = 1 ,二次型为二次单项式函数 2 ,显然当 > 0 时,一阶矩阵 [ ] 是正定的。 = 2 的情形本文最前面已经得证。假若定理 2 对 为真,并设分块写出的 + 1 阶实对称矩阵

打开网易新闻 查看精彩图片

的所有 + 1 个前导主子式都大于零;特别地, 阶实对称矩阵 的所有 个前导主子式都是正数,故根据归纳假设, 为正定矩阵。相应地,将非零向量 ∈ +1 写成分块形式

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

将 +1 -1 记为 ,则上式便可写成

打开网易新闻 查看精彩图片

若 +1 = 0 ,则 = 0 ,但因这时 ≠ 0 ,故由于归纳假设, = > 0 。若 +1 ≠ 0 ,则由在下一段里将补充证明的不等式 > -1 ,有

打开网易新闻 查看精彩图片

为了让证明完善,我们用分块高斯消元法证实 − −1 > 0 :用 − −1

左乘分块矩阵(2) 中的第一行,再将结果加到第二行,就得到形如

打开网易新闻 查看精彩图片

的因子分解。两边取行列式,得

打开网易新闻 查看精彩图片

因为 | | 和 || 均为正数, − −1 也应是正数。这就完成了定理 2 的证明。

如果读者想“举一反三”,可能会受命题 2 的“误导”,猜测半正定矩阵 的一个等价说法是“ 的所有前导主子式均为非负数。”这个说法其实是错的, 因为下面的三阶实对称矩阵

打开网易新闻 查看精彩图片

提供了一个反例:这个简单矩阵的三个前导主子式分别是非负数 0 , 0 , 1 ,然而

打开网易新闻 查看精彩图片

上例说明,仅仅要求所有的前导主子式均为非负数,不足以保证矩阵的半正定性,比之更强的条件是所论方阵的全部主子式都是非负数。一般主子式与前导主子式的区别在于,后者的行和列在原矩阵中的指标必须穷尽从 1 到某个 的所有自然数,而前者只需要子矩阵所有行和列在母矩阵中的原先行列指标是全然相同的正整数。下面是用全部主子式表达出的半正定性质之等价条件,因 为它的证明依赖于定理 2 ,我们将它列为一个直接推论:

1. 实对称矩阵为半正定的充分必要条件是它所有的主子式都是 非负数。

证明. 必要性的证明与定理 2 证明中必要性的论证过程大同小异,我们就省略不写了。现证充分性。假设 的所有主子式都大于或等于零。令 为一正数,考虑摄 动后的实对称矩阵 + 。下面我们用定理 2 证明它是正定的。

任取 + 的一个 阶前导主子式,它对应的子矩阵为 + ,其中 是 的对应子矩阵。由假设条件知, || ≥ 0 。通过展开行列式,我们有

打开网易新闻 查看精彩图片

其中 () 为 中所有的 阶主子式之和。由于 的所有主子式也是 的主子式, 故都是非负数,因此 ( ) ≥ 0 。又因为 > 0 ,所以上面 | + | 的表达式说明| + | ≥ > 0 。定理 2 则保证了 + 对任一正数 都是正定矩阵,即对所有的非零向量 ∈ ,

打开网易新闻 查看精彩图片

对上面不等式的两端取 → 0 的极限,得到 ≥ 0 。这证明了 是半正定的。

对于负定矩阵和半负定矩阵,分别有与定理2和系1相似的结果。因为是负定(或半负定)矩阵当且仅当-是正定(或半正定)矩阵,从上述定理2和系1出发就能毫无困难地分别推出对矩阵负定性(或半负定性)的判别法:

2 . 一个实对称矩阵是负定的,当且仅当它的所有偶数阶前导主子式均为正 数,所有奇数阶前导主子式均为负数。

3.一个实对称矩阵是半负定的,当且仅当它的所有偶数阶主子式均为非负数,所有奇数阶主子式均为非正数。

应用掠影:最优化问题与动力系统

到目前为止,我们学到了实对称矩阵及其子类——正定或半正定矩阵的基本性质,读者肯定想知道这些知识在其他学科中有哪些重要应用。老实说,它们的应用例子多如牛毛,尤其在当今的大数据时代。作为一个范例,让我们瞧一瞧正定矩阵的二次型性质怎样用于在机器学习中大放异彩的最优化理论。

在最优化这 门学科,一个函数 : Ω ⊆ → 的 局部极小点∗ ∈ Ω意指,在∗的一个小邻域中,(∗)的值最小,即存在 > 0,使得只要 ∈ Ω满足不等式‖ − ∗‖ < ,就有(∗) ≤ ()。局部极大点的定义与此类似,它们统称为极值点。如果上述不等式对 ≠ ∗是严格的,则可在相应术语前加上“严格”二字。若对所有的∈ Ω都有(∗) ≤ (),则称∗为全局极小点或最小值点。同理可定义全局极大点或最大值点。

当目标函数 在极值点可求导时,极值点 ∗ 的必要条件是它为 的临界点 ,即 ′ ( ∗ ) = 0 。这由导数和极值点的定义立即可得,也从抛物线 = 2 在其顶点(对应于极小点)的切线为水平线的几何直观可见。如果 不可导,恐怕要借用其他分析手段如“凸分析”来获取一个有价值的必要条件了;这里按下不表。

我们更感兴趣的是在可微性条件下极值点的充分条件。上述最优性必要条件提示我们,极值点属于临界点集合。那么,何种性质能确保一个临界点担当起极值点的角色?这时,二次型的理论派上了用处。

我们还是以本文最开始的一元二次多项式函数作先导。令 ( ) = 2 + 2 + 。众所周知,该函数的抛物线图像之顶点坐标为(∗, (∗)),其中∗ =−/ 。在顶点处曲线的切线是水平的,即′(∗) = 0。若 > 0,(∗)是所有 函数值()中的最小值,而当 < 0时,(∗)则是函数的最大值。这是连中学生都知道的事实。如果我们用微积分中的导数概念,就会发现,由于的二阶导数′′() = 2,在的临界点∗处,′′(∗) = 2当 > 0时大于0,当< 0时小于0。改用矩阵二次型的语言重述之,就是说,在临界点∗,当函数的二阶导数值被看成是一阶矩阵时,若它是正定的,则∗是的全局极小点,若它是负定的,则∗是的全局极大点。

现在,我们将上面一元情形直观的事实推广到 元二次多项式

打开网易新闻 查看精彩图片

其中 为 阶实对称矩阵, ∈ , 为一实数。这是非线性规划子领域“二次 规划”中的基本函数,也是逼近一般非线性目标函数的基本工具。简单计算给出′() = + 和′′() = 。这里我们仅给出当为正定或负定时关于极值问题的确切结论。这时,有唯一的临界点∗ = −-1。令 ∈ ,计算函 数值的差

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

然后,前面所得到的二次型性质引出如下的结论:

4 . 若 正定,则(3)式定义的二次函数 有最小值(∗),其中∗ = −-1是严格全局极小点。若 负定,则 在严格全局极大点 ∗ 处达到最大值。

更进一步,当 是半正定的,只要 属于 的值域,满足等式∗ = −的任一个向量∗都是的最小值点,在 是半负定的时候,这样的 ∗ 则是 的一个最大 值点。证明完全与上面如同一辙,不再复述。然而需要强调的是,与正定或负定矩阵情形严格全局极值点是唯一的事实相反,矩阵为半正定或半负定的二次型最优化问题的解一般不唯一,甚至无最优解。此外,读者自然也会明白,倘 若 是不定矩阵,对应的最优化问题则无解,因为此时对某些 ∈ 有 ( ) > ( ∗ ) ,而对其他 出现 ( ) < ( ∗ ) 。这是最优化界人士不愿看到的现象,然而 却是另一门覆盖面广泛的学科“动力系统”的专家们津津乐道的话题。

我们就对这个话题以一个二维梯度向量场为例再说几句。二次型 ( , ) = 2 − 2 对应于不定矩阵

打开网易新闻 查看精彩图片

考虑平面上的线性常微分方程组

打开网易新闻 查看精彩图片

在连续动力系统领域,这个梯度向量场 ∇ ( , ) 的零点 ( , ) = (0 , 0) 称为向量场的平衡点或解 曲线族的不动点 ,它也是函数 的临界点。由于 ′′(0 , 0) 是不定矩阵, (0 , 0) 既不 是局部极小值也不是局部极大值。事实上, = 2 − 2 在 -直角坐标系中的图像是双曲抛物面,其形状像一副马鞍,如下图所示:

打开网易新闻 查看精彩图片

图片来源 :Nicoguaro/wikipedia

双曲抛物面与坐标平面 = 0 的交集是开口向上的抛物线 = 2 ( 故(0 , 0) 是 ( , 0) 的最小值 ) ,而与坐标平面 = 0 的交集是开口向下的抛物线 = − 2 (故 (0 , 0) 是 (0 , ) 的最大值 ) 。正因如此,不动点 (0 , 0) 被几何形象地 赋予“鞍点 ”之名。

这个鞍点对所论微分方程的解有何意义呢?它意味着所谓“稳定流形”和 “不稳定流形”的共同存在性;对此例,稳定流形是 -轴,不稳定流形是 -轴,意思是初始点属于 -轴的解曲线最终将收敛于平衡点 (0 , 0 ) ,而初始点位于 -轴的解曲线将远离平衡点 (0 , 0) 。如下对此加以证明:直接求解初值问题

打开网易新闻 查看精彩图片

其唯一解是

打开网易新闻 查看精彩图片

显然,对 -轴上的任一初始点 (0 , 0 ) ,解 ( ( ) , ( ) ) = (0 , 0 −2 ) 当 → ∞ 时收敛到平衡点 (0 , 0) ,而对 -轴上的任一初始点 ( 0 , 0) ,解 ( ( ) , ( ) ) = ( 0 2 , 0)当 → ∞ 时发散到无穷远。

我们只对多元二次函数的临界点分类小试了二次型理论,此时,函数的二阶导数是个实对称常数矩阵。对一般的非线性可微多元函数的同样问题,人们面临的现实是二阶导数矩阵依赖于函数定义域中点的位置而成为多变量矩阵函数,然而,借助于在临界点处二阶导数矩阵的二次型性质,正定(半正定 ) 、负定(半负定)及不定矩阵仍然是解决问题的关键概念。

上述两例只是浮光掠影地简述了二次型理论在最优化和动力系统中的个别应用,其他领域如控制理论、最优传输、计算几何等,都是一般埃尔米特矩阵谱理论的用兵之处,读者们不妨多留个心眼,说不定哪天你调试的机器学习模型、规划的物流最优路线,甚至手机里信号的精准过滤,背后都藏着二次型悄悄“发力”的身影,这数学世界的小秘密,还等着大家慢慢发掘呢!

完稿于从化温泉镇广州南方学院

版权说明:欢迎个人转发,任何形式的媒体或机构未经授权,不得转载和摘编。转载授权请在「返朴」微信公众号内联系后台。

往期推荐阅读

1、

2

3、

4、

5、

微信公众号:考研竞赛数学(ID: xwmath)大学数学公共基础课程分享交流平台!支持咱号请点赞分享!