-作者简介-
何剑锋,中国科学院理论物理研究所2023级博士研究生
导师:郭宗宽 研究员
研究方向:引力与宇宙学
从向量到抽象指标记号
“向量” 这一概念最早在高中数学及物理教学中就已被提及,其通常被描述为一个既有大小又有方向的对象,同时其加法满足三角形法则。例如,图1 中的向量 是向量 与 之和。
图1. 矢量求和的三角形法则
向量在高中物理中常常被称为 “矢量”,并且在静力学中也常常利用三角形法则来分析力的合成与分解。通常,使用箭头 或黑体 表示矢量,以区别于普通的数。这种写法中,矢量被视为一种抽象的几何对象。同时,高中的解析几何以及立体几何中,也常常将矢量在一组正交归一的基底下作分解,并用分解系数来表示矢量。例如在三维空间中,可以通过如下方式定义一个矢量
这里 为一组正交归一的基底。如果采用分解系数,那么该矢量也可被表示为
这里我特意使用的了上标 来表示分解系数。此外,在涉及矢量以及后面将要介绍的张量计算时,常常采用爱因斯坦求和约定来简化书写,其约定自动对重复的指标求和。例如,上面的分解可以被写为
在矢量的基础上可以自然地引入对偶矢量。之所以其名称里同样带有 “矢量” 二字,是因为其代数性质与通常的矢量类似。首先,对偶矢量是将一个向量变为一个数的映射。例如,规定 ,那么 便满足了这个要求;其次,该映射还必须是线性的,具体来说,对任意两个矢量 , , 作用于它们之和时,等于分别作用在两个矢量之上再求和,即
目前为止,仅定义了 如何作用于 ,但并没有定义其如何作用于 以及 。为了让 对于任意三维矢量的作用都有良好定义,可以分别定义其如何作用在每个基底 上,这样一来再借助线性性质即可得到 作用在任意矢量上的结果。例如,若定义
那么其作用在 上的结果便可以通过如下方式计算
既然矢量可以被一组基底线性展开,那么对偶矢量是否同样如此呢?答案是肯定的。例如,可以约定一组对偶矢量 (注意,这里的编号是上标),其作用在矢量基底上的效果为
这里的 被称为克罗内克 (Kronecker) 符号,其如果写为矩阵则是单位矩阵。于是通过直接计算可以验证,以上定义的 可以被分解为
于是写为系数则可知 。不难发现,以上定义的一系列计算规则恰好可以将对偶矢量的系数对应为线性代数中的行向量,而将矢量的系数对应为线性代数中的列向量,并且对偶矢量作用在矢量上恰好是行向量与列向量的矩阵乘积,即
在以上表示矢量时,采用了黑体或者箭头来表示其是一个抽象的数学对象,但如此一来就没有合适的符号来标记对偶矢量了。为了将矢量与对偶矢量同时标记为抽象的几何对象,彭罗斯发明了抽象指标记号[1]。其用拉丁字母 , , 等来标记矢量以及对偶矢量,并约定矢量用上标表示,对偶矢量用下标表示,同时成对的抽象指标表示对偶矢量作用于矢量。于是 可利用抽象指标写为 , 可利用抽象指标写为 ,而 可利用抽象指标写为 。抽象指标和通常用来编号的指标 (称为具体指标) 最大的不同在于,对于具体指标 可以谈论 是 , ,还是 ;而对于抽象指标 ,其相当于函数作用后面的那个 “括号”, ,因此不能谈论其具体取值。
有了矢量以及对偶矢量的概念,再结合抽象指标,就可以很容易地理解线性代数意义下的张量了。实际上,将具有不同抽象指标的矢量或者对偶矢量 “放在一起” (严格来说这叫做张量积),就构成了一个张量。一般来说,张量具有多少个不成对的指标,就说该张量具有多少的阶数。例如 是将两个 放在一起构成的一个二阶张量, 是将两个 放在一起构成的二阶张量, 是将 与 放在一起构成的二阶张量。和对偶矢量一样,张量可以作用在矢量或者对偶矢量上从而得到低阶的张量,例如
可以发现,张量作用在矢量或者对偶矢量时,通常伴随着抽象指标的配对,这个过程被称为缩并。在一些比较复杂的计算中,计算张量的缩并很像是在玩连连看,其往往需要在大量指标中找到匹配的指标以判断其缩并的结构。
从线性代数到切矢与张量
在上一节中所讨论的矢量更多是在一个具有固定原点的空间中讨论的,并且这些矢量可以自由地被 “平移”。但另一方面,早在高中数学中就已经提到过切线的概念,于是可自然地想到可以沿这些方向画出一些 “箭头”,并称之为切矢。那么这些矢量和线性代数中的矢量相比有何特殊之处呢?
在高中数学中一个广为熟知的结论是,函数曲线 在某点切线的斜率是其导数 ,于是与矢量 的方向与之平行。推广到三维情形,则对于三维空间中由参数方程确定的一条曲线 ,对每个参数函数求导得到的矢量 与切线平行。于是,对于三维空间中的函数 ,其利用链式法则可以得到其沿该方向的导数为
这里使用了爱因斯坦求和约定。另一方面,从几何直观上来看,“沿某方向求导” 这一操作不应该受到坐标选取的影响,或者说求导的数值在坐标变换下应当保持不变。假设有坐标变换 ,那么由链式法则可知
这里的 被称为雅可比矩阵(Jacobian matrix)。在以上表达式中可以发现, 就像是通常的三维空间矢量的分量,所以如果定义不同的 与 的依赖关系,则可以给出不同的方向导数,或者说给出不同的切线方向以及 “步长”。另一方面,不论 如何选取,偏导数部分的形式以及在坐标变换下的结构总是不变的,因此偏导数的部分就像是通常的三维空间矢量的基底。综合以上两点可以发现,将偏导数算符进行线性组合并作用到函数上便可得到所有可能的方向导数,并且其满足我们所要求的坐标变换关系。因此,那些曲线上的 “箭头” 可以使用偏导数的线性组合来表达,此时它们被称为 “切矢”。可以发现,其与普通的矢量的第一个不同点在于切矢的分量在坐标变换下必须通过雅可比矩阵进行变化,而普通的矢量分量则没有坐标依赖关系。基于这个原因,切矢有时也被称为协变矢量 (covariant vector)。另一方面,通常在微分几何中直接将微分算符称为切矢,因此其可作用在普通的函数上从而得到方向导数,并且满足莱布尼兹律。如果用抽象指标来表述以上结论,则一般的切矢可被写为
并且其在坐标变换后其分量将进行如下变换
和通常线性代数意义下的矢量类似,切矢也有对偶矢量的概念,中文教材中有时将之称为余切矢 (cotangent vector). 通过要求余切矢和切矢的缩并 在坐标变换下不变,可知其分量在坐标变换下的变换性质是和切矢恰好 “相反” 的
余切矢有时也被称为逆变矢量 (contravariant vector). 同时,由于余切矢的基底的变化形式也和切矢相反,并且注意到微分和偏导的变化形式相反,因此通常使用微分记号 来标记余切矢的基底,从而余切矢的分解表达式为
和线性代数的情形类似,将切矢和余切矢 “放在一起” 便可以得到微分几何意义下的张量。其中上标按照切矢进行变化,下标按照余切矢进行变化,在此便不进行赘述。
尽管在大部分情况下抽象指标和具体指标在形式上差别不大,其在在一些需要直接描述几何对象的场合其仍有独特优势。例如,广义相对论中有 “四速度” 的概念,其被定义为时空中观测者世界线的切矢。在宇宙学中,通常用到的坐标系统为宇宙时坐标 与共形时坐标 ,它们之间的转化关系为 ,其中 被称为尺度因子,通常为关于时间的增函数。在宇宙学中讨论四速度时往往考虑的是宇宙时 对应的四速度,即 ,而不是共形时 对应的四速度 。于是, 在宇宙时坐标下的非零为 ,但其在共形时下的非零分量为 。不借助抽象指标时,会容易混淆 与 ,从而得到错误的分量结果。
度规张量,张量场,以及测地线
在以上的讨论中,只涉及了矢量的分解,但并没有涉及其长度。在高中数学中,矢量的长度是由勾股定理确定的
如果定义一个张量 ,那么上面的表达式可以被改写为
一般地,可以允许 为任意的矩阵。不过由于希望矢量的每个分量都被用到,且长度不应该依赖于 和 的顺序,所以要求 可逆且对称。可以看出, 就像是一把测量距离的尺子,因此 被称为度规张量 (metric),并且 的度规被称为欧式度规。若将 取为如下形式
则 的长度为
同时,两个矢量之间的内积也可通过和度规的缩并来定义。例如,矢量 和 的内积可以被定义为 。
当在讨论切矢时,由于空间中的每个点都有一个由切矢构成的空间,因此一般来说,度规张量也可以随空间点不同取不同的形式,这就好比在空间中的每个点都采用不同的尺子来衡量距离。这样在空间每一个点都指定一个张量,就构成了一个张量场。可以说,在广义相对论所用到的微分几何中,绝大多数时候都是在使用张量场而非单一的张量。除了写为矩阵外,在理论物理中还常常借用线段长度的形式来表述度规张量。例如,通常的长度公式为
这里的 表示有限变化。当转向微积分时,长度坐标变化及长度变化都变为无限小,于是
写为度规张量则变为
这一步把距离表达为局域关系。在理解了度规的概念之后可以发现,工科中常用的张量分析其实对应于全局度规为欧式的微分几何。由于空间中每一点的度规均相同,因此许多表达式可以在固定坐标系下进行处理。另一个例子来自宇宙学。在宇宙学中常用的Friedmann‐Lemaître‐Robertson-Walker (FLRW) 度规,其空间部分可以写为
这个度规表明,宇宙就像一个正在膨胀的气球表面,任意两点之间的距离随时间不断增加。同时这也能解释为何宇宙中遥远两点之间的速度可以超过光速而不违背相对论。因为相对论只要求当一个物体飞过另一个物体时它们之间的速度不超过光速。从几何观点来看,其相当于物体的世界线切矢的长度。但由于遥远两点之间相互远离的速度只是一个由度规中的尺度因子 决定的具有速度量纲的量,它并不是相对论中所谈的局域测量的速度。
在给定度规场之后,就可以通过一种自然的方式定义如何将矢量沿给定曲线 “平移”。在通常的欧式空间中,当我们所将矢量沿某一条直线平移时,实际是希望该矢量与该直线的夹角不变。若用 表示被平移的矢量,用 表示直线的方向,则 “平移” 实际相当于要求在每点上 与 的内积 保持不变。换而言之,这里所希望的 “平移” 实际是要求平移后对应的矢量之间的内积不变。从几何直观上来看,如果将矢量沿曲线平移,由于曲线的切线方向一直在改变,因此为了维持矢量和切线的夹角不变,矢量在平移过程中要进行适当的 “旋转” (见图2)。
图2. 矢量在沿曲线平移时会发生旋转
若在求导时考虑了矢量平移时的旋转效果,则称这种导数为协变导数 (covariant derivative),用 来表示。和普通的偏导数相比,对矢量或对偶矢量求协变导数会多出额外的线性组合系数,如
这里的组合系数 被称为克里斯托弗 (Christoff) 符号。该符号的微妙之处在于,尽管其看上去和张量一样具有上下标,但其在坐标变换下的变化性质往往和张量截然不同。限于篇幅,在此便不展开讲述。此外,由于这里对平移作了保内积的要求,因此其可以由度规张量通过以下表达式直接计算
值得注意的是,在一般的微分几何中克里斯托弗符号不一定得依赖度规。
尽管现在定义了矢量如何平移,但由于平移的路径不唯一,因此仍然缺少比较空间上两个矢量的方法。例如,假设地球北极和赤道上各有一座山 (见图3),那么直接将北极上的山沿两点连线平移,那么得到的山仍然是 “竖着的”,无法与赤道上 “横着的” 山比高度,除非手动将其 “旋转” 过来。但另一方面,如果沿着球上的大圆 (即圆心在球心的圆),那么由于矢量在平移时会自然发生旋转,当这座山被挪到赤道时其已经变为 “横着的” 了,于是可以比较它们的高度。其实,球面上大圆的轨迹属于一类被称为测地线 (geodesic)的特殊曲线。直观地来看,如果一个人沿着测地线行进,那么他在每一个时刻的行进方向都是自己 “正前方”。例如,在通常的欧式空间中,始终朝正前方行进将导致轨迹为一条直线;如果一个人乘坐飞机始终向前行进,那么他将绕着一个大圆环绕地球一圈。在微分几何中,通常将测地线上的这一特点概括为切矢沿测地线自身平移。
图3. 将北极处的矢量沿着不同轨迹平移至赤道时会得到不同方向的矢量
最后再来谈谈黑洞。不少广义相对论的科普中都会用一个漏斗状的图案来表示黑洞对周围的时空的扭曲效应。尽管这个图像比较直观,却也造成了相当程度的误解。实际上,黑洞扭曲的是时空,而不是单独的空间。在黑洞的周围,时空度规不再是平直的闵氏度规 ,而是关于时空坐标的非线性函数。注意到这里的分量存在负号,这是闵式度规与欧式度规最大的区别。因此,“漏斗” 只是一个比喻,其更准确的含义应当是强引力场会扭曲其周围的度规,并且改变测地线,从而测地线的空间投影由直线变为曲线。
群表示论中的张量
在前面几节中,已经比较了线性代数与微分几何中的矢量以及张量。然而,在旋转群的表示论中同样会提到 “张量” 一词。群作为一个数学对象,其要求在其上定义有满足结合律的
乘法;其次,其应当有单位元素,其与任意群元素 的群乘法结果仍为 ;最后,每个元素 都具有逆元素,其与 的群乘法结果为单位元素。例如,可以将整数的加法作为群乘法,从而所有整数构成一个加法群,其中单位元素为数字 0,每个元素的逆元素为其相反数。关于群乘法的一个反例是矢量叉乘。由于矢量叉乘不满足结合律,因此其无法被作为群乘法。
在研究群时,除了直接研究抽象的群元素以外,更常用的手段是找到与其具有相同结构的矩阵群。例如,旋转群是理论物理中常见的一种群,其是三维空间中所有保持长度与角度不变的旋转构成的一个群,其也被称为 SO(3) 群,一个绕 轴旋转角度 的旋转矩阵为
将这个矩阵作用在向量 上,就得到旋转后的新向量,这正是 SO(3) 的最基本表示。在这个意义下,三维向量空间本身就是 SO(3) 群的一个表示空间。一般地,用 表示旋转矩阵,则一个三维矢量 ,在旋转变换下其分量会变为
如果将 “向量” 变为 “函数”,就会得到一个更加有趣的例子。考虑定义在球面上的函数 ,当对空间进行旋转时,这个函数将会变为
这一步说明,旋转不仅可以作用在向量上,也可以作用在函数上,于是这个函数空间本身也成为 SO(3) 的一个表示空间。既然这是一个线性空间,就可以尝试寻找一组 “适合旋转” 的基底,使得旋转的作用尽可能简单。球谐函数 正是这样一组基底,它们是角动量算符的本征函数,即
这里的 是作用在函数空间上的角动量算符。球谐函数在这些算符下的性质使得其在旋转作用下的变换具有良好结构:不同的 不会相互混合,而同一 下的不同 会线性组合。于是,设函数 可以展开为
则在旋转作用下,这些系数 会按照某个矩阵 (即表示矩阵) 发生混合。对于固定的 ,指标 的取值为 ,因此这一组系数一共有 个,从而张成了一个维数为 的线性空间。以上变换规律可以概括为
其中 是一个 的矩阵,于是 构成旋转群的 维表示。当 时,这是一个维数为 1 的表示,被称为标量表示;当 时,这是一个 3 维的表示,被称为矢量表示;当 时,这是一个 5 维表示,被称为张量表示;更高的 则对应更高维的表示。对于 的情形,相当于将直乘表示进行了直和分解。例如,对于一个 矩阵 ,其具有 9 个分量,其首先可被分解为对称部分与反对称部分:
其中反对称部分只有 3 个独立分量,可以与一个三维向量对应;对称部分则有 6 个独立分量。对于对称部分 ,还可以进一步拆分出迹的部分和无迹部分
这里 是矩阵的迹;第二项是一个标量乘以单位矩阵,对应 的部分;第一项是对称且无迹的张量,它有 5 个独立分量。因此,一个一般的 矩阵可以分解为
其中 对应对称无迹部分 ( ), 对应反对称部分( ), 对应迹 ( )。于是,SO(3) 群的张量表示实际上就是 矩阵中对称且无迹的部分,它在旋转变化不与其它成分混合,从而构成一个独立的 5 维线性空间。例如,如果 是一个对称且无迹的矩阵,那么 同样是一个对称且无迹的矩阵。
在这个基础上,可以进一步推广到量子力学中的情形。在量子力学中,系统的状态用态矢量 表示,其是希尔伯特空间中的一个矢量。当物理空间发生旋转 时,态矢量会通过一个希尔伯特空间中的算符 变为 。这个算符满足 ,从而构成了 SO(3) 在量子态空间中的表示。更具体地,旋转可以写成
其中 为与旋转轴平行的单位矢量, 是角动量算符。如果选取一组角动量本征态 作为基底,那么在旋转作用下,同一 下的不同态会发生混合
可以看到,这一结构与前面的球谐展开完全一致。事实上,球谐函数正是这些量子态在坐标表象下的表现形式。换句话说,“函数的旋转” 和 “态的旋转” 是同一个结构在不同表示中的体现。
除了与 SO(3) 群相联系的张量外,量子场论中还常常用到与洛仑兹群对应的张量。尽管都是与群表示相联系的 “张量”,在谈到 SO(3) 群的张量时,大多时候是特指其张量表示,其是一个 5 维的线性空间;而在物理中谈到洛仑兹张量时,大多时候默认其是四维时空中的张量,并且每一指标均按照四维矢量的洛仑兹变换进行协变或者逆变。换句话说,洛仑兹张量更像是微分几何中的张量的特殊形式,唯一的区别是将雅可比矩阵换成了洛仑兹变换对应的矩阵。相比三维旋转,洛伦兹群的表示结构更为丰富,其有限维表示可以用两个 “自旋指标” 来标记,通常记为 。不同表示对应于不同的量子场,或者说不同的粒子。标量场对应 表示,如希格斯粒子;旋量场对应 或 表示,如电子;四维矢量场对应 表示,如光子。
计算机语境下的张量
在前面的讨论中,“张量”始终与变换性质密切相关。无论是微分几何中的张量,还是在群表示中出现的张量,它都在特定的变换下具有明确的变化规律,从而构成一些封闭的线性子空间。然而,当把视角转向计算机领域时,“张量” 这个词的含义会发生一次明显的转变。
在机器学习或数值计算中,一个 “张量” 通常只是一个多维数组。例如,一个向量可以看作是具有一个指标的数组,一个矩阵是具有两个指标的数组,而更高阶的张量则是具有三个、四个乃至更多指标数组,这种用法可以在 NumPy、PyTorch 或 TensorFlow 等常用库中看到。在这个语境下,“张量” 强调的是数据的存储方式,而不是其几何或物理意义。一个张量原则上可以存储图像数据、神经网络参数,或者任意数值集合,而并不需要满足任何关于旋转或坐标变换的约束。这与我们前面讨论的张量形成了一个鲜明对比。与之相比,在微分几何中一个张量之所以被称为张量,是因为它在微分同胚变换下具有特定的协变或逆变性质;在旋转群的语境中,一个对象之所以被称为张量,是因为它在旋转变化下构成一个封闭的 5 维线性空间;而在计算机中,这些 “变换规则” 通常并不存在,或者至少不是定义的一部分。
当然,这并不意味着计算机中的张量与前面的理论完全无关。例如在物理仿真中往往可能会构造满足特定变换性质的张量,从而把数学结构引入计算框架之中。但在大多数编程场景下,“张量” 更多只是一个方便的术语,用来指代多维数组这一数据结构。
总结
在高中数学及物理中,“矢量” 被描述成一个 “箭头” 或者一组坐标;在线性代数中,其被理解为线性空间中的元素,并且可以自然地定义出对偶矢量,随后将矢量与对偶矢量放在一起从而得到张量;在微分几何中,矢量被重新理解为附着在点上的方向,也就是切矢,其除了具有线性代数中矢量的线性性质外,还可作用在函数上,并且在微分变换下具有特定的变换性质。
度规张量是广义相对论研究中最常用到的一类张量,其就好比一把尺子,可以将坐标变化转化为物理距离。如果在空间中的每一点都允许放上不同的尺子,便形成了度规张量场,并且度规张量可以帮助理解空间的膨胀以及一些看似反直觉的结果。
当把视线转向 SO(3) 群时,“张量” 一词又呈现出另一种含义。在这个语境中,所关心的是在旋转变换下不变的线性子空间,而 “张量” 一词此时特指的是对应于 的线性子空间,其维数固定为 5. 但在讨论洛仑兹群时,“张量” 一词更接近微分几何中的张量,只是将坐标的微分变换换为了洛仑兹变换。
最后,如果把视角转向计算机科学,“张量” 这个词又会呈现出第三种用法。在机器学习和数值计算中,张量通常只是一个多维数组,用来存储数据或参数,并不附带任何关于变换性质的要求,因而其不是一个具有几何意义的对象。虽然在某些特定应用中会重新引入对称性约束,但在大多数使用场景中这一点往往被弱化甚至忽略。
当我们再次回看 “矢量” 一词时,会发现它已经不再只是一个简单的箭头,而是通往整个现代科学的一扇门。
参考文献
微分几何入门与广义相对论 (上册)},梁灿彬,周彬,科学出版社,2007
微信号|ITP-CAS
开放 交融 求真 创新
· 中国科学院·
· 理论物理研究所·
文章转载自“中国科学院理论物理研究所”公众号
热门跟贴