
Celeio
2022/09/01阅读:97主题:自定义主题1
一个重要的矩阵指数恒等式
一个重要的矩阵指数恒等式的证明以及矩阵函数行列式的导数
今天朋友向我询问了这样一个公式的导出:
其中 是一个矩阵. 具体是问如何由第一行得到第二行. 为了清楚起见, 将上面的第二行做个改写:
这里将去除冗余对称性的 操作略去了. 如果令
那么他问的这个式子其实就是要证明下述恒等式:
这个式子我之前曾经见到过, 但是确实没有看到相关的证明. 需要说明的是这个式子在物理学中还是很常见的, 在场论、量子信息(和量子计算)和凝聚态理论中都会碰到, 不过我自己做的和这些关系都不大, 所以从来没有用到, 因而对此印象也不是很深刻. 于是借这个机会弥补一下这个漏洞.
接下来我们用 表示数域 上的 矩阵的全体. 用 表示数域 上可对角化的 矩阵的全体. 符号 表示一个对角元为 的 阶对角矩阵.
众所周知, 指数函数可以通过幂级数进行定义:
这个幂级数对于任意的 都是收敛的. 考虑到 本身构成一个代数(即定义了数乘的环), 在它上面有着自然的元素乘法, 数乘和加法, 于是我们可以尝试对任意的 定义
在泛函分析中, 可以证明, 在一定的范数下上式右边对任意的矩阵 都是收敛的, 于是我们可以进行这样的定义. 考虑到当 退化为数量阵 的时候这个矩阵幂级数就变成了 , 我们就将这个幂级数收敛的结果记作 . 这就是矩阵指数. 在表示论当中, 它有着重要意义, 并且泛化为更一般的指数映射, 不局限于有限维的矩阵, 也可以针对一般无穷维空间上的线性算子等. 具体的细节可以参考我群论系列笔记中李群及其李代数的基本理论这一篇. 或者参考其它讲述群表示论的教科书.
矩阵指数的一个最基本的特性就是由于矩阵的不可交换特性, 指数函数本身特有的对易性也消失了. 也就是说原本指数函数满足
但是对于矩阵指数而言, 此时
一般也不能用 去算. 这里面涉及很麻烦的东西, 不过一个特殊的情况就是 , 即 对易的情况, 此时指数函数 满足的一切性质 , 也都满足, 即有 . 关于 不对易的情况, 前文提到的我的群论笔记中提到了一些, 还有一些可以在喀兴林的《高等量子力学》一书中找到. 读者也可以在Brain. C. Hall的那本讲群表示论的书中找到更为详细的讲解. 不过这里我们用不到这些细节. 我们只用一个特例: 显然和 自身对易, 于是
这里 是用 替换函数 的自变量后得到的矩阵函数(称作泛函演算或者矩阵演算, 相关内容可以在之后我会发布的当泛函分析遇见量子力学系列文章中读到严格定义). 比如说 , 则 , 而 可以用
定义, 或者将 的级数展开式中将 换成 .
现在我们设 . 则我们可以写出 的分量为(注意本文不采用爱因斯坦求和约定)
其中 是Kronecker符号. 于是
利用数学归纳法, 立刻可以证明
换言之,
利用这个关系式, 我们就发现
换言之, 对角矩阵的指数矩阵就是对角元素取指数后对应位置排布得到的对角矩阵. 这是所有矩阵指数中最好算的一个, 也是很多时候我们处理问题的出发点.
假设 , 即 是可对角化的 阶矩阵, 于是就存在一个对角阵 和一个可逆矩阵 使得
于是
换言之, 可对角化矩阵的指数矩阵可以通过标准的线性代数流程得到: 先求特征值得到对角阵 , 然后找特征向量, 按照 中特征值的顺序排列特征向量得到可逆矩阵 , 接下来只需用上面这个公式就能很容易算出 了.
不仅如此, 在这种情况下, 式也能很容易得到证明. 因为矩阵的行列式是交换的, 即 , 因此
而我们知道对角矩阵的行列式是对角元素的乘积, 于是
另一方面, 我们又知道矩阵的特征值之和等于矩阵的迹, 即
于是
这个恒等式非常巧妙地联系起了矩阵的行列式和迹, 要知道矩阵的行列式是一个超级难算的东西, 这个式子使得我们可以直接用对角元来计算行列式. 假定在某种情况下矩阵仍旧满足指数函数的性质 , 即对某些矩阵 有 , 那么 就指出
当然, 这个式子并没有简化问题, 因为 其实不好求(毕竟得用级数去算), 因此, 更多情况下还是直接使用 式, 这是因为表示论中天生就有指数映射这个核心工具, 我们遇到的大多数情况下还真就是矩阵指数.
如果对 两边同时取对数, 立刻就得到了
这也就是前面我需要去证明的 式了. 当然, 这个证明的缺点在于它只适用于可对角矩阵, 对于不可对角矩阵这个证明就不成立了. 一个自然的做法就是用可对角矩阵去逼近任意矩阵, 事实上, 数学上可以证明:
定理: 在 中稠密.
稠密的重要意义我在这篇文章中大致提到过了, 即 的闭包就是 , 或者说对于任意的复矩阵 , 存在一族可对角化矩阵 使得
这个收敛是在矩阵范数
下定义的, 其中右边的范数是向量的范数(姑且理解为常规意义上的转置取共轭后和自己自乘, 即 ). 于是现在对于任意的 , 我们总是可以找到这样一族可对角化矩阵 , 并且每个 按照上面的证明都满足
然后我们不假思索地两边取 的极限, 凭借我们在高数中给出的直觉(连续函数可以和极限交换), 就可以得到
这个对于数学系的人大概是说不过去的, 毕竟极限放到函数里面是需要证明的, 但是既然我不是数学系的, 我觉得这样就足够糊弄过去了. 毕竟前面 在 我也是直接引用而不加证明糊弄过去的.
不过为了能从更多角度说服我自己, 我还是找到了另一个证明方式, 这个方式需要用到另一个重要的工具行列式导数, 它是矩阵导数的一部分, 在机器学习中经常遇到. 这里我们介绍一下符号, 设 , 是一个以 的矩阵元为变量的标量函数, 比如说 , , , 其中 是一个列向量. 则 是一个和 形状相同的矩阵, 其矩阵元为
其中 是 的矩阵元. 矩阵导数还有更多更复杂的内容, 这里不予以介绍. 现在我们假设 是 的函数, 则 也是 的函数, 它对 的导数根据链式法则就可以写成
接下来我必须用到线代中一个至关重要的公式, 即行列式归纳法成立的重要依据: 行列式按代数余子式展开(Laplace展开定理的特殊情况):
其中 是指元素 的代数余子式. 于是
而我们知道代数余子式构成的矩阵的转置就是 的伴随矩阵 (在一些书中用 表示伴随矩阵, 但是会和前文中复共轭符号混淆, 因此这里采用波浪的方式), 于是上面的计算指出
而在线性代数课程中, 我们曾学过可逆矩阵的一个重要性质:
由此我们就得到
其中 . 接下来我们总是假设 可逆(至于为什么, 我们很快就能看到了). 接下来设 , 则按照前文所述(注意此时转置已经以分量形式表示了)
这就是行列式导数的计算公式之一了. 基本上也是其它导数公式的基础, 但是本文不计划讨论更多复杂的形式.
现在我们注意一下, 对于任意的复矩阵 , 因为 , 因此 可逆, 这就是前文我们提到的对易性的妙用, 因为 , 于是 满足的性质 和 也就自然满足了. 因此, 当我们试图解决 式的证明时天然就有一个可逆的矩阵 在那里放着. 为了使用上面的行列式导数公式, 我们需要让 是 的函数, 最简单的做法自然就是令
然后我们令
方便起见, 采用物理上常用的点记号 表示对 的导数, 并注意到 交换, 即 ,
注意这里 是一个常数, 因此 满足一个常见的微分方程
众所周知, 它的解为 , 其中 . 于是我们得到
而 , 于是 , 因此我们最终得到
接下来只需要取 , 则立刻得到
这就是前文给出的 式, 有它很容易给出 .
这里的第二种方法看起来就没有那么糊弄人了(其实还是糊弄了一部分的, 比如对 的求导得到 的证明, 又比如说 可以仿照普通微分方程那样求解等, 但是这些本来就是量子力学中经常干的事, 因此也不需要大惊小怪), 大概就能说服我了.
作者介绍
