以线性变换视角看矩阵

Mmn 表示一个m行n列的矩阵。 建议您默认以列向量的视角来看一个矩阵。用 m1m2,…,mn 表示 Mmn的列向量。因此也可以用 [m1m2,…,mn] 表示 Mmn。 这里先选取简单情况:M为nn的方阵。对于任意nx1的向量 ab = Ma 可以视为对a做了一个线性变换:将a的n个单位基向量分别拉伸到 m1m2,…,mn,得到向量 b

最直白的矩阵——对角矩阵、正交矩阵

对角矩阵与正交矩阵都是方阵,因为运算便捷、可解释性强,很受人喜欢。 就像自然数是研究数论的基石一样,对角矩阵和正交矩阵就是研究线性代数的基石。

对角矩阵就很好理解了,即只对每个基向量进行压缩拉伸,而不扭转旋转。

正交矩阵,即对整组正交基保持原状作旋转,而不压缩拉伸。

正交矩阵有几个性质,它们将加速你遇到正交矩阵后的问题处理速度:

  • AT=A1
  • AAT=ATA=I
  • A的n个列向量都是单位向量且彼此正交
  • A的n个行向量都是单位向量且彼此正交
  • $ det(A) = 1$(当然也就表示rank(A)为n)

这些都很好理解,而且证明过程很简单,这里就不写出来了。

对称矩阵的特征值分解

任意满秩方阵都可以进行特征值分解,这很简单就不在这里证明了。 实际应用中,出场率比较高的是对称矩阵。

对于对称矩阵M,必有正交矩阵 A,使得 M=Anndiagn(λ)ATnn

即,任意对称矩阵的线性变换可以看作依次进行旋转变换 AT、伸缩变换 diagn(λ)、逆旋转变换 A

这是对以上的证明:

  • 充要条件M为n行n列对称矩阵, det(M) > 0。
  • 得到结论:存在正交矩阵 A和对角矩阵 diag(λ),使得 M=Adiagn(λ)A1
  • 证明过程
    • 如果满秩矩阵M是一个对称矩阵,那就是说M=MT
    • 已知M可以分解为M=Anndiagn(λ)ATnn,那么MATnn=Anndiagn(λ)
    • 进而有 ATM=ATMT=(MA)T=(Adiag(λ))T=diag(λ)AT
    • 进而有 M=(AT)1diag(λ)AT
    • 结合 M=Anndiagn(λ)A1nn,即有AT=A1
    • 故A为正交矩阵,故 M=Anndiagn(λ)ATnn

EVD算法:


Input: M

Output: A, diagn(λ)

计算λ,根据det(MλI)=0

λ的不同解分别代入(MλI)a=0,计算出各自对应的向量a。组成矩阵A。


Ok,相信你已经能接受认可以上所述。我们从线性代数的角度找到了这个规律,那就可以在任何满足充要条件的场景下使用这个规律了。

PageRank算法

任意矩阵的奇异值分解

如果你学会了特征值分解,但没有听过奇异值分解,看到缺乏美感的非方阵,你一定会有这种灵感直觉:非方阵即mn的矩阵,应该也能分解成对角矩阵和正交矩阵吧? 没错,接下来我们一起研究并证实确认你的直觉是对的。

任意线性变换都可以分解为:依次进行一个旋转变换、一个伸缩变换、一个旋转变换。 即,对于任意矩阵 Mmn,都存在正交矩阵 UmmVnn,伪对角矩阵 Σmn,使得 M=UΣVT

这里先给出这条规律的完整陈述和证明:

  • 充要条件:任意mn的矩阵M
  • 得到结论:存在正交矩阵 Umm、正交矩阵 Vnn、伪对角矩阵 ΣmnM=UBVT
  • 证明过程
    • 易证 (AB)T=BTAT,故有(MTM)T=MTM。从这里看出 MTM是对称矩阵;
    • 因此MTM可以进行正交分解,即存在正交阵 Vnn和对角阵 diagn(λ)使得 MTM=Vnndiagn(λ)VTnn
    • 把上式进一步推导,存在正交阵 Umm和伪对角矩阵 Σmn(满足ΣΣT=diagn(λ)),使得 MTM=Vnn(Σmn)TUTmmUmmΣmnVTnn=(UmmΣmnVTnn)T(UmmΣmnVTnn)
    • 从而有 M=UΣVT

SVD算法:


Input: M

Output: U, Σ, V

计算S = MULTIPLY( M, MT )

计算V, diagn(λ) = EVD( S )

计算Σmn,根据(Σmn)TΣmn=diagn(λ)

计算U=MV(Σ)T


Ok,相信你已经能接受认可以上所述。

利用 Mmn=σ1uT1v1+σ2uT2v2++σnuTnvn,就可以将 Mmn视为多项之和。因为 uv都是单位向量,那么 σ大小就代表了这个项的权重占比。

r(M)近似公式, $Argmin_{r(X) = r(M)} M-X = U^{-}{nn}\Sigma{nn}V_{nn}^{T}U^{-}{nn}U{mn}$在长边m上的n截断。

我们从线性代数的角度找到了这个规律,那就可以在任何满足充要条件的场景下使用这个规律了。

主成分分析

图像降噪