【机器学习】降维——SVD原理以及示例

SVD算法

奇异值分解（Singular Value Decompositionm,简称SVD）是在机器学习领域应用较为广泛的算法之一，也是学习机器学习算法绕不开的基石之一。SVD算法主要用在降维算法中的特征分解、推荐系统、自然语言处理计算机视觉等领域。奇异值分解（SVD）通俗一点讲就是将一个线性变换分解为两个线性变换，一个线性变换代表旋转，一个线性变换代表拉伸。

注：SVD是将一个矩阵分解成两个正交矩阵和一个对角矩阵，我们知道正交矩阵对应的变换是旋转变换，对角矩阵对应的变换是伸缩变换。

1.矩阵相关概念

上一篇：降维——PCA降维及原理推导详细介绍了PCA算法，其中核心思想就是矩阵中的特征值和特征向量，为了后续内容的进行，在此，对此部分内容进一步做详细介绍。

1.1特征值和特征向量

关于特征值和特征向量的定义如下：
$Ax=\lambda x$ 其中 $A\in R^{n \times n}$ 的一个矩阵， $x$ 是一个 $n$ 维向量，即 $x \in R^n$ ,如果上式成立，我们则称 $\lambda$ 为矩阵 $A$ 的特征值，称 $x$ 为 $\lambda$ 所对应的特征向量。

1.2特征分解

如果我们求出了矩阵 $A$ 的 $n$ 个特征值 $λ_1≤λ_2≤\cdots≤λ_n$ ,以及这 $n$ 个特征值所对应的特征向量 $\{w_1,w_2,\cdots,w_n\}$ ,如果这 $n$ 个特征向量线性无关，那么矩阵 $A$ 就可以用下式的特征分解表示：
$A=W\Sigma W^{-1}$ 其中 $W=(w_1,w_2,\cdots,w_n)$ 而 $\Sigma$ 为：
$\Sigma=\begin{pmatrix}\lambda_1&\\ &\lambda_2\\ &&\cdots\\ &&&\lambda_n \end{pmatrix}$ 一般我们会把 $W$ 的这 $n$ 个特征向量标准化，即满足 $||w_i||_2=1$ ，或者说 $w_i^Tw_i =1$ ,此时 $W$ 的 $n$ 个特征向量为标准正交基，且满足 $W^TW=I$ ,即 $W^T=W^{-1}$ ,此时我们称 $W$ 为酉矩阵。
故，此时我们的特征分解表达式可以写成
$A=W \Sigma W^T$ 但是有一个局限，进行特征分解的矩阵必须是方阵，但是我们拿到的数据往往都不是方阵的形式，所以对于 $n\times m$ 的矩阵，如何进行特征分解？对于这个问题，SVD算法应运而生。

2.特征分解的几何意义。

首先，要明确的是，一个矩阵其实就是一个线性变换，因为一个矩阵乘以一个向量后得到的向量，其实就相当于将这个向量进行了线性变换。比如说下面的一个矩阵：
$M=\begin{bmatrix} 3&0\\ 0&1\\ \end{bmatrix}$
它其实对应的线性变换是下面的形式：

因为这个矩阵 $M$ 乘以一个向量 $(x,y)$ 的结果是：
$\begin{bmatrix} 3&0\\ 0&1 \end{bmatrix}\begin{bmatrix}x\\y\end{bmatrix}=\begin{bmatrix}3x\\y\end{bmatrix}$
上面的矩阵是对称的，所以这个变换是一个对 $x$ ， $y$ 轴的方向一个拉伸变换（每一个对角线上的元素将会对一个维度进行拉伸变换，当值>1时，是拉长，当值<1时时缩短），当矩阵不是对称的时候，假如说矩阵是下面的样子：
$M=\begin{bmatrix} 1&1 \\ 0&1 \end{bmatrix}$
它所描述的变换是下面的样子：

这其实是在平面上对一个轴进行的拉伸变换（如蓝色的箭头所示），在图中，蓝色的箭头是一个最主要的变化方向（变化方向可能有不止一个）。如果我们想要描述好一个变换，那我们就描述好这个变换主要的变化方向就好了。反过头来看看之前特征值分解的式子，分解得到的Σ矩阵是一个对角阵，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）。
当矩阵是高维的情况下，那么这个矩阵就是高维空间下的一个线性变换，这个线性变化可能没法通过图片来表示，但是可以想象，这个变换也同样有很多的变换方向，我们通过特征值分解得到的前N个特征向量，那么就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向，就可以近似这个矩阵（变换）。也就是之前说的：提取这个矩阵最重要的特征。总结一下，特征值分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么，可以将每一个特征向量理解为一个线性的子空间，我们可以利用这些线性的子空间干很多的事情。不过，特征值分解也有很多的局限，比如说变换的矩阵必须是方阵。

3.奇异值分解

正如上文所示，特征分解只适用于方阵的情况，但是对于不是方阵的矩阵，我们需要用SVD算法进行特征分解。假设我们定义矩阵 $A$ 的SVD为：
$A = U\Sigma V^T$ 其中 $U$ 是一个 $m \times m$ 的矩阵， $\Sigma$ 是一个 $m\times n$ 的矩阵，除了主对角线上的元素以外，其余的元素均为零。其中主对角线上每个元素都称为奇异值， $V$ 是一个 $n\times n$ 的矩阵。 $U$ 和 $V$ 都是酉矩阵，即满足 $U^TU=I,V^TV=I$ 。如下图所示，其中 $r$ 为矩阵 $A$ 的秩。

转换成数学公式就是：
$\begin{aligned}A&=\underbrace{(U_1\ U_2)}_{U}\ \underbrace{\begin{pmatrix}\Sigma_1&0_{r\times(n-r)}\\ 0_{(m-n)\times r}&0_{(m-r)\times(n-r)} \end{pmatrix}}_{\Sigma}\ \underbrace{\begin{pmatrix}V_1^T\\V_2^T\end{pmatrix}}_{V^T}\\ &=U\Sigma V^T\\ &=U_1\Sigma_1V_1^T\\ &=\Sigma_{i=1}^r\sigma_iu_iV_i^T \end{aligned}$
那么如何求出SVD分解后的 $U,\Sigma,V$ 这三个矩阵呢？
我们将奇异值和特征值联系起来。首先，我们用矩阵A的转置乘以A，得到一个方阵，用这样的方阵进行特征分解，得到的特征值和特征向量满足下面的等式：
$(A^TA)v_i=\lambda_iv_i$
此时我们可以得到矩阵 $A^TA \in R^{n \times n}$ 的 $n$ 个特征值和对应的 $n$ 个特征向量 $v_i$ （右奇异向量）。而将所有的特征向量按行排列，就构成了SVD公式中的V矩阵了。
其次,我们求 $AA^T \in R^{m\times m}$ 的矩阵的特征分解，我们得到以下公式：
$(AA^T)u_i=\lambda_1u_i$
这样我们就可以得到矩阵 $AA^T$ 的 $m$ 个特征值和对应的 $m$ 个特征向量 $u_i$ （左奇异向量）了。将 $AA^T$ 的所有特征向量按列排列就构成了 $m\times m$ 的矩阵 $U$ ，就是我们SVD公式里面的 $U$ 矩阵了。

证明:为什么 $A^TA$ 的特征向量就构成了右奇异向量?为什么 $AA^T$ 中的特征向量就构成了左奇异向量？以右奇异向量为例：
$A=U\Sigma V^T\qquad\qquad\qquad A^T=V\Sigma^TU^T$
$A^TA=V\Sigma^TU^TU\Sigma V^T=V\Sigma^2V^T \qquad\qquad \cdots(1)$
其中由于U为正交向量，所以 $U^TU=I,\Sigma^T\Sigma=\Sigma^2$ ,故可以结论得证。

得到奇异向量以后，我们接着求奇异值，求奇异值的方法有两种：
补充： $U \in M_n(R)$ 满足 $U^TU=I$ ，则 $U$ 是实正交矩阵。

第一种
$A=U\Sigma V^T \Rightarrow AV=U\Sigma V^TV \Rightarrow AV=U\Sigma \Rightarrow Av_i=\sigma_iu_i$
进而可得： $\sigma_i=\frac{Av_i}{u_i}$
第二种
通过（1）式的证明，我们可以很容易的得到 $A^TA$ 和 $AA^T$ 的特征值等于对应奇异值的平方。即：
$\sigma_i=\sqrt{\lambda_i}$
这里的 $\sigma_i$ 就是奇异值，奇异值 $\sigma_i$ 跟特征值类似，在矩阵 $\Sigma$ 中也是从大到小排列。

4.SVD算法示例

假定矩阵 $A$ 如下：
$\mathbf{A} = \left( \begin{array}{ccc} 0& 1\\ 1& 1\\ 1& 0 \end{array} \right)$
根据上面的计算步骤，我们首先构造出 $A^TA$ 和 $AA^T$ :
$\mathbf{A^TA} = \left( \begin{array}{ccc} 0& 1 &1\\ 1&1& 0 \end{array} \right) \left( \begin{array}{ccc} 0& 1\\ 1& 1\\ 1& 0 \end{array} \right) = \left( \begin{array}{ccc} 2& 1 \\ 1& 2 \end{array} \right)$
$\mathbf{AA^T} = \left( \begin{array}{ccc} 0& 1\\ 1& 1\\ 1& 0 \end{array} \right) \left( \begin{array}{ccc} 0& 1 &1\\ 1&1& 0 \end{array} \right) = \left( \begin{array}{ccc} 1& 1 & 0\\ 1& 2 & 1\\ 0& 1& 1 \end{array} \right)$
对 $A^TA$ 进行特征分解，如下：
$\lambda_1= 3; v_1 = \left( \begin{array}{ccc} 1/\sqrt{2} \\ 1/\sqrt{2} \end{array} \right); \lambda_2= 1; v_2 = \left( \begin{array}{ccc} -1/\sqrt{2} \\ 1/\sqrt{2} \end{array} \right)$
对 $AA^T$ 进行特征分解，如下：
$\lambda_1= 3; u_1 = \left( \begin{array}{ccc} 1/\sqrt{6} \\ 2/\sqrt{6} \\ 1/\sqrt{6} \end{array} \right); \lambda_2= 1; u_2 = \left( \begin{array}{ccc} 1/\sqrt{2} \\ 0 \\ -1/\sqrt{2} \end{array} \right); \lambda_3= 0; u_3 = \left( \begin{array}{ccc} 1/\sqrt{3} \\ -1/\sqrt{3} \\ 1/\sqrt{3} \end{array} \right)$
利用第一种方法求解，即 $Av_i=\sigma_i u_i,i=1,2$ 求奇异值。
$\left( \begin{array}{ccc} 0& 1\\ 1& 1\\ 1& 0 \end{array} \right) \left( \begin{array}{ccc} 1/\sqrt{2} \\ 1/\sqrt{2} \end{array} \right) = \sigma_1 \left( \begin{array}{ccc} 1/\sqrt{6} \\ 2/\sqrt{6} \\ 1/\sqrt{6} \end{array} \right) \Rightarrow \sigma_1=\sqrt{3}$
$\left( \begin{array}{ccc} 0& 1\\ 1& 1\\ 1& 0 \end{array} \right) \left( \begin{array}{ccc} -1/\sqrt{2} \\ 1/\sqrt{2} \end{array} \right) = \sigma_2 \left( \begin{array}{ccc} 1/\sqrt{2} \\ 0 \\ -1/\sqrt{2} \end{array} \right) \Rightarrow \sigma_2=1$
故最终的奇异值分解结果如下:
$A=U\Sigma V^T = \left( \begin{array}{ccc} 1/\sqrt{6} & 1/\sqrt{2} & 1/\sqrt{3} \\ 2/\sqrt{6} & 0 & -1/\sqrt{3}\\ 1/\sqrt{6} & -1/\sqrt{2} & 1/\sqrt{3} \end{array} \right) \left( \begin{array}{ccc} \sqrt{3} & 0 \\ 0 & 1\\ 0 & 0 \end{array} \right) \left( \begin{array}{ccc} 1/\sqrt{2} & 1/\sqrt{2} \\ -1/\sqrt{2} & 1/\sqrt{2} \end{array} \right)$

5.奇异值分解特性

对于奇异值,它跟我们特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，而且奇异值的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说，我们也可以用最大的 $k$ 个的奇异值和对应的左右奇异向量来近似描述矩阵。也就是说：
$A_{m \times n} = U_{m \times m}\Sigma_{m \times n} V^T_{n \times n} \approx U_{m \times k}\Sigma_{k \times k} V^T_{k \times n}$
其中 $k$ 要比 $n$ 小很多，也就是一个大的矩阵 $A$ 可以用三个小的矩阵
$U_{m \times k},\Sigma_{k \times k} ,V^T_{k \times n}$ 。
正是由于这个性质，SVD可以用于PCA降维，来做数据压缩和去噪。也可以用于推荐算法，将用户和喜好对应的矩阵做特征分解，进而得到隐含的用户需求来做推荐。同时也可以用于NLP中的算法，比如潜在语义索引（LSI）。
补充：SVD用于PCA的案例参考:奇异值分解(SVD)原理与在降维中的应用

参考文献

奇异值分解(SVD)原理与在降维中的应用
 机器学习中SVD总结
 关于奇异值分解SVD的总结（PCA、LDI）
奇异值分解（SVD）
【直观详解】什么是PCA、SVD

热搜

最近搜索清空