您的位置  > 互联网

(知识点)多元统计学基础知识:核对PCA的介绍

12

核主成分分析

在多元统计领域,核主成分分析(PCA)是使用核方法技术的主成分分析(PCA)的扩展。 使用内核,PCA 的初始线性运算在复制的内核空间中执行。

查看PCA的介绍

要了解核与 PCA 的效用,特别是对于聚类而言,请观察虽然 N 个点通常在 d < N { d 维度中不可线性分离,但它们在 d ≥ N { dgeq N} 维度分离中几乎总是线性可分离。

构造一个超平面将这些点分为任意组是很容易的。 当然,这个 Φ{} 创建线性独立的向量,因此不存在协方差,并且可以像线性 PCA 一样显式地完成。

相比之下,在内核 PCA 中,从不显式计算不平凡的任意 Φ{\\Phi} 函数,从而允许使用非常高维的 Φ{\\Phi} 。 如果我们不需要实际评估这个空间中的数据,我们可以使用非常高维的 Φ { }。 由于我们通常会尽量避免在 Φ{} 中工作,因此我们将其称为“空间”。

这表示其他棘手的特征空间的内积空间(参见格拉姆矩阵)。 创建内核时出现的对偶形式使我们能够在数学上制定 PCA 的版本,其中我们从未实际求解 Φ ( x ) { ( {x} )} 空间中协方差矩阵的特征向量和特征值(请参阅核心技能)。 K 的每一列中的 N 个元素表示变换数据的一个点相对于所有变换点(N 个点)的点积。 下面的示例显示了一些著名的内核。

由于我们从不直接在特征空间中工作,PCA 的内核式计算受到限制,因为它计算的不是主成分本身,而是数据到这些成分上的投影。 评估从特征空间中的点 Φ (x) {Phi ({x})} 到第 k 个主成分 V k { V{k}} 的投影。

我们注意到 Φ ( xi ) T Φ ( x ) { ( {x_{i}} ){T}Phi ( {x} )} 表示点积,它就是核 K 的元素 { K}。看来剩下的就是计算和标准化 aik {a_{i}} { {x}} 了。 {k}},这可以通过求解特征向量方程来完成

其中 N 是集合中数据点的数量,λ{} 和 a{{a} 是特征值。 }是K{K}的特征值和特征向量。 然后,为了对特征向量ak { { {a} {k}}进行归一化,我们要求对特征向量ak { { {a} {k}}进行归一化。

需要注意的是,无论 x{x} 在其原始空间中是否具有零均值,都不能保证它在特征空间中居中(我们从未明确计算过这一点)。 由于中心数据对于执行有效的主成分分析是必要的。