PCA(主分量分析)
主分量分析 (PCA) 是一种技术,可以在保留数据中所存在变异的同时降低数据维数。本质上,相当于构建了一个新的坐标系,使数据变化沿第一个轴最强,沿第二个轴减弱,以此类推。然后,数据点转换到这个新的坐标系中。轴的方向称为主分量。
如果输入数据是具有 p 列的表,则可能最多存在 p 个主分量。但是,通常情况下,沿第 k 个主分量方向的数据变化几乎可以忽略不计,这使我们只保留前 k 个分量。因此,新坐标系的轴较少。因此,转换后的数据表只有 k 列而不是 p 列。一定要记住,k 个输出列不仅仅是 p 个输入列的子集。相反,k 个输出列中的每个列都是所有 p 个输入列的组合。
可以使用以下函数来训练和应用 PCA 模型:
有关完整示例,请参阅使用 PCA 降维。