聚类算法
聚类是一种重要且流行的机器学习工具,用于在数据集中查找彼此相似的项目群集。聚类的目标是创建具有大量相似对象的群集。与分类类似,聚类对数据进行分段。不过,在聚类中,不定义分类组。
将数据聚类成相关的组有许多有用的应用场合。如果您已经知道数据包含多少个群集,则 K-均值 算法可能足以训练您的模型并使用该模型来预测新数据点的群集成员资格。
但是,在更常见的情况下,您在分析数据之前不知道它包含多少个群集。在这些情况下,二等分 k-means 算法可以更有效地在您的数据中找到正确的群集。
k-means 和二等分 k-means 都预测给定数据集的群集。然后,可以使用借助于任一算法训练的模型来预测分配新数据点的群集。
聚类可用于发现数据中的异常并找到自然的数据组。例如,您可以使用聚类来分析地理区域并确定该区域中最有可能遭受地震袭击的区域。有关完整示例,请参阅使用 KMeans 方法进行地震群集分析。
在 Vertica 中,基于欧几里德距离计算聚类。通过这种计算,数据点被分配到具有最近中心的群集。