高维向量的最佳聚类算法

3

我试图在一个具有45维的数据点向量集上使用某种聚类方法。我对聚类数据点还很新,想知道是否有适合的方法可供利用?我尝试过使用K-Means聚类,但不确定我的数据维数是否太大了。


它并不太大,一点也不。 - Nathan McCoy
2个回答

1

45个维度并不特别高。它最多是“中等”维度,因此大多数算法可能可以工作。

通常情况下,问题不在于维度的数量,而在于预处理的质量如何。如果一个属性中的信号被另一个属性中的噪声淹没,那么即使只有2个维度也可能会出现问题。

没有自动的方法可以解决这个问题,否则所有库都会包含它。缩放可以帮助,但也可能会造成伤害。用户需要准备数据并选择参数(例如距离函数和算法)以实现所需的效果,因为“理想”的计算公式不存在。


0

K-means聚类的复杂度为O(qknp),其中q是迭代次数,k是簇的数量,n是样本大小,p是维度。

你可能不想改变k。

大多数情况下,q是在执行K-Means算法期间确定的,当簇均值停止变化时,它会停止。

大多数情况下,您希望使用所有数据,但您可以减少样本大小,这将降低结果的准确性。

您可以通过使用主成分分析来减少数据的维数。这会导致一些(在大多数情况下很少)信息丢失,从而影响您的结果。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接