非常大的稀疏矩阵聚类？

Question

3

我在尝试对一个非常大且稀疏的矩阵（约500000行x4000列）进行一些（k-means）聚类。每行只有几个“1”值。我想得到大约2000组聚类。

我有两个问题： - 有人可以推荐一个开源平台或工具来完成这个任务（也许使用k-means，也许使用更好的算法）吗？ - 我如何最好地估计算法需要完成的时间？我曾经试过使用weka，但在几天后中止了作业，因为我无法确定它需要多长时间。

谢谢！

- movingabout

这是为实时应用程序还是为您自己的开发而设计的？ - nsivakr

1

在https://dev59.com/8E7Sa4cB1Zd3GeqP3W2o中重新提问。 - Andrew Dalke

3个回答

1

对于您的情况，我猜测您的问题只在于输入大小。

我建议使用“cluto”作为大型稀疏数据集的好工具。它是用C编写的。我已经尝试过大约1700万行和大约400列。它运行速度很快。 Cluto库的链接

- korolevbin

0

你可以尝试在R中使用sparcl包，它实现了稀疏k-means和层次聚类。不过理解起来并不容易。

- svural

1

请注意，Sparcl在特征选择方面是“稀疏”的，并且不解决相似性矩阵的n^2存储问题。 - Chris

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Doug · Accepted Answer

1

- Doug

请勿仅发布链接作为答案，解释为什么这个回答符合OP的问题。 - Gabriel