非常大的稀疏矩阵聚类?

3
我在尝试对一个非常大且稀疏的矩阵(约500000行x4000列)进行一些(k-means)聚类。每行只有几个“1”值。我想得到大约2000组聚类。
我有两个问题: - 有人可以推荐一个开源平台或工具来完成这个任务(也许使用k-means,也许使用更好的算法)吗? - 我如何最好地估计算法需要完成的时间?我曾经试过使用weka,但在几天后中止了作业,因为我无法确定它需要多长时间。
谢谢!

这是为实时应用程序还是为您自己的开发而设计的? - nsivakr
1
在https://dev59.com/8E7Sa4cB1Zd3GeqP3W2o中重新提问。 - Andrew Dalke
3个回答

1

请勿仅发布链接作为答案,解释为什么这个回答符合OP的问题。 - Gabriel

1
对于您的情况,我猜测您的问题只在于输入大小。
我建议使用“cluto”作为大型稀疏数据集的好工具。它是用C编写的。我已经尝试过大约1700万行和大约400列。它运行速度很快。 Cluto库的链接

0
你可以尝试在R中使用sparcl包,它实现了稀疏k-means和层次聚类。不过理解起来并不容易。

1
请注意,Sparcl在特征选择方面是“稀疏”的,并且不解决相似性矩阵的n^2存储问题。 - Chris

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接