我试图在一组非常大的距离上执行fastclust,但遇到了问题。
我有一个非常大的csv文件(大约9100万行,所以在R中使用for循环太长时间)。这些是关键字之间的相似性(大约有50000个唯一关键字),当我读入一个数据框时,看起来像:
> df
kwd1 kwd2 similarity
a b 1
b a 1
c a 2
a c 2
这是一个稀疏列表,我可以使用sparseMatrix()将其转换为稀疏矩阵:
> myMatrix
a b c
a . . .
b 1 . .
c 2 . .
然而,当我尝试使用as.dist()将其转换为dist对象时,R会报错说'问题太大了'。我已经阅读了这里的其他关于dist的问题,但是其他人建议的代码对我上面的数据集并不起作用。
谢谢任何帮助!