我有一个来自Scipy的大型稀疏矩阵(300k x 100k,所有值都是二进制的,大多数为零)。我想将这个矩阵的行设置为RDD,然后对这些行进行一些计算 - 在每行上评估函数,在一对行上评估函数等等。
关键是它非常稀疏,我不想使集群崩溃 - 我可以将行转换为SparseVectors吗?或者将整个矩阵转换为SparseMatrix?
您能否举例说明如何读取稀疏数组,将行设置为RDD,并从这些行的笛卡尔积中计算某些内容?
关键是它非常稀疏,我不想使集群崩溃 - 我可以将行转换为SparseVectors吗?或者将整个矩阵转换为SparseMatrix?
您能否举例说明如何读取稀疏数组,将行设置为RDD,并从这些行的笛卡尔积中计算某些内容?